Meta hat am Wochenende das neue KI-Modell Llama 4 veröffentlicht. Und diesen Anlass nutzte der Konzern direkt dazu, um in einem Blog-Beitrag die Performance der beiden Versionen des Modells anzupreisen. Sie sollen in vielen Punkten gleich gut oder besser abschneiden als die Alternativen von OpenAI und Google.
Speziell ging es um die sogenannte LM Arena, in der User Chatbots bewerten können und so gemeinsam einen Score generieren. Nutzer aus der Community kritisierten jedoch, dass
Meta eine andere Version von Llama 4 Maverick ins Rennen geschickt hatte, als jene, die jetzt öffentlich zur Verfügung steht. So soll die getestete Version experimentell und speziell für Chat-Konversationen optimiert worden sein. Zudem gab es Gerüchte, Meta habe seine Modelle mit entsprechenden Datensätzen gezielt auf die Benchmark-Tests vorbereitet.
Meta wehrt sich wiederum gegen die Kritik. So widersprach GenAI-VP Ahmad Al-Dahle und sagte, dass es schlicht falsch sei, dass spezielle Datensätze zum Einsatz kamen (
via "Techcrunch").
Gegenüber "Heise" erklärte Meta zudem, dass das Unternehmen mit allen möglichen Versionen experimentiere. Das sei auch in der LM Arena der Fall gewesen. Nach wie vor bleibt also die Frage offen, wie aussagekräftig die Benchmark-Ergebnisse wirklich sind.
(sta)