Meta soll bei KI-Benchmark gemogelt haben - Konzern dementiert

Meta hat laut Kritikern aus der Community Benchmarks manipuliert, um die Performance von Llama 4 zu schönen. Der Konzern wehrt sich jetzt gegen die Vorwürfe.

8. April 2025

Meta hat am Wochenende das neue KI-Modell Llama 4 veröffentlicht. Und diesen Anlass nutzte der Konzern direkt dazu, um in einem Blog-Beitrag die Performance der beiden Versionen des Modells anzupreisen. Sie sollen in vielen Punkten gleich gut oder besser abschneiden als die Alternativen von OpenAI und Google.

Speziell ging es um die sogenannte LM Arena, in der User Chatbots bewerten können und so gemeinsam einen Score generieren. Nutzer aus der Community kritisierten jedoch, dass Meta eine andere Version von Llama 4 Maverick ins Rennen geschickt hatte, als jene, die jetzt öffentlich zur Verfügung steht. So soll die getestete Version experimentell und speziell für Chat-Konversationen optimiert worden sein. Zudem gab es Gerüchte, Meta habe seine Modelle mit entsprechenden Datensätzen gezielt auf die Benchmark-Tests vorbereitet.

Meta wehrt sich wiederum gegen die Kritik. So widersprach GenAI-VP Ahmad Al-Dahle und sagte, dass es schlicht falsch sei, dass spezielle Datensätze zum Einsatz kamen (via "Techcrunch"). Gegenüber "Heise" erklärte Meta zudem, dass das Unternehmen mit allen möglichen Versionen experimentiere. Das sei auch in der LM Arena der Fall gewesen. Nach wie vor bleibt also die Frage offen, wie aussagekräftig die Benchmark-Ergebnisse wirklich sind. (sta)

Meta beginnt mit der Lancierung von Llama 4

7. April 2025 - Mit den neuen, ab sofort erhältlichen LLMs Llama 4 Scout und Maverick tritt Meta laut eigener Aussage in eine neue Ära nativ multimodaler KI-Innovation ein.

Europäisches LLM Mistral Small 3 schneller als GPT-4o mini

3. Februar 2025 - Mit dem neuen grossen Sprachmodell Mistral Small 3 bringt Mistral AI ein kleines Open-Source-LLM, das dreimal so schnell arbeitet wie die weit grösseren oder proprietären Modelle Llama 3.3 und GPT-4o mini.

Chinesische KI Deepseek lehrt Silicon Valley das Fürchten

27. Januar 2025 - Die Sprachmodelle des chinesischen KI-Start-ups Deepseek haben sich in Benchmarks als leistungsfähiger erwiesen als Metas Llama 4 und OpenAIs o1. Dennoch soll Deepseek nur einen Bruchteil der Kosten für das Training der Modelle aufgewendet haben als die grossen US-Konkurrenten.

Artikel kommentieren