Llama 4 ist nur mit Tricks top

Meta setzte in einem Benchmark-Test auf LMarena nicht die offiziell freigegebene Variante von Llama 4 Maverick ein, sondern eine speziell auf Konversation zugeschnittene und erreichte so den zweiten Rang. Die offizielle Version schneidet massiv schlechter ab.

14. April 2025

Kürzlich hat Meta die ersten Llama-4-Sprachmodelle freigegeben und die überragende Leistung seiner neuen KI-Modell-Generation in den Vordergrund gestellt ("Swiss IT Magazine" berichtete). So betonte Meta etwa, Llama 4 habe in Tests als zweitbestes Modell nach Googles Gemini 2.5 abgeschnitten.

Jetzt wurde bekannt, dass Meta bei den Tests auf der KI-Benchmark-Plattform LMarena getrickst hat. Zum Einsatz kam nämlich eine speziell getunte Version von Llama 4 Maverick. Meta hat dies inzwischen eingeräumt und neue Tests mit der fürs Publikum freigegebenen Version von Llama 4 Maverick durchgeführt. Und siehe da: Jetzt liegt das Modell auf dem 32. Platz, also weit hinter vielen Konkurrenzmodellen.

Meta entschuldigte sich gemäss "Techcrunch" für die Trickserei mit den Worten: "Llama-4-Maverick-03-26-Experimental ist eine für Chat optimierte Version, mit der wir experimentiert haben und die auf LMarena gut performt." Man wolle nun verfolgen, wie Entwickler die Open-Source-Version Llama-4-Maverick-17B-128E-Instruct auf ihre Use Cases anpassen und sei auf Feedback eingestellt. (ubi)

Advertorial

Llama 4 ist nur mit Tricks top

Meta soll bei KI-Benchmark gemogelt haben - Konzern dementiert

Meta beginnt mit der Lancierung von Llama 4

Meta AI startet in Europa

Erfolg mit KI-Agenten durch fünf Schlüsselfaktoren

Die effizienteste IT-Strategie? Ist hybrid.

Wirkung im Ziel!

Cyber Resilience Act: Auswirkungen auf Embedded Device Security

Zögern Sie noch bei der Automatisierung?

Laptop auf, losarbeiten: sicher, effizient, überall