Meta hat die ersten zwei grossen Sprachmodelle der multimodalen "Llama-4-Herde" (für Text, Video, Bilder und Audio) veröffentlicht, wie es
in einem Blogpost heisst. Llama 4 Scout umfasst 17 Milliarden aktive und insgesamt 109 Milliarden Parameter, bietet 16 Experten sowie ein Kontextfenster von 10 Millionen Tokens. Es sei das weltweit beste multimodale Modell seiner Klasse, leistungsfähiger als alle Llama-Modelle der Vorgeneration und passe auf eine einzige H100-GPU von Nvidia. Es liefert laut
Meta anhand zahlreicher Benchmarks bessere Resultate als Gemma 3, Gemini 2.0 Flash-Lite und Mistral 3.1.
Llama 4 Maverick bietet ebenfalls 17 Milliarden aktive Parameter, aber insgesamt 400 Milliarden Parameter sowie 128 Experten und ein Kontextfenster von einer Million Tokens. Llama 4 Maverick übertreffe GPT-4o and Gemini 2.0 Flash und liefere mit Deepseek v3 vergleichbare Ergebnisse bei Reasoning und Coding, hält Meta fest.
Ein drittes Modell, Llama 4 Behemoth, befindet sich aktuell im Preview-Stadium und wird mit 288 Milliarden aktiven und insgesamt 2 Billionen Parametern von Meta als "das intelligenteste Lehrermodell für die Destillation" bezeichnet – die Modelle Scout und Maverick, die sich bei Llama.com und Hugging Face herunterladen lassen, wurden aus Behemoth destilliert.
(ubi)