Chinesische KI Deepseek lehrt Silicon Valley das Fürchten

Die Sprachmodelle des chinesischen KI-Start-ups Deepseek haben sich in Benchmarks als leistungsfähiger erwiesen als Metas Llama 4 und OpenAIs o1. Dennoch soll Deepseek nur einen Bruchteil der Kosten für das Training der Modelle aufgewendet haben als die grossen US-Konkurrenten.

27. Januar 2025

Das kleine chinesische KI-Unternehmen Deepseek liegt mit seinen LLMs R1 und VC3 an der Spitze von KI-Benchmarks. So soll das neuere Sprachmodell R1 die Leistung von OpenAIs o1-Modell übertreffen, und schon V3 liess Metas Llama 4 sowie OpenAIs GPT 4o hinter sich. Laut dem Online-Magazin "Techstartups" befindet sich die KI-Abteilung von Meta deswegen im Panikmodus, wie einem Teamblind-Post eines anonymen Meta-Mitarbeiters zu entnehmen sei: "Es begann mit Deepseek V3, das Llama 4 in den Benchmarks bereits ins Hintertreffen brachte. Das 'unbekannte chinesische Unternehmen' mit einem Training-Budget von 5,5 Millionen Dollar setzte dem Ganzen die Krone auf. (Unsere) Ingenieure arbeiten fieberhaft daran, Deepseek zu sezieren und alles und jedes zu kopieren, was wir von ihm bekommen können. Ich übertreibe nicht einmal."

Gemäss "Bloomberg" (Paywall) lagen die Kosten von Deepseek für das Training eines seiner neuesten LLMs tatsächlich bei gerade mal 5,6 Millionen US-Dollar – ein Bruchteil des Betrags, den die US-Anbieter von LLMs für das Training ihrer Sprachmodelle aufwenden. So schätzt Anthropic-CEO Dario Amodei die Kosten für Bau und Training eines Modells im Jahr 20024 auf hundert Millionen bis eine Milliarde Dollar. Branchenkenner rätseln, wieso Deepseek so viel günstiger entwickeln kann. Eine Antwort gab der Informatiker Kai-Fu Lee demnach am Asian Financial Forum: "Die USA beherrschen Forschung und Innovation grossartig, was besonders für Durchbrüche gilt. China ist dagegen besser im Engineering: Wenn nur begrenzte Rechenleistung und Geld verfügbar sind, lernt man, alles sehr effizient zu bauen."

Der Benchmark-Erfolg von Deepseek spiegelt sich sogar in den Download-Charts von Apples App Store wider. Der KI-Assisten Deepseek, der das V3-Modell nutzt, liegt an der Spitze der App-Hitparade und hat nach der Veröffentlichung selbst ChatGPT überflügelt. (ubi)

Microsoft und OpenAI lockern ihr Band

23. Januar 2025 - Microsoft und OpenAI geben eine Ergänzung in ihrer Partnerschaft bekannt. Damit darf OpenAI fortan auch anderweitig Rechenleistung beziehen.

ChatGPT Pro für OpenAI defizitär

6. Januar 2025 - Der Dienst ChatGPT Pro kostet das Unternehmen OpenAI trotz erheblichem Abopreis mehr als es damit einnimmt. Zu gerne nutzen die User den unlimitierten Zugang zu rechenintensiven KI-Modellen.

Meta nutzt über 100'000 H100-GPUs für Llama-4-Training

4. November 2024 - Die Llama-4-Sprachmodelle von Meta werden laut Konzernchef Mark Zuckerberg mithilfe eines Clusters trainiert, der aus über 100'000 Nvidia-H100-GPUs besteht. Doch auch andere Unternehmen wie Musks X wollen mit ähnlich grossen Clustern punkten.

Artikel kommentieren