Grosse KI-Sprachmodelle (Large Language Models, LLMs) benötigen enorme Leistung, die im Allgemeinen von spezialisierten GPUs kommt. Diese sind teuer und verbrauchen viel Strom – für die Provider von KI-Diensten aus der Cloud ebenfalls ein riesiger Kostenpunkt.
Forscher des Microsoft-Azure-Teams habem sich des Problems angenommen und sind zu einer verblüffenden Lösung gekommen. Eine neue Technologie namens Splitwise soll die Inferenzberechnungen der LLMs deutlich effizienter und nachhaltiger machen. Die Verarbeitung wird dabei in die zwei Phasen Prompt-Verarbeitung und Token-Generierung unterteilt und diese auf verschiedene GPU-Cluster und Maschinen verteilt. Splitwise macht sich die Tatsache zunutze, dass die Prompt-Verarbeitung viel GPU-Rechenkapazität in Anspruch nimmt, während die Token-Generierung auf eine hohe Memory-Bandbreite angewiesen ist.
Genaueres zu Splitwise schildert
ein ausführliches Paper.
Microsoft will mit Splitwise einen 1,4-fachen Durchsatz bei 20 Prozent niedrigeren Kosten als bei bisherigen Systemdesigns beziehungsweise den 2,35-fachen Durchsatz bei gleichen Kosten und Energiebudgets erreicht haben.
(ubi)