LLMs zeigen keine Anzeichen von gefährlicher Verselbstständigung

Grosse Sprachmodelle entwickeln derzeit auch im Zuge von Skalierung keine eigenständigen und potenziell gefährlichen Fähigkeiten, wie ein Forscherteam herausgefunden hat.

13. August 2024

Erlangen grosse Sprachmodelle eigenständig Fähigkeiten, ohne dass sie gezielt darauf trainiert wurden? Dieser Frage ging ein Forscherteam der Technischen Universität Darmstadt und der Universität von Bath im Rahmen einer Forschungsarbeit nach. Plötzliche Leistungssprünge der KIs, die als "emergente Fähigkeiten" bezeichnet werden, seien demnach eine treibende Kraft in den Diskussionen über das Potenzial und die Risiken von Sprachmodellen. Allerdings scheint es laut der Studie aktuell keine Anzeichen dafür zu geben, dass die LLMs auch im Zuge von Skalierung über sich beziehungsweise ihre antrainierten Skills hinauswachsen.

Insgesamt haben die Forscher mit 20 Modellen aus vier Familien gearbeitet: GPT, T5, Falcon und LLaMA. Zur Anwendung kamen dabei 22 Aufgaben in zwei unterschiedlichen Settings. "Unsere Ergebnisse legen nahe, dass vermeintlich emergente Fähigkeiten nicht wirklich emergent sind, sondern aus einer Kombination von kontextbezogenem Lernen, Modellgedächtnis und sprachlichem Wissen resultieren", schlussfolgern die Forscher. "Unsere Arbeit ist ein grundlegender Schritt zur Erklärung der Leistung von Sprachmodellen, da sie eine Vorlage für ihre effiziente Nutzung liefert und das Paradoxon aufklärt, dass sie in einigen Fällen überragend sind, während sie in anderen Fällen versagen." So zeige die Arbeit, dass die Fähigkeiten der Modelle aktuell nicht überschätzt werden sollten. Man könne ihren Lernprozess gut steuern.

Gleichzeitig mahnen die Studienautoren aber: "Unsere Arbeit impliziert nicht, dass LLMs absolut kein Schadenspotenzial haben". Indem sie die ausgefeilten sprachlichen Fähigkeiten von LLMs nutzen, könnten böswillige Akteure beispielsweise sehr überzeugende und personalisierte Fake-News-Artikel oder Phishing-Nachrichten erstellen, die immer schwieriger von legitimen Nachrichten zu unterscheiden seien. Gleichzeitig sind die Sprachmodelle aber wohl noch weit entfernt von menschlichen kognitiven Fähigkeiten und von einer "Vorstufe einer KI-gesteuerten existenziellen Bedrohung". (sta)

Advertorial

LLMs zeigen keine Anzeichen von gefährlicher Verselbstständigung

OpenAI senkt Preise für GPT-4o und lanciert Structured Outputs

OpenAI entwickelt Tool zum Erkennen KI-generierter Texte

OpenAI startet mit Voice Mode für ChatGPT

Wie Workplace as a Service den digitalen Arbeitsplatz neu ordnet

Phishing-Alarm in Microsoft 365 und Google Workspace

Erfolg mit KI-Agenten durch fünf Schlüsselfaktoren

Die effizienteste IT-Strategie? Ist hybrid.

Wirkung im Ziel!

Cyber Resilience Act: Auswirkungen auf Embedded Device Security