KI versagt bei simpler Logikaufgabe total

Von 27 getesteten Large Language Models waren in einer Studie nur zwei in der Lage, wenigstens in einigen Fällen die korrekte Antwort auf eine einfache Logikaufgabe zu liefern.

11. Juni 2024

Forscher des deutschen Jülich Supercomputing Center, des Forschungszentrums Jülich und der School of Electrical and Electronic Engineering der University of Bristol haben insgesamt 27 Large Language Models mit einer einfachen Logikaufgabe konfrontiert und sind zur erschreckenden Erkenntnis gelangt, dass mit zwei Ausnahmen alle getesteten LLMs an der Aufgabe scheiterten – noch erschreckender war indes, dass die KI-Modelle auf Nachfrage darauf bestanden, ihre Lösung sei korrekt. Dies mit Argumenten wie " Die Logik hält stand", "die Lösung wird doppelt geprüft" oder "Die Schlussfolgerung ist einfach und klar". Die Aufgabe war wirklich simpel: "Alice hat N Brüder und sie hat M Schwestern. Wie viele Schwestern hat der Bruder von Alice?" Die richtige Antwort ist M + 1. Getestet wurde mit verschiedenen konkreten Werten für N und M.

In der Studie (PDF) merken die Autoren an, dass es bei den meisten Modellen zu gravierenden Störungen komme. "Viele sind nicht in der Lage, auch nur eine einzige korrekte Antwort zu geben." Nur GPT-4 von OpenAI und Claude 3 Opus von Anthropic hätten wenigstens in mehr als 30 Prozent der Fälle die korrekte Antwort geliefert. Untersucht wurden unter anderem GPT-4 und GPT-4o, Claude 3 Opus, Llama-2-70b, Mistral Large und Gemini Pro. (ubi)

Advertorial

KI versagt bei simpler Logikaufgabe total

Opera plant lokale LLMs in One und Opera GX

OpenAI verbessert GPT-4 Turbo für zahlende Kunden

LLM-gestützte Software-Entwicklung

Phishing-Alarm in Microsoft 365 und Google Workspace

Erfolg mit KI-Agenten durch fünf Schlüsselfaktoren

Die effizienteste IT-Strategie? Ist hybrid.

Wirkung im Ziel!

Cyber Resilience Act: Auswirkungen auf Embedded Device Security

Zögern Sie noch bei der Automatisierung?