Forscher des deutschen Jülich Supercomputing Center, des Forschungszentrums Jülich und der School of Electrical and Electronic Engineering der University of Bristol haben insgesamt 27 Large Language Models mit einer einfachen Logikaufgabe konfrontiert und sind zur erschreckenden Erkenntnis gelangt, dass mit zwei Ausnahmen alle getesteten LLMs an der Aufgabe scheiterten – noch erschreckender war indes, dass die KI-Modelle auf Nachfrage darauf bestanden, ihre Lösung sei korrekt. Dies mit Argumenten wie " Die Logik hält stand", "die Lösung wird doppelt geprüft" oder "Die Schlussfolgerung ist einfach und klar". Die Aufgabe war wirklich simpel: "Alice hat N Brüder und sie hat M Schwestern. Wie viele Schwestern hat der Bruder von Alice?" Die richtige Antwort ist M + 1. Getestet wurde mit verschiedenen konkreten Werten für N und M.
In der Studie (PDF) merken die Autoren an, dass es bei den meisten Modellen zu gravierenden Störungen komme. "Viele sind nicht in der Lage, auch nur eine einzige korrekte Antwort zu geben." Nur GPT-4 von OpenAI und Claude 3 Opus von Anthropic hätten wenigstens in mehr als 30 Prozent der Fälle die korrekte Antwort geliefert. Untersucht wurden unter anderem GPT-4 und GPT-4o, Claude 3 Opus, Llama-2-70b, Mistral Large und Gemini Pro.
(ubi)