KI-Sicherheitsbeschränkungen, die etwa dafür sorgen, dass keine Anleitungen für den Bombenbau verbreitet werden, lassen sich mit einfachsten Mitteln umgehen. So ist es laut einem
Bericht von "Toms Hardware" US-amerikanischen Forschern gelungen, die Sicherheitsmassnahmen zu überlisten, indem die Anweisungen in Form von ASCII-Kunst der KI übergeben werden.
Wird eine KI per Tastaturanweisung gefragt, wie man eine Bombe baue, wird die Frage aufgrund der geltenden Sicherheitsbestimmungen zurückgewiesen. Wird das Wort "Bombe" aber nicht getippt, sondern als ASCII-Grafik übermittelt, spuckt die KI die angeforderte Antwort aber anstandslos aus. Die Forscher haben mit dem als ArtPrompt bezeichneten Angriffsvektor gängige Sprachmodelle wie GPT-3.5, GPT-4, Claude, Gemini sowie Llama2 getestet. Sie
halten fest, dass der Erfolg des Jailbreak via ArtPrompt zwar von der Grösse und Anordnung der ASCII-Zeichen abhängt, doch liessen sich alle getesteten LLMs zu unerwünschtem Verhalten bewegen.
(rd)