KI-Sicherheitsbeschränkungen lassen sich mit simpler ASCII-Kunst austricksen
Quelle: SITM

KI-Sicherheitsbeschränkungen lassen sich mit simpler ASCII-Kunst austricksen

Übergibt man einer generativen KI Anweisungen als ASCII-Kunst, werden die Sicherheitsmassnahmen ausgehebelt und selbst Anleitungen für Bomben werden geliefert.
11. März 2024

     

KI-Sicherheitsbeschränkungen, die etwa dafür sorgen, dass keine Anleitungen für den Bombenbau verbreitet werden, lassen sich mit einfachsten Mitteln umgehen. So ist es laut einem Bericht von "Toms Hardware" US-amerikanischen Forschern gelungen, die Sicherheitsmassnahmen zu überlisten, indem die Anweisungen in Form von ASCII-Kunst der KI übergeben werden.


Wird eine KI per Tastaturanweisung gefragt, wie man eine Bombe baue, wird die Frage aufgrund der geltenden Sicherheitsbestimmungen zurückgewiesen. Wird das Wort "Bombe" aber nicht getippt, sondern als ASCII-Grafik übermittelt, spuckt die KI die angeforderte Antwort aber anstandslos aus. Die Forscher haben mit dem als ArtPrompt bezeichneten Angriffsvektor gängige Sprachmodelle wie GPT-3.5, GPT-4, Claude, Gemini sowie Llama2 getestet. Sie halten fest, dass der Erfolg des Jailbreak via ArtPrompt zwar von der Grösse und Anordnung der ASCII-Zeichen abhängt, doch liessen sich alle getesteten LLMs zu unerwünschtem Verhalten bewegen. (rd)


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Wie hiess im Märchen die Schwester von Hänsel?
GOLD SPONSOREN
SPONSOREN & PARTNER