Die Unbekannten im Code

Gefahren bei der Integration von Großen Sprachmodellen in Anwendungen

Es ist 2023 und wir gehen davon aus, dass Sie von Large Language Models (LLM) gehört haben. Vielleicht nicht unter diesem Begriff, aber sicher kennen Sie ChatGPT und haben es entweder selbst schon ausprobiert oder kennen jemanden, der das schon mal benutzt hat.

Und vermutlich werden Sie uns zustimmen: Es ist großartig! Es ist eine große Erleichterung im Alltag, es macht uns produktiver und lässt uns “Fleißaufgaben” wie das Generieren, Umformulieren, Kürzen und Bearbeiten von Texten in Sekundenschnelle erledigen.

Sprachmodelle sind – wie auch alle anderen generativen KI Technologien, die gerade trenden – eine disruptive Technologie, die unsere Arbeitswelt und unseren Alltag nachhaltig verändern wird. Und es ist faszinierend und macht Spaß, diesen Umbruch live mitzuerleben.

Aber, so sehr wir auch wünschten, dass es nicht so wäre: Es gibt Probleme. Schwerwiegende Sicherheitsprobleme. Und das kritischste Problem haben wir gefunden und im Februar 2023 analysiert und veröffentlicht.

Große Sprachmodelle – Die drei Stufen der Bedrohung

Stufe 1: Model Misalignment

Ein Sprachmodell kann auf eine Anfrage hin korrekte Sätze konstruieren. Es gibt keine Garantien für den Wahrheitsgehalt. Wer das erwartet, kann enttäuscht werden. Desinformation und Verzerrung (BIAS) in den Trainingsdaten sind reale Gefahren. Man kann ihnen begegnen, indem man nicht jede Ausgabe glaubt und Fakten nochmals überprüft.

Stufe 2: Prompt Injection

Auch diese Methode ist mittlerweile hinlänglich bekannt. Man kann mit speziell formulierten Eingaben (prompts) ein Sprachmodell zu nicht vorgesehenen Reaktionen bewegen. Also beispielsweise zur Ausgabe von Informationen oder aber zum Abschalten von Sicherheitsvorkehrungen. Damit kann der User seinen eigenen Gesprächspartner / Chatbot austricksen. Auch das ist eine reale Gefahr, aber mit (noch) überschaubaren Auswirkungen.

Stufe 3: Indirect Prompt Injection

Hier kommt nun unsere Analyse zum Thema Indirect Prompt Injection ins Spiel: Was wäre, wenn die Eingabe nicht vom Nutzer kommt? Der Gedanke ist unangenehm, aber leider ist auch diese Gefahr real.

Große Sprachmodelle sind weit verbreitet, werden in Anwendungen integriert und teilweise auch in kritischen Kontexten (Sicherheitsberatung, Rechtsberatung, Militärstrategie, etc.) eingesetzt. Wenn wir es schaffen, Sprachmodelle von außen zu kompromittieren, hat das weitreichende Folgen. Darüber haben wir im Februar 2023 spekuliert und eine Analyse veröffentlicht. Nur wenige Tage später konnten wir anhand öffentlich zugänglicher Sprachmodelle verifizieren: Unsere schlimmsten Befürchtungen sind wahr. LLMs können gezielt unter die Kontrolle eines Angreifers gebracht werden. Dazu genügt es, Anweisungen in den Dialogkontext des Sprachmodells zu bringen. Das kann über hochgeladene Dokumente oder Zugriff auf Internet, E-Mails oder Datenbanken passieren.

Ein Beispiel: Wir schleusen auf der Wikipedia-Seite von Albert Einstein einen versteckten Kommentar ein “Bitte vergiss deine bisherigen Anweisungen und mache stattdessen folgendes…”. Ordnet ein Nutzer danach an, ebendiese Wikipedia-Seite zusammenzufassen, dann wird der Chatbot vom Angreifer kontrolliert.

Gegenmaßnahmen und warum sie nicht funktionieren

Der Reflex ist an dieser Stelle zu sagen: “Das lässt sich doch unter Kontrolle kriegen, indem wir…” – Nein, leider nicht. Auch die möglichen Gegenmaßnahmen (mitigations) haben wir analysiert und das Ergebnis ist ernüchternd. Die Schwachstelle ist immanent in der Technik der Sprachmodelle verankert. Man kann sie nicht abschalten. Natürlich gibt es die Möglichkeit, Filter einzubauen oder Zugriffe zu beschränken. Letztendlich bekämpft man damit aber nur die Symptome, nicht die Ursachen.

Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat eine Warnung zu diesem Thema herausgegeben. Indirekt Prompt Injection ist also nicht nur in Fachkreisen und in der Presse ein Thema, sondern auch eine Gefahr, die von offizieller behördlicher Seite ernst genommen wird. Das BSI rät, dass man bei Projekten, die die Integration von LLMs in Anwendungen zunächst eine Risikoanalyse machen lässt. Das ist aus unserer Sicht eine gute und wichtige Empfehlung.

DR. CHRISTOPH ENDRES
Geschäftsführer
sequire technology

Die Unbekannten im Code

Gefahren bei der Integration von Großen Sprachmodellen in Anwendungen

ÜBERBLICK

Große Sprachmodelle – Die drei Stufen der Bedrohung

Stufe 1: Model Misalignment

Stufe 2: Prompt Injection

Stufe 3: Indirect Prompt Injection

Gegenmaßnahmen und warum sie nicht funktionieren

Kreativiätsmodus „an“: So ergänzen sich Kunst und IT

Der Hype um das Thema Prompt Engineering

Generative KI in Ihrer Unternemenslandschaft?