Wie klassische Methoden neue Risiken angehen

Natural Language Processing und Large Language Models

Der Einsatz von großen Sprachmodellen (Large Language Models – LLMs) ist inzwischen weit verbreitet und deckt viele Bereiche ab. Das Wissen um entsprechende Sicherheitsrisiken ist dabei jedoch oft nur in Teilen gegeben. Viele Sprachmodelle verwenden Chatverläufe zum Training der neueren Modelle, wodurch Daten, die in einem als vertraut angenommenen Chat mit dem Modell angegeben wurden, möglicherweise in einer neueren Version auch von diesem Modell an anderer Stelle – bei anderen Nutzenden- als Beispiel zu einem bestimmten Thema ausgegeben werden könnten. Je nach Anwendung können diese Daten auch innerhalb eines Firmenkontexts gespeichert und an andere Abteilungen weitergegeben werden. Um sicherzugehen, dass nur Daten weitergegeben werden, die für die Bearbeitung des Anliegens notwendig sind, und somit die maximale Sicherheit für die Nutzenden zu versichern, werden sogenannte Guardrails eingeführt.

ÜBERBLICK

Guardrails

Guardrail Services benutzen häufig ein Sprachmodelle (LLMs), welche entscheiden, ob ein Kriterium erfüllt wird oder nicht, und entsprechend darüber, ob der Inhalt blockiert werden sollte oder nicht. 

Kurz erklärt: Was sind Guardrails?
Guardrails sind Sicherheitsmaßnahmen, die im Kontext eines LLMs genutzt werden können. Diese können beispielsweise sensitive Informationen, Sicherheitsangriffe, oder schädliche Inhalte erkennen und Nutzende warnen, Inhalte verstecken (“masking”), oder entsprechende Nachrichten komplett blockieren. Je nach Zweck werden verschiedene Methoden verwendet, wie beispielsweise “LLM-as-a-judge” (Bewertung erfolgt durch andere Sprachmodelle) oder sprachbezogene Prozesse (Bewertung erfolgt durch algorithmische Berechnungen).
 
Während dies den Vorteil hat, dass Anweisungen in natürlicher Sprache formuliert und viele Ansätze auf einmal abgedeckt werden können, führt es auch Nachteile mit sich. Nicht nur benötigt diese Methode oft große Mengen an Tokens, was zu höheren Kosten führt, sondern bringt auch die weiteren LLM-typischen Probleme mit sich. Höhere Umweltbelastung, halluzinierte und inkonsistente Ergebnisse, sowie die Gefahr von Manipulationen mittels sogenannter prompt injection – dies lässt sich insbesondere bei einfacheren Problemstellungen vermeiden. 
Anstatt auf LLM-Ansätze zu bestehen, macht es häufig Sinn, einen Schritt zurückzugehen und die klassischen Methoden der Sprachverarbeitung zurück in den Fokus zu schieben .

Natural Language Processing - Die “klassischen” Methoden

Natural Language Processing (NLP) bedeutet übersetzt so viel wie Verarbeitung von natürlicher Sprache. Dies beinhaltet, unter anderem, sowohl geschriebene als auch gesprochene Sprache. Dafür werden Strukturen innerhalb gegebener Inhalte analysiert, beispielsweise auf Grammatik oder Wortreihenfolge, um auf statistischer Basis Sprache zu verarbeiten und zu replizieren. LLMs basieren auf den gleichen Grundlagen, und können dank großer zugrunde liegenden Datenmenge mit großer Wahrscheinlichkeit korrekte Grammatiken, Wortreihenfolgen, und semantische Zusammenhänge bilden. 

Genau darin liegen allerdings auch bereits große Probleme in der Nutzung von LLMs: Durch das Training auf großen Datenmengen, welches allein schon viele Ressourcen benötigt, braucht auch jede Anfrage an ein LLM – jede Chatnachricht – entsprechend viele Ressourcen, um beantwortet zu werden. Insbesondere bei kleineren Anliegen steht das nicht im Verhältnis zu dem, was eigentlich erreicht werden soll. Verstärkt wird dies noch durch ein weiteres Problem – LLMs können halluzinieren. 

Info: Halluzinationen
Wenn wir hier von Halluzinationen sprechen, meinen wir damit, dass ein Sprachmodell fabrizierte Antworten zurückgibt, die nicht der Realität entsprechen – ein paar schöne Beispiele finden sich dazu in dem Artikel von Siebert (2024). Der Begriff Halluzination in dem Kontext ist nicht unumstritten. Ein präziserer Begriff wäre etwa “Konfabulation”, welcher sich jedoch nicht so stark durchsetzen konnte (siehe Sui et al. 2024).
 

Eine Halluzination in einem LLM bedeutet, dass es Antworten zurückgibt, die nicht aus der Realität stammen. Das kommt zu Stande, weil ein LLM kein tatsächliches “Wissen” besitzt, sondern lediglich die wahrscheinlichste Kette von Wörtern im gegebenen Kontext zurückgibt. Dank großer Datenmenge kann es das zwar recht gut, macht aber dennoch häufig Fehler – beispielsweise erfindet es Bücher oder Artikel, die es nicht gibt, von Autoren, die es entweder auch nicht gibt, oder die so etwas nie geschrieben haben. Somit sind die Ergebnisse unzuverlässig.
Insbesondere bei kleineren, unkomplizierten Anfragen ist es daher oft einfacher und verlässlicher, die klassischen zugrunde liegenden Methoden zu verwenden. Anstatt beispielsweise eine Anfrage an ein LLM zu stellen, ob ein bestimmtes Wort in einem Text vorkommt, kann man mit simplen Algorithmen nicht nur herausfinden ob das Wort exakt vorkommt, sondern sogar, ob vielleicht ein Synonym vorkommt, oder das Wort in einer falsch oder alternativ geschriebenen Variante vorliegt. LLMs können solche Anfragen natürlich auch beantworten, doch wie bereits erwähnt benötigt dies deutlich mehr Ressourcenaufwand, und birgt ein verstecktes Risiko von Halluzinationen. 

Klassische algorithmische Methoden hingegen werden für die gleiche Aufgabe auch jedes mal das gleiche Ergebnis liefern, auf einer festgelegten Skala. Das erlaubt einem Nutzer beispielsweise festzulegen, dass wenn ein Wort einem anderen Wort zu einem bestimmten Prozentsatz ähnelt, beide Worte gleich behandelt werden sollen. Im Rahmen einer Blocklist ist dies nützlich, um nicht nur einen festen Satz an blockierten Wörtern festzulegen, sondern auch Synonyme oder Falschschreibungen zu blockieren, wodurch eine Blocklist (die übrigens auch eine Guardrail sein kann), sonst umgangen werden könnte.

Beispiel: Die Blocklist

Die klassische Blocklist funktioniert durch Angabe von Wörtern oder Phrasen, die in einer Umgebung – beispielsweise einem Chat oder Forum – nicht erlaubt sind. Texte in dieser Umgebung werden, bevor sie für andere sichtbar gemacht werden, darauf getestet. Befindet sich ein Wort oder eine Phrase aus der Blocklist im Text, wird dieser Text nicht weitergeleitet. Das funktioniert fantastisch, um spezifische Wörter und Phrasen zu vermeiden – sofern diese genau so geschrieben werden, wie in der Blocklist angegeben. Um aber auch Rechtschreibfehler oder kleine Änderungen an der Phrase zu erkennen, müsste man auf diese Weise jede erdenkliche Möglichkeit zur Blocklist hinzufügen. Das sprengt schnell den Rahmen, zumal durch eine größere Liste auch die Verarbeitungszeit erhöht wird.

Um diesem Problem aus dem Weg zu gehen, lassen sich ein paar klassische Methoden aus der Sprach- und Textverarbeitung nutzen (NLP – Natural Language Processing). Ähnlichkeitsberechnungen, auf Basis von Sätzen, Phrasen, Wörtern, oder Wortteilen, Vektorbasiert oder nicht – dazu geben wir hier einen kleinen Überblick. Verschiedene Ansätze bieten dabei verschiedene Vor- und Nachteile, und verschiedene Algorithmen sind in diesen Ansätzen unterschiedlich effizient. Wir beginnen, ganz allgemein, mit einem Überblick zu Ähnlichkeitsberechnungen in NLP.

Ähnlichkeitsberechnungen

Mit Ähnlichkeitsberechnungen lässt sich festlegen, wie ähnlich zwei Objekte sind – zum Beispiel zwei Wörter.  Zwei identische Objekte erhalten bei einer solchen Berechnung den Wert, der die höchste Ähnlichkeit ausdrückt, während nicht-identische Objekte einen Wert enthalten, der je nach Verschiedenheit weiter oder näher an diesem Wert liegt. Im Falle einer Blocklist, die das Wort “unsicher” enthält, würde dadurch also das Wort “unsicher” in einem Text einen hohen Ähnlichkeitswert erhalten und blockiert werden, wie auch in der klassischen Blocklist. Zusätzlich kann diese Art von Berechnungen auch festlegen, dass Schreibfehler, wie zum Beispiel “usicher”, “unsischer”, “onsicher” und viele weitere, sehr ähnlich zu einem blockierten Wort sind, diese also auch blockieren. Durch das Festlegen eines Schwellenwertes kann bestimmt werden, wie ähnlich ein Wort sein muss, um auch blockiert zu werden. Dadurch kann verhindert werden, dass auch nur leicht ähnliche Wörter blockiert werden, sondern nur solche, die besonders nah an dem tatsächlichen Objekt liegen.

Algorithmen wie beispielsweise solche zur Berechnung der Levenshtein-Distanz (Levenshtein 1965) sind dabei sehr nützlich – dieser Ansatz beispielsweise berechnet, wie viele “Änderungen” notwendig sind, um von einem Wort zum anderen zu kommen. Ist also das Wort “unsicher” in unserer Blocklist, und das Wort “onsicher” im Text, entspricht dies einzig einer Änderung des ersten Buchstaben – die Wörter haben also zueinander einen Distanzwert von 1. Ein Wert von 0 zeigt dabei an, dass die Wörter identisch sind.

Beispielgrafik für Levenshtein-Distanz (B. 2025)

Vektorbasierte Methoden

Manche Wörter oder Phrasen sind semantisch ähnlich, aber auf reiner Wort- und Buchstabenebene nicht besonders ähnlich. Ein Beispiel dafür sind umgangssprachlich gerne genutzte “injections” [eng.: Injektionen]. Somit wird mit “fantastisch” und “fan-f***ing-tastisch” das Gleiche gemeint – mit unterschiedlichem Enthusiasmus – aber durch die Injektion des Wortes “f***ing” die Ähnlichkeit der beiden Wörter verringert. In solchen Fällen sind vektorbasierte Methoden zur Ähnlichkeitsberechnung nützlich. Diese Methoden verwenden einen gegebenen Datensatz als Grundlage, um Wörter in Vektoren umzuwandeln, deren Ähnlichkeit auf dem Kontext der Wörter basiert. Somit sind sich die Wörter “King” [eng: König] und “Queen” [eng: Königin], die auf Buchstabenebene sehr unterschiedlich sind, auf Vektorebene sehr ähnlich, da sie in ähnlichen Kontexten erscheinen. Identische Wörter, die lediglich eine zusätzliche Wort-Injektion beinhalten, sind sich auf diese Weise ebenso ähnlich.

Wie gut diese Methoden funktionieren, hängt natürlich von dem gewählten Algorithmus ab, aber auch von dem zugrunde liegenden Datensatz. Kommt ein Wort im Datensatz nicht vor, wird kein besonders nützlicher Vektor generiert werden können, den die Algorithmen als Berechnungsgrundlage verwenden sollen. Eine Möglichkeit, mit diesem Problem umzugehen, ist es, die Granularität anzupassen, mit der Vektoren erstellt werden. Dies wird im nächsten Abschnitt beschrieben.

Granularität - von Volltext bis n-gram

Ein wichtiges Thema in der Textverarbeitung ist immer, auf welcher Ebene der Text genauer untersucht wird. Ob man sich den gesamten Text auf einmal anschaut, oder nur kleine Teile, kann je nach Ziel und angewandter Methode einen Unterschied machen. Die typischsten Ebenen sind hierbei:

  • Volltext – der gesamte Text Input wird auf einmal verarbeitet
  • Sätze – es wird ein Satz nach dem anderen verarbeitet
  • Wörter – die Wörter im Text werden sich einzeln angeschaut
  • n-gram – der Text wird nach Gruppen von n Buchstaben/Zeichen verarbeitet (geht auch auf einer Ebene von n Wörtern, um beispielsweise Phrasen abzubilden)
 

Jede dieser Ansätze hat eigene Vor- und Nachteile. Volltext und Sätze sind nützlich, wenn nicht nur nach blockierten Wörtern, sondern auch nach Phrasen gefiltert wird. Die Wort-Ebene funktioniert besonders gut, wenn nach Wörtern und möglichen Wort-Varianten im Kontext gesucht wird. N-Gramme sind auf eine ähnliche Weise hilfreich, können aber auch Abhilfe schaffen, wenn es um Wörter geht, die in der Datengrundlage nicht erschienen sind.

Datengrundlage

Manche Algorithmen benötigen Daten als Vergleichsbasis. Ideal sind dafür reelle Daten, die möglichst nah an dem sind, womit die Blocklist verwendet wird. Das bedeutet: Auf einer Review-Seite benutzt man am besten Review-Texte als Datengrundlage, und in einem Forum am besten einen Foren-Datensatz. Dadurch kann man Sprachstil, und insbesondere Kontext-spezifische Wörter, besser abfangen und akkurater als Vektoren darstellen.

Während es am besten ist, echte Daten aus echten Kontexten zu verwenden, ist dies nicht immer möglich. Für manche Kontexte oder Sprachen gibt es gelegentlich nur wenige oder keine Daten. In diesen Fällen ist es auch möglich, auf synthetisch generierte Daten zurückzugreifen – entweder durch bereits generierte Datensätze, oder selbst erstellte durch Anwendungen wie datafast  (Fleith 2025). Diese Anwendungen und Methoden erlauben individuelle Kreationen von Datensätzen je nach Spezifikationen. Diese Spezifikationen werden an angegebene LLMs weitergeleitet um die Daten zu kreieren. Das führt dazu, dass diese Daten eine Ähnlichkeit zu realen Daten anstreben, jedoch häufig als synthetisch erkennbar sind. 

Zusätzlich ist zu beachten, dass dies kein Weg ist, um die Richtlinien der LLMs zu umgehen. Beispielsweise lässt sich nicht einfach ein Datensatz zu Texten mit schädlichen oder illegalen Inhalten generieren, wenn dies innerhalb des LLMs nicht erlaubt ist. Dies kann stark abhängig sein von den gewählten Modellen und angegebenen Anweisungen.

Und jetzt?

In SequiSAS verwenden wir Guardrails, um Sicherheit im Umgang mit Sprachmodellen (LLMs) zu stärken. Dies kann auf verschiedenen Ebenen geschehen, wie beispielsweise um sicherzustellen, dass keine erfundenen Ergebnisse zurückgegeben werden (oft Halluzinationen genannt, siehe Siebert 2024), oder dass keine privaten Informationen weitergegeben werden. Auf Basis von reinen Textinhalten kann gearbeitet werden, um bestimmte Muster (zum Beispiel für E-Mail-Adressen) oder bestimmte Wörter (wie zum Beispiel Namen) zu blockieren.
Für mehr Infos, wie Sie sich und Ihre Firma auch in Bezug auf den EU AI Act absichern können, kontaktieren Sie uns.

Quelle

Chloe B. “Measuring Word Similarity with Edit Distance.” Medium, 06.03.2025,
https://medium.com/@chloebre/measuring-word-similarity-with-edit-distance-b30812b0bf29. Accessed 28.04.2026

Julien Siebert. “Halluzinationen von generativer KI und großen Sprachmodellen (LLMs) – Blog des Fraunhofer IESE.” Fraunhofer IESE, 20 September 2024, https://www.iese.fraunhofer.de/blog/halluzinationen-generative-ki-llm/. Accessed 30.03.2026.

Patrick Fleith (last updated 03/2026): datafast (URL: https://github.com/patrickfleith/datafast).

Peigi Sui, Eamon Duede, Sophie Wu, & Richard Jean So. “Confabulation: The surprising value of large language model hallucinations”. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics, vol. 1, no. 62, 2024, pp. 14274-14284.

Vladimir I. Levenshtein “Binary codes capable of correcting deletions, insertions, and reversals.” Doklady Akademii Nauk SSSR, vol. 163, no. 4, 1965, pp. 845-848. nymity.ch, https://nymity.ch/sybilhunting/pdf/Levenshtein1966a.pdf. Accessed 30.03.2026.

AnnegretJanzso

ANNEGRET JANSZO
AI Research Engineer
sequire technology

Das könnte Sie auch interessieren