Warum klassische Prüfverfahren für Sprachmodelle nicht ausreichen

ÜBERBLICK

Sprachmodelle und andere KI-Systeme verhalten sich nicht deterministisch. Dieselbe Eingabe kann – je nach Kontext, Prompt oder Datenlage – zu unterschiedlichen Ergebnissen führen. Das macht generative KI-Modelle leistungsstark, aber auch unberechenbar.

Und genau das ist das Problem:
Wer sich auf ein KI-System verlassen will, muss verstehen, was es wann, wie und warum tut. Und dieses Verhalten lässt sich nicht so einfach prüfen wie bei einem klassischen IT-System.

  • Es gibt keine festen Eingabe-Ausgabe-Beziehungen
  • Es gibt keine standardisierten Fehlermeldungen
  • Es gibt keine „Ports“, die man scannen kann

Was wir brauchen, ist ein neues Verständnis davon, wie Sicherheit bei generativer KI gemessen werden kann und was überhaupt getestet werden sollte. Denn wie prüft man ein System, das aus Sprache lernt und auf Sprache reagiert? Darum geht es in diesem Beitrag.

GESETZLICHE ANFORDERUNGEN AN DAS TESTING

Mit dem EU AI Act kommt erstmals ein regulatorischer Rahmen, der KI-Systeme in Risikoklassen einteilt. Besonders relevant für Unternehmen: Risikoklasse 2 (Hochrisiko-Systeme). Die Klasse 1 befasst sich mit verbotenen Systemen, und die Klassen 3 und 4 sind von geringem bis gar keinem Risiko, also auch uninteressant, wenn es um Testmethoden von weit verbreiteten, risiko-anfälligen KI-Systemen geht.

Die Systeme der Risikoklasse 2 – eingesetzt z. B. im HR-Bereich, in der kritischen Infrastruktur oder bei automatisierter Entscheidungsfindung – unterliegen ab August 2026 umfangreichen Pflichten. Dazu gehören:

  • Transparenz- und Dokumentationspflichten
  • Monitoring der Systemleistung
  • Qualitätsmanagement für Sicherheit und Funktionalität

Das klingt jetzt vielleicht so, als wäre das noch sehr weit weg – wenn man noch Vorbereitungen treffen muss, ist es allerdings nicht mehr so lange.

Wie bei den meisten Gesetzestexten, die Cybersicherheit betreffen, sind die Formulierungen allgemein gehalten und innerhalb eines gewissen Rahmens auslegbar.

In der Praxis bleibt vieles vage:
Was genau bedeutet „Qualitätsmanagement“ bei einer KI? Wie oft muss getestet werden? Und vor allem: Wie?

Unsere Einschätzung:

Wer den AI Act erfüllen will, braucht belastbare Testverfahren, automatisiertes Reporting und eine nachvollziehbare Dokumentation der Sicherheitsmaßnahmen.

Der erste Leitfaden für KI-Sicherheitstests

Um diese Lücke zu schließen, haben wir – gemeinsam mit dem BSI und der Allianz für Cybersicherheit – den Expertenkreis KI-Sicherheit gegründet.

Unser Ziel:

  • Praxisnahe Methoden für die Bewertung generativer KI-Systeme entwickeln
  • Vergleichbare Standards schaffen – unabhängig vom Testanbieter
  • Reale Risiken erfassen statt hypothetische Szenarien durchspielen

Das Ergebnis: ein umfassender Leitfaden für Penetrationstests von Largue-Language-Modellen (LLMs), der Klarheit schafft und umsetzbar ist.

Der Ablauf (vereinfacht):

  1. Gefährdungsanalyse mittels strukturierter Fragen an den Betreiber
  2. Ableitung konkreter Risiken und relevanter Schwachstellen
  3. Durchführung technischer Tests – manuell oder automatisiert
  4. Besprechung der Ergebnisse mit dem Auftraggeber
  5. Dokumentation in einem einheitlichen Reportformat 

Das klingt einfach – ist es aber nicht.
Denn der Teufel steckt, wie immer bei Sicherheitsthemen, im Detail.

KI testen heißt Verantwortung übernehmen

Wenn KI-Systeme künftig unter den AI Act fallen, reicht es nicht, ihre Sicherheit einmalig zu bestätigen.

Der laufende Betrieb muss genauso überprüfbar und absicherbar sein wie die Entwicklung. Das bedeutet: technische Prüfungen und organisatorische Maßnahmen müssen dauerhaft zusammenspielen – nicht nur auf dem Papier.

Konkret heißt das:

  • Tests regelmäßig wiederholen: Ein einmaliger Sicherheitscheck reicht nicht – Systeme verändern sich, Prompts ändern sich, Risiken auch.
  • Automatisierung sinnvoll einsetzen: Prozesse wie Log-Analyse, Anomalieerkennung oder Report-Erstellung lassen sich technisch unterstützen – das spart Zeit und sorgt für Nachvollziehbarkeit.
  • Risiken frühzeitig erkennen: Wer schon beim Aufbau systematisch dokumentiert, welche Schwachstellen bestehen könnten, ist im Ernstfall deutlich handlungsfähiger.

Denn spätestens mit Inkrafttreten des AI Acts im August 2026 wird die Einhaltung dieser Vorgaben verpflichtend – auch gegenüber Aufsichtsbehörden.

Vorbereitung ist keine Option mehr, sondern Voraussetzung.

Sie wollen vorbereitet sein?
Wir unterstützen Sie bei:

✔️ der Bestandsaufnahme Ihrer aktuellen Systeme
✔️ der Umsetzung technischer Testverfahren
✔️ der Vorbereitung auf den AI Act

JETZT ANFRAGEN

cropped-christoph_endres.png

CHRISTOPH ENDRES
Geschäftsführer
sequire technology

Das könnte Sie auch interessieren