KI-Red-Teaming ist der gezielte, systematische Versuch, ein KI-System zu kompromittieren, indem es aus der Perspektive eines böswilligen Akteurs untersucht wird, um Sicherheitsschwächen, schädliche Ausgaben und Richtlinienverstöße aufzudecken, bevor sie in den Produktivbetrieb gelangen. Der Begriff ist dem traditionellen Red-Teaming in der Cybersicherheit entlehnt, bei dem ein offensives Team (das „Red Team") die Verteidigung der eigenen Organisation angreift, damit das defensive Team (das „Blue Team") sie verbessern kann. Bei KI-Systemen wird diese adversariale Denkweise auf die spezifischen Fehlermodi von Machine-Learning-Modellen angewendet: Modelle, die sich durch Sprache manipulieren lassen, die Trainingsdaten preisgeben können und die unter den richtigen Bedingungen gefährliche oder täuschende Inhalte erzeugen können.
Anders als das traditionelle Red-Teaming, das primär auf Netzwerkinfrastruktur, Softwareschwachstellen und menschliche Social-Engineering-Vektoren abzielt, muss das KI-Red-Teaming eine grundlegend andere Angriffsfläche berücksichtigen. Herkömmliche Penetrationstests operieren auf deterministischen Systemen, bei denen eine gegebene Eingabe zuverlässig eine gegebene Ausgabe erzeugt. KI-Modelle sind probabilistisch: Derselbe Prompt kann über Sitzungen hinweg unterschiedliche Ergebnisse liefern, und subtile Änderungen der Formulierung können völlig unterschiedliche Verhaltensweisen hervorrufen. KI-Red-Teamer müssen daher nicht nur spezifische Exploits, sondern ganze Kategorien von Modellverhalten testen, was häufig Kreativität und Fachwissen statt fertiger Werkzeuge erfordert.
Fünf zentrale Angriffskategorien
1. Prompt Injection – Eingaben gestalten, die die Systemanweisungen eines Modells außer Kraft setzen und es dazu bringen, Sicherheits-Guardrails zu ignorieren, vertrauliche Konfigurationen preiszugeben oder im Auftrag eines Angreifers statt des legitimen Nutzers zu handeln.
2. Jailbreaking – Rollenspielszenarien, hypothetische Rahmungen, mehrstufige Manipulation oder adversariale Prompt-Strukturen nutzen, um Richtlinien zur Inhaltssicherheit zu umgehen und Ausgaben hervorzurufen, die das Modell ausdrücklich abzulehnen trainiert wurde.
3. Datenvergiftung – bösartige oder irreführende Beispiele in den Trainings- oder Fine-Tuning-Datensatz eines Modells einschleusen, um die Leistung zu verschlechtern, Hintertüren einzubauen oder das Modell zur Inferenzzeit auf bestimmte schädliche Ausgaben auszurichten.
4. Modellextraktion – ein Modell systematisch abfragen, um eine funktionale Annäherung an seine Gewichte oder Entscheidungsgrenzen zu rekonstruieren, sodass Wettbewerber oder Angreifer proprietäre KI-Fähigkeiten ohne Genehmigung stehlen können.
5. Adversariale Eingaben – mathematisch gestaltete Störungen auf Bilder, Audio oder Text anwenden, die für Menschen nicht wahrnehmbar sind, das Modell aber zuverlässig dazu bringen, falsch zu klassifizieren, falsch zu transkribieren oder fehlerhafte Ausgaben zu erzeugen – ein Anliegen vor allem in folgenschweren Bereichen wie der medizinischen Bildgebung oder der Betrugserkennung.
Wer KI-Red-Teaming durchführt
KI-Red-Teaming wird von drei Hauptgruppen durchgeführt. Interne Sicherheitsteams mit KI-Expertise führen kontinuierliche Bewertungen durch, während Modelle aktualisiert werden, und integrieren Red-Teaming in die MLOps-Pipeline. KI-Sicherheitsforscher, die bei Organisationen wie OpenAI, Anthropic, Google DeepMind und staatlichen Stellen wie dem UK AI Safety Institute beschäftigt sind, führen vor der Veröffentlichung Bewertungen von Frontier-Modellen durch, um Risiken auf Fähigkeitsebene einzuschätzen. Drittauditoren und spezialisierte KI-Sicherheitsfirmen liefern unabhängige Bewertungen und bieten eine Außenperspektive, die internen Teams aufgrund von Vertrautheitsverzerrung entgehen kann.
Aufkommende regulatorische Rahmenwerke formalisieren diese Anforderungen. Der EU AI Act schreibt adversariale Tests für Hochrisiko-KI-Systeme vor. Die US Executive Order on AI (2023) verlangte Red-Team-Bewertungen für leistungsstarke Foundation-Modelle vor der öffentlichen Freigabe. Das AI Risk Management Framework des NIST nimmt adversariale Tests als Kernbestandteil der Funktion „Measure" auf. Während Unternehmen KI-Agenten mit Zugriff auf sensible Systeme einsetzen, wandelt sich KI-Red-Teaming von einer Aktivität vor der Bereitstellung zu einer kontinuierlichen Sicherheitsdisziplin, die ebenso grundlegend ist wie Penetrationstests für herkömmliche Software.