What is AI red teaming?

AI red teaming is a structured adversarial testing practice where security experts simulate attacks against AI systems, including prompt injection, jailbreaking, and data poisoning, to uncover vulnerabilities and failure modes before deployment.

How does AI red teaming differ from traditional red teaming?

Traditional red teaming targets deterministic systems like networks and software with known exploit paths. AI red teaming must contend with probabilistic, language-driven attack surfaces where subtle prompt changes can produce vastly different behaviors, requiring creativity and AI-specific expertise rather than standard penetration testing tools.

What attack categories does AI red teaming cover?

The five core categories are: prompt injection (overriding system instructions), jailbreaking (bypassing content policies), data poisoning (corrupting training data), model extraction (stealing model capabilities), and adversarial inputs (perturbing inputs to cause misclassification).

Who performs AI red teaming?

AI red teaming is performed by internal security teams embedded in AI development workflows, AI safety researchers at labs and government institutes (such as the UK AI Safety Institute), and independent third-party auditors who provide unbiased external assessments.

Is AI red teaming required by regulation?

Yes. The EU AI Act requires adversarial testing for high-risk AI systems. The U.S. Executive Order on AI (2023) mandated red team evaluations for powerful foundation models. NIST's AI Risk Management Framework includes adversarial testing as a core practice.

Was ist KI-Red-Teaming? Definition, Methoden und Angriffskategorien

KI-Red-Teaming ist der gezielte, systematische Versuch, ein KI-System zu kompromittieren, indem es aus der Perspektive eines böswilligen Akteurs untersucht wird, um Sicherheitsschwächen, schädliche Ausgaben und Richtlinienverstöße aufzudecken, bevor sie in den Produktivbetrieb gelangen. Der Begriff ist dem traditionellen Red-Teaming in der Cybersicherheit entlehnt, bei dem ein offensives Team (das „Red Team") die Verteidigung der eigenen Organisation angreift, damit das defensive Team (das „Blue Team") sie verbessern kann. Bei KI-Systemen wird diese adversariale Denkweise auf die spezifischen Fehlermodi von Machine-Learning-Modellen angewendet: Modelle, die sich durch Sprache manipulieren lassen, die Trainingsdaten preisgeben können und die unter den richtigen Bedingungen gefährliche oder täuschende Inhalte erzeugen können.

Anders als das traditionelle Red-Teaming, das primär auf Netzwerkinfrastruktur, Softwareschwachstellen und menschliche Social-Engineering-Vektoren abzielt, muss das KI-Red-Teaming eine grundlegend andere Angriffsfläche berücksichtigen. Herkömmliche Penetrationstests operieren auf deterministischen Systemen, bei denen eine gegebene Eingabe zuverlässig eine gegebene Ausgabe erzeugt. KI-Modelle sind probabilistisch: Derselbe Prompt kann über Sitzungen hinweg unterschiedliche Ergebnisse liefern, und subtile Änderungen der Formulierung können völlig unterschiedliche Verhaltensweisen hervorrufen. KI-Red-Teamer müssen daher nicht nur spezifische Exploits, sondern ganze Kategorien von Modellverhalten testen, was häufig Kreativität und Fachwissen statt fertiger Werkzeuge erfordert.

Fünf zentrale Angriffskategorien

1. Prompt Injection – Eingaben gestalten, die die Systemanweisungen eines Modells außer Kraft setzen und es dazu bringen, Sicherheits-Guardrails zu ignorieren, vertrauliche Konfigurationen preiszugeben oder im Auftrag eines Angreifers statt des legitimen Nutzers zu handeln.

2. Jailbreaking – Rollenspielszenarien, hypothetische Rahmungen, mehrstufige Manipulation oder adversariale Prompt-Strukturen nutzen, um Richtlinien zur Inhaltssicherheit zu umgehen und Ausgaben hervorzurufen, die das Modell ausdrücklich abzulehnen trainiert wurde.

3. Datenvergiftung – bösartige oder irreführende Beispiele in den Trainings- oder Fine-Tuning-Datensatz eines Modells einschleusen, um die Leistung zu verschlechtern, Hintertüren einzubauen oder das Modell zur Inferenzzeit auf bestimmte schädliche Ausgaben auszurichten.

4. Modellextraktion – ein Modell systematisch abfragen, um eine funktionale Annäherung an seine Gewichte oder Entscheidungsgrenzen zu rekonstruieren, sodass Wettbewerber oder Angreifer proprietäre KI-Fähigkeiten ohne Genehmigung stehlen können.

5. Adversariale Eingaben – mathematisch gestaltete Störungen auf Bilder, Audio oder Text anwenden, die für Menschen nicht wahrnehmbar sind, das Modell aber zuverlässig dazu bringen, falsch zu klassifizieren, falsch zu transkribieren oder fehlerhafte Ausgaben zu erzeugen – ein Anliegen vor allem in folgenschweren Bereichen wie der medizinischen Bildgebung oder der Betrugserkennung.

Wer KI-Red-Teaming durchführt

KI-Red-Teaming wird von drei Hauptgruppen durchgeführt. Interne Sicherheitsteams mit KI-Expertise führen kontinuierliche Bewertungen durch, während Modelle aktualisiert werden, und integrieren Red-Teaming in die MLOps-Pipeline. KI-Sicherheitsforscher, die bei Organisationen wie OpenAI, Anthropic, Google DeepMind und staatlichen Stellen wie dem UK AI Safety Institute beschäftigt sind, führen vor der Veröffentlichung Bewertungen von Frontier-Modellen durch, um Risiken auf Fähigkeitsebene einzuschätzen. Drittauditoren und spezialisierte KI-Sicherheitsfirmen liefern unabhängige Bewertungen und bieten eine Außenperspektive, die internen Teams aufgrund von Vertrautheitsverzerrung entgehen kann.

Aufkommende regulatorische Rahmenwerke formalisieren diese Anforderungen. Der EU AI Act schreibt adversariale Tests für Hochrisiko-KI-Systeme vor. Die US Executive Order on AI (2023) verlangte Red-Team-Bewertungen für leistungsstarke Foundation-Modelle vor der öffentlichen Freigabe. Das AI Risk Management Framework des NIST nimmt adversariale Tests als Kernbestandteil der Funktion „Measure" auf. Während Unternehmen KI-Agenten mit Zugriff auf sensible Systeme einsetzen, wandelt sich KI-Red-Teaming von einer Aktivität vor der Bereitstellung zu einer kontinuierlichen Sicherheitsdisziplin, die ebenso grundlegend ist wie Penetrationstests für herkömmliche Software.

Was ist KI-Red-Teaming?

Verwandte Begriffe

Prompt Injection

KI-Sicherheit

Large Language Model (LLM)

KI-Risikomanagement

Schützen Sie Ihr Unternehmen vor KI-Risiken