KI-Jailbreaking bezeichnet die Praxis, Eingaben, in der Regel adversariale Prompts, zu gestalten, die ein großes Sprachmodell oder ein anderes KI-System dazu bringen, seine integrierten Sicherheitsfilter, Inhaltsrichtlinien oder ethischen Leitlinien zu umgehen. Der Begriff ist dem Jailbreaking von Mobilgeräten entlehnt, bei dem Nutzer Betriebssystembeschränkungen umgehen, um unbefugten Zugriff zu erlangen. Im KI-Kontext nutzen Jailbreaks das Spannungsverhältnis zwischen der Fähigkeit eines Modells, Anweisungen zu befolgen, und seinem Alignment-Training: Indem Anfragen so formuliert werden, dass sie Sicherheitsklassifikatoren verwirren, täuschen oder überfordern, können Angreifer Ausgaben hervorrufen, die das Modell normalerweise verweigern würde, darunter schädliche Anweisungen, private Trainingsdaten oder richtlinienwidrige Inhalte.
Zu den gängigen Jailbreaking-Techniken gehören Rollenspielangriffe (das Modell anweisen, „so zu tun", als sei es ein unzensiertes System), Prompt Injection (bösartige Anweisungen in scheinbar harmlose Nutzerinhalte oder Dokumente einbetten), Many-Shot-Prompting (eine große Zahl von Beispielen nutzen, um verbotenes Verhalten zu normalisieren), Token Smuggling (schädliche Schlüsselwörter durch Codierung oder Abstände verschleiern) und adversariale Suffixe (sorgfältig optimierte Zeichenfolgen anhängen, die das Modellverhalten verschieben). Da große Sprachmodelle im Kern probabilistische Textprädiktoren sind, ist kein Guardrail-System vollkommen robust, und neue Jailbreak-Techniken entstehen regelmäßig schneller, als Anbieter sie allein durch Fine-Tuning beheben können.
Für Unternehmen stellt Jailbreaking eine direkte Bedrohung der KI-Sicherheitslage dar. Mitarbeitende oder externe Angreifer, die innerhalb einer Organisation eingesetzte KI-Tools erfolgreich jailbreaken, können vertrauliche System-Prompts extrahieren, die die Geschäftslogik offenlegen, bösartigen Code generieren, Desinformation erzeugen oder KI-gestützte Workflows manipulieren. Zu den Abwehrstrategien gehören mehrschichtige Guardrails (die Alignment auf Modellebene mit externen Ein-/Ausgabefiltern kombinieren), Red-Teaming-Übungen zur proaktiven Identifizierung von Schwachstellen, die Überwachung von KI-Interaktionen auf Jailbreak-Muster, die Beschränkung des direkten Zugriffs auf Basismodelle zugunsten gehärteter Unternehmensimplementierungen sowie die Aufklärung der Nutzer über Richtlinien zur verantwortungsvollen KI-Nutzung.