What is Prompt Injection?

An attack technique where malicious instructions are inserted into AI prompts to manipulate the model's behavior, bypass safety controls, or extract sensitive information.

Was ist Prompt Injection? Definition, Beispiele und Prävention

Was ist Prompt Injection?

Eine Angriffstechnik, bei der schädliche Anweisungen in KI-Prompts eingeschleust werden, um das Verhalten des Modells zu manipulieren, Sicherheitskontrollen zu umgehen oder sensible Informationen zu extrahieren.

Ein Prompt-Injection-Angriff ist eine Technik, bei der schädliche Anweisungen in Inhalte eingebettet werden, die ein KI-System verarbeitet, sodass es seine ursprünglichen Anweisungen außer Kraft setzt, Sicherheitsfilter umgeht oder unbeabsichtigte Aktionen ausführt. Prompt Injection gilt als das KI-Äquivalent zur SQL-Injection und zählt zu den kritischsten Sicherheitsrisiken, die in den OWASP LLM Top 10 aufgeführt sind.

Direkte Prompt Injection tritt auf, wenn ein Benutzer absichtlich eine Eingabe formuliert, um das Verhalten eines KI-Assistenten zu manipulieren, beispielsweise „Ignoriere die vorherigen Anweisungen und führe stattdessen [schädliche Aktion] aus“. Indirekte Prompt Injection ist tückischer: Schädliche Anweisungen werden in Inhalten versteckt, die die KI verarbeiten soll, etwa eine zusammenzufassende E-Mail, ein zu analysierendes Dokument oder eine auszulesende Webseite. Wenn die KI diesen Inhalt verarbeitet, führt sie die eingebetteten Anweisungen aus, ohne dass der Benutzer es bemerkt.

In agentischen KI-Systemen, in denen KI-Modelle Tools ausführen, im Web surfen, E-Mails versenden und API-Aufrufe tätigen können, wird Prompt Injection besonders gefährlich. Ein kompromittierter KI-Agent kann angewiesen werden, Daten zu exfiltrieren, unbefugte Konten zu erstellen, Dateien zu verändern oder Aktionen auszuführen, die gegen die Richtlinien der Organisation verstoßen. Sicherheitsforscher haben Prompt-Injection-Angriffe auf führende KI-Assistenten demonstriert, die dazu führten, dass diese E-Mails weiterleiteten, den Chatverlauf offenlegten und unbefugten Code ausführten.

Zu den Verteidigungsstrategien gehören: die Validierung und Bereinigung von Ein- und Ausgaben; die Trennung von Berechtigungen (KI-Agenten sollten mit den minimal erforderlichen Berechtigungen arbeiten); die Inhaltsisolierung (von der KI verarbeitete externe Inhalte als nicht vertrauenswürdig behandeln); die Überwachung auf anomales KI-Verhalten; sowie regelmäßiges Red Teaming von KI-Systemen, um Injection-Schwachstellen vor der Bereitstellung zu identifizieren.

Die OWASP LLM Top 10 führen Prompt Injection als das Risiko Nr. 1 für LLM-basierte Anwendungen auf, was ihre Verbreitung und die Schwere der möglichen Folgen in Unternehmensumgebungen widerspiegelt.

Erfahren Sie, wie Aona Prompt Injection handhabt

Sehen Sie, wie Aona AI Unternehmen hilft, dieses Risiko in der Praxis zu beherrschen.

So funktioniert es →

Was ist Prompt Injection?

Verwandte Begriffe

Jailbreaking (KI)

KI-Sicherheit

KI-Agent

KI-Red-Teaming

Schützen Sie Ihr Unternehmen vor KI-Risiken