90 Tage Risikoerkennung für generative KI:Jetzt starten
Demo buchen
Security

Was ist Datenvergiftung?

Ein Angriff auf KI-Systeme, bei dem Angreifer Trainingsdaten gezielt verfälschen, um das Modellverhalten zu manipulieren, Hintertüren einzuschleusen oder die Leistung zu verschlechtern.

Datenvergiftung ist eine Kategorie adversarialer Angriffe, die auf die Trainingsphase von Machine-Learning-Systemen abzielt. Durch das Einschleusen bösartiger, falsch gekennzeichneter oder sorgfältig gestalteter Daten in Trainingsdatensätze können Angreifer das Modellverhalten manipulieren, verborgene Hintertüren schaffen, die Modellgenauigkeit verringern oder gezielte Verzerrungen einführen.

Zu den Arten von Datenvergiftungsangriffen gehören: Label Flipping (die korrekten Labels von Trainingsbeispielen ändern, um Fehlklassifizierungen zu verursachen), Backdoor-Angriffe (Trigger-Muster einfügen, die ein bestimmtes Modellverhalten auslösen, wenn sie in Eingaben vorhanden sind), Clean-Label-Angriffe (korrekt gekennzeichnete, aber strategisch ausgewählte Daten hinzufügen, die Entscheidungsgrenzen verschieben) und gradientenbasierte Vergiftung (vergiftete Proben optimieren, um das Modelltraining maximal zu beeinflussen).

Zu den Angriffsvektoren der Datenvergiftung gehören: die Kompromittierung von Datenerfassungspipelines, das Beisteuern vergifteter Daten zu Crowdsourcing-Datensätzen, die Manipulation von aus dem Web gescrapten Trainingsdaten, Insider-Bedrohungen in Datenkennzeichnungsteams, Lieferkettenangriffe auf Pre-Training-Datensätze sowie die Ausnutzung von Datenaugmentierung oder Prozessen zur Generierung synthetischer Daten.

Zu den unternehmensseitigen Abwehrstrategien gehören: die Nachverfolgung der Datenherkunft (eine Nachweiskette für alle Trainingsdaten führen), Datenvalidierung und Anomalieerkennung (statistische Ausreißer in Trainingsdatensätzen identifizieren), robuste Trainingsmethoden (Algorithmen, die gegen vergiftete Daten widerstandsfähig sind), Datenbereinigung (verdächtige Proben vor dem Training herausfiltern), Tests des Modellverhaltens (Modellausgaben nach dem Training über verschiedene Szenarien hinweg validieren) und Lieferkettensicherheit (Datenquellen und Kennzeichnungsanbieter prüfen). Datenvergiftung ist besonders besorgniserregend, da Organisationen zunehmend auf Trainingsdaten von Drittanbietern und aus Open Source angewiesen sind.

Verwandte Begriffe

Erfahren Sie, wie Aona Datenvergiftung handhabt

Sehen Sie, wie Aona AI Unternehmen hilft, dieses Risiko in der Praxis zu beherrschen.

So funktioniert es

Schützen Sie Ihr Unternehmen vor KI-Risiken

Aona AI bietet automatisierte Erkennung von Shadow AI, Richtliniendurchsetzung in Echtzeit und umfassende KI-Governance für Unternehmen.