Modell-Watermarking ist eine Reihe von Techniken zum Einbetten unmerklicher Kennungen in KI-Modelle oder deren generierte Ausgaben. Diese Wasserzeichen dienen als digitale Fingerabdrücke, mit denen sich das Eigentum an einem Modell nachweisen, eine unbefugte Weiterverbreitung erkennen und die Herkunft von KI-generierten Inhalten zurückverfolgen lässt.
Es gibt zwei Hauptansätze: Modell-Watermarking (Markierungen in das Modell selbst einbetten, in seine Gewichte, seine Architektur oder sein Verhalten) und Output-Watermarking (Markierungen in die vom Modell generierten Inhalte einbetten, also Text, Bilder, Audio oder Video).
Zu den Techniken des Modell-Watermarkings gehören: Backdoor-basiertes Watermarking (das Modell erzeugt für geheime Trigger-Eingaben bestimmte Ausgaben und weist so das Eigentum nach), parameterbasiertes Watermarking (Informationen direkt in die Modellgewichte einbetten) und Fingerprinting (für jeden Lizenznehmer eindeutige Modellvarianten erstellen, um Leaks zurückzuverfolgen).
Zu den Techniken des Output-Watermarkings gehören: statistisches Watermarking für Text (Wortwahl subtil verzerren, um erkennbare Muster zu erzeugen), unsichtbares Bild-Watermarking (unmerkliche Signale in generierte Bilder einbetten), Audio-Watermarking (unhörbare Kennungen in generierte Sprache oder Musik codieren) und metadatenbasierte Ansätze (Herkunftsinformationen in Dateimetadaten einbetten).
Zu den unternehmensseitigen Anwendungen gehören: der Schutz geistigen Eigentums (das Eigentum an proprietären Modellen nachweisen), die Authentizität von Inhalten (KI-generierte von menschlich erstellten Inhalten unterscheiden), regulatorische Compliance (der EU AI Act verlangt die Offenlegung KI-generierter Inhalte), die Abwehr von Fehlinformationen (die Quelle KI-generierter Deepfakes zurückverfolgen) und die Durchsetzung von Lizenzen (eine unbefugte Weiterverbreitung von Modellen erkennen).