La marca de agua de modelos es un conjunto de técnicas para incorporar identificadores imperceptibles en los modelos de IA o en las salidas que generan. Estas marcas de agua sirven como huellas digitales que pueden demostrar la propiedad de un modelo, detectar la redistribución no autorizada y rastrear la procedencia del contenido generado por IA.
Existen dos enfoques principales: la marca de agua del modelo (incorporar marcadores en el propio modelo, sus pesos, su arquitectura o su comportamiento) y la marca de agua de las salidas (incorporar marcadores en el contenido que el modelo genera, ya sea texto, imágenes, audio o vídeo).
Las técnicas de marca de agua de modelos incluyen: la marca de agua basada en puertas traseras (el modelo produce salidas específicas para entradas desencadenantes secretas, lo que demuestra la propiedad), la marca de agua basada en parámetros (incorporar información directamente en los pesos del modelo) y el fingerprinting (crear variantes únicas del modelo para cada licenciatario para rastrear las filtraciones).
Las técnicas de marca de agua de las salidas incluyen: la marca de agua estadística para el texto (sesgar sutilmente la elección de palabras para crear patrones detectables), la marca de agua de imagen invisible (incorporar señales imperceptibles en las imágenes generadas), la marca de agua de audio (codificar identificadores inaudibles en el habla o la música generadas) y los enfoques basados en metadatos (incorporar información de procedencia en los metadatos del archivo).
Las aplicaciones empresariales incluyen: la protección de la propiedad intelectual (demostrar la propiedad de modelos propietarios), la autenticidad del contenido (distinguir el contenido generado por IA del creado por humanos), el cumplimiento normativo (el EU AI Act exige la divulgación del contenido generado por IA), la defensa frente a la desinformación (rastrear el origen de las ultrafalsificaciones generadas por IA) y la aplicación de licencias (detectar la redistribución no autorizada de modelos).