What is Jailbreaking (AI)?

A technique to bypass an AI model's safety guardrails by crafting prompts that cause the model to ignore its restrictions and produce restricted content.

¿Qué es el jailbreaking de la IA? Técnicas, riesgos y prevención

El jailbreaking de la IA se refiere a la práctica de diseñar entradas, normalmente solicitudes adversarias, que hacen que un gran modelo de lenguaje u otro sistema de IA sortee sus filtros de seguridad integrados, sus políticas de contenido o sus directrices éticas. El término toma prestado del jailbreaking de los dispositivos móviles, donde los usuarios sortean las restricciones del sistema operativo para obtener acceso no autorizado. En el contexto de la IA, los jailbreaks aprovechan la tensión entre la capacidad de un modelo para seguir instrucciones y su entrenamiento de alineación: al formular las solicitudes de manera que confundan, engañen o saturen a los clasificadores de seguridad, los atacantes pueden obtener salidas que el modelo normalmente rechazaría, incluidas instrucciones dañinas, datos de entrenamiento privados o contenido que infringe las políticas.

Las técnicas de jailbreaking habituales incluyen los ataques de juego de rol (indicar al modelo que «finja» ser un sistema sin censura), la inyección de instrucciones (incorporar instrucciones maliciosas en contenido o documentos de usuario de apariencia inofensiva), el many-shot prompting (utilizar un gran número de ejemplos para normalizar un comportamiento prohibido), el token smuggling (ofuscar palabras clave dañinas mediante codificación o espaciado) y los sufijos adversarios (añadir secuencias de caracteres cuidadosamente optimizadas que modifican el comportamiento del modelo). Dado que los grandes modelos de lenguaje son fundamentalmente predictores de texto probabilísticos, ningún sistema de barreras de protección es perfectamente robusto, y constantemente surgen nuevas técnicas de jailbreak más rápido de lo que los proveedores pueden corregirlas solo mediante el ajuste fino.

Para las empresas, el jailbreaking representa una amenaza directa para la postura de seguridad de la IA. Los empleados o los atacantes externos que logran hacer jailbreak a las herramientas de IA implementadas dentro de una organización pueden extraer solicitudes de sistema confidenciales que revelan la lógica del negocio, generar código malicioso, producir desinformación o manipular flujos de trabajo impulsados por IA. Las estrategias de defensa incluyen barreras de protección de varias capas (que combinan la alineación a nivel de modelo con filtros externos de entrada y salida), ejercicios de red teaming para identificar las vulnerabilidades de forma proactiva, la supervisión de las interacciones con la IA en busca de patrones de jailbreak, la restricción del acceso directo a los modelos base en favor de implementaciones empresariales reforzadas y la formación de los usuarios sobre las políticas de uso responsable de la IA.

¿Qué es Jailbreaking (IA)?

Términos relacionados

Inyección de prompts

Red teaming de la IA

Gran modelo de lenguaje (LLM)

Seguridad de la IA

Proteja su organización frente a los riesgos de la IA