90 días de prueba de riesgos de IA generativa -Empezar ahora
Solicitar una demo
Security

¿Qué es Jailbreaking (IA)?

Una técnica para sortear las barreras de protección de seguridad de un modelo de IA mediante la elaboración de solicitudes que hacen que el modelo ignore sus restricciones y produzca contenido restringido.

El jailbreaking de la IA se refiere a la práctica de diseñar entradas, normalmente solicitudes adversarias, que hacen que un gran modelo de lenguaje u otro sistema de IA sortee sus filtros de seguridad integrados, sus políticas de contenido o sus directrices éticas. El término toma prestado del jailbreaking de los dispositivos móviles, donde los usuarios sortean las restricciones del sistema operativo para obtener acceso no autorizado. En el contexto de la IA, los jailbreaks aprovechan la tensión entre la capacidad de un modelo para seguir instrucciones y su entrenamiento de alineación: al formular las solicitudes de manera que confundan, engañen o saturen a los clasificadores de seguridad, los atacantes pueden obtener salidas que el modelo normalmente rechazaría, incluidas instrucciones dañinas, datos de entrenamiento privados o contenido que infringe las políticas.

Las técnicas de jailbreaking habituales incluyen los ataques de juego de rol (indicar al modelo que «finja» ser un sistema sin censura), la inyección de instrucciones (incorporar instrucciones maliciosas en contenido o documentos de usuario de apariencia inofensiva), el many-shot prompting (utilizar un gran número de ejemplos para normalizar un comportamiento prohibido), el token smuggling (ofuscar palabras clave dañinas mediante codificación o espaciado) y los sufijos adversarios (añadir secuencias de caracteres cuidadosamente optimizadas que modifican el comportamiento del modelo). Dado que los grandes modelos de lenguaje son fundamentalmente predictores de texto probabilísticos, ningún sistema de barreras de protección es perfectamente robusto, y constantemente surgen nuevas técnicas de jailbreak más rápido de lo que los proveedores pueden corregirlas solo mediante el ajuste fino.

Para las empresas, el jailbreaking representa una amenaza directa para la postura de seguridad de la IA. Los empleados o los atacantes externos que logran hacer jailbreak a las herramientas de IA implementadas dentro de una organización pueden extraer solicitudes de sistema confidenciales que revelan la lógica del negocio, generar código malicioso, producir desinformación o manipular flujos de trabajo impulsados por IA. Las estrategias de defensa incluyen barreras de protección de varias capas (que combinan la alineación a nivel de modelo con filtros externos de entrada y salida), ejercicios de red teaming para identificar las vulnerabilidades de forma proactiva, la supervisión de las interacciones con la IA en busca de patrones de jailbreak, la restricción del acceso directo a los modelos base en favor de implementaciones empresariales reforzadas y la formación de los usuarios sobre las políticas de uso responsable de la IA.

Términos relacionados

Descubra cómo Aona gestiona Jailbreaking (IA)

Vea cómo Aona AI ayuda a las empresas a gestionar este riesgo en la práctica.

Vea cómo funciona

Proteja su organización frente a los riesgos de la IA

Aona AI ofrece descubrimiento automatizado de Shadow AI, aplicación de políticas en tiempo real y una gobernanza integral de la IA para empresas.