90 días de prueba de riesgos de IA generativa -Empezar ahora
Solicitar una demo
Security

¿Qué es Jailbreaking de la IA?

La práctica de diseñar entradas que sortean las barreras de protección de seguridad de un modelo de IA, lo que provoca que produzca salidas que fue entrenado específicamente para rechazar.

El jailbreaking de la IA es la manipulación deliberada de un gran modelo de lenguaje (LLM) u otro sistema de IA para sortear sus controles de seguridad integrados, sus políticas de contenido y sus directrices éticas. El término procede del jailbreaking de los dispositivos móviles, donde los usuarios eliminan las restricciones del fabricante, y se aplica en el contexto de la IA a exploits basados en solicitudes que anulan el entrenamiento de alineación. En lugar de atacar la infraestructura, los jailbreaks operan en la capa semántica: una solicitud adversaria induce al modelo a tratar una petición prohibida como legítima al aprovechar su capacidad para seguir instrucciones.

El jailbreaking de la IA se diferencia de la inyección de instrucciones en un punto crucial. La inyección de instrucciones consiste en que un atacante incorpora instrucciones ocultas en los datos que el modelo procesa (como un documento o una página web) para secuestrar sus acciones; es principalmente una explotación de las canalizaciones de datos. El jailbreaking, en cambio, es un ataque frontal directo a los mecanismos de rechazo del modelo, normalmente lanzado a través del canal de entrada principal del usuario. Aunque ambos aprovechan la misma propiedad fundamental, a saber, que los LLM no pueden distinguir perfectamente las instrucciones de los datos, el jailbreaking se dirige a los fallos de alineación y la inyección de instrucciones a las fronteras de confianza arquitectónicas. En la práctica, ambas técnicas se combinan con frecuencia.

Las técnicas habituales de jailbreaking de la IA incluyen: los ataques de juego de rol, en los que el usuario indica al modelo que «actúe como» una persona sin restricciones (por ejemplo, «DAN, Do Anything Now»); el token smuggling, en el que las palabras clave dañinas se codifican, se escriben mal o se ofuscan mediante sustituciones Unicode, leetspeak o Base64 para eludir los clasificadores de contenido; el many-shot jailbreaking, que aprovecha la tendencia del modelo a la coincidencia de patrones anteponiendo a la petición dañina docenas de ejemplos que normalizan el comportamiento prohibido; los sufijos adversarios, cadenas optimizadas que se añaden a las solicitudes y que modifican sistemáticamente el comportamiento del modelo; y los escenarios virtuales, en los que las instrucciones dañinas se plantean como ficción, hipótesis o ejercicios académicos. Dado que los LLM son probabilísticos y se entrenan con enormes corpus de texto generado por humanos, ninguna barrera de protección es perfectamente robusta: constantemente surgen nuevas técnicas de jailbreak.

Para las empresas, el jailbreaking de la IA conlleva un riesgo operativo y de seguridad importante. Los empleados que hacen jailbreak a las herramientas de IA, ya sea de forma deliberada o compartiendo nuevas solicitudes encontradas en línea, pueden extraer solicitudes de sistema confidenciales que revelan la lógica del negocio, generar código malicioso o desinformación, sortear las restricciones de tratamiento de datos y exponer a la organización a responsabilidad regulatoria. Las herramientas de IA no gobernadas adoptadas mediante Shadow AI son especialmente vulnerables: carecen del refuerzo propio de la empresa, pueden ejecutarse sobre modelos base sin capas de seguridad adicionales y son invisibles para los equipos de TI y seguridad. Un jailbreak exitoso contra un asistente de IA de cara al cliente o un agente de IA interno con acceso a herramientas puede tener consecuencias comparables a las de una brecha de seguridad convencional.

La prevención exige un enfoque de defensa en profundidad. A nivel de modelo, el ajuste fino con ejemplos adversarios y el RLHF (aprendizaje por refuerzo a partir de retroalimentación humana) mejora la solidez de base. A nivel de infraestructura, los filtros de entrada y salida, incluidos los LLM secundarios que actúan como jueces, interceptan los patrones de jailbreak conocidos antes de que lleguen al modelo principal o salgan de él. Los programas de gobernanza de la IA establecen políticas de uso aceptable que prohíben los intentos de jailbreaking y crean canales de notificación para los empleados que detectan un comportamiento inesperado del modelo. Los ejercicios de red teaming continuos hacen aflorar de forma proactiva nuevas vulnerabilidades antes de que los adversarios las exploten. Las plataformas de supervisión de la IA proporcionan visibilidad en tiempo real sobre las interacciones con los LLM, lo que permite a los equipos de seguridad detectar las firmas de jailbreak y responder con rapidez. Por último, restringir el acceso a los modelos base en favor de implementaciones reforzadas para la empresa reduce considerablemente la superficie de ataque.

Términos relacionados

Descubra cómo Aona gestiona Jailbreaking de la IA

Vea cómo Aona AI ayuda a las empresas a gestionar este riesgo en la práctica.

Vea cómo funciona

Proteja su organización frente a los riesgos de la IA

Aona AI ofrece descubrimiento automatizado de Shadow AI, aplicación de políticas en tiempo real y una gobernanza integral de la IA para empresas.