El red teaming de la IA es el intento deliberado y sistemático de vulnerar un sistema de IA, sondeándolo desde la perspectiva de un actor malicioso para hacer aflorar las debilidades de seguridad, las salidas dañinas y las infracciones de políticas antes de que lleguen a producción. El término se toma prestado del red teaming tradicional de ciberseguridad, en el que un equipo ofensivo (el «red team») ataca las defensas de su propia organización para que el equipo defensivo (el «blue team») pueda mejorarlas. En el caso de los sistemas de IA, esta mentalidad adversaria se aplica a los modos de fallo propios de los modelos de aprendizaje automático: modelos que pueden manipularse mediante el lenguaje, que pueden filtrar datos de entrenamiento y que pueden producir contenido peligroso o engañoso en las condiciones adecuadas.
A diferencia del red teaming tradicional, que se dirige principalmente a la infraestructura de red, las vulnerabilidades de software y los vectores de ingeniería social humana, el red teaming de la IA debe tener en cuenta una superficie de ataque fundamentalmente distinta. Las pruebas de penetración tradicionales operan sobre sistemas deterministas en los que una entrada dada produce de forma fiable una salida dada. Los modelos de IA son probabilísticos: la misma solicitud puede dar resultados diferentes en distintas sesiones, y cambios sutiles en la redacción pueden provocar comportamientos enormemente distintos. Los red teamers de IA deben, por tanto, probar no solo exploits concretos, sino categorías enteras de comportamiento del modelo, lo que a menudo requiere creatividad y experiencia en el dominio en lugar de herramientas listas para usar.
Cinco categorías de ataque principales
1. Inyección de instrucciones: diseñar entradas que anulen las instrucciones de sistema de un modelo, lo que hace que ignore sus barreras de protección de seguridad, revele su configuración confidencial o actúe en nombre de un atacante en lugar del usuario legítimo.
2. Jailbreaking: utilizar escenarios de juego de rol, planteamientos hipotéticos, manipulación en varios pasos o estructuras de solicitud adversarias para sortear las políticas de seguridad del contenido y obtener salidas que el modelo fue entrenado explícitamente para rechazar.
3. Envenenamiento de datos: insertar ejemplos maliciosos o engañosos en el conjunto de datos de entrenamiento o ajuste fino de un modelo para degradar su rendimiento, introducir puertas traseras o sesgar el modelo hacia salidas dañinas específicas en el momento de la inferencia.
4. Extracción de modelos: consultar sistemáticamente un modelo para reconstruir una aproximación funcional de sus pesos o sus fronteras de decisión, lo que permite a competidores o atacantes robar capacidades de IA propietarias sin autorización.
5. Entradas adversarias: aplicar perturbaciones diseñadas matemáticamente a imágenes, audio o texto que son imperceptibles para los humanos pero que provocan de forma fiable que el modelo clasifique mal, transcriba mal o produzca salidas incorrectas, una preocupación especialmente importante en dominios de alto riesgo como la imagen médica o la detección de fraudes.
Quién realiza el red teaming de la IA
El red teaming de la IA lo llevan a cabo tres grupos principales. Los equipos de seguridad internos con experiencia en IA realizan evaluaciones continuas a medida que se actualizan los modelos, integrando el red teaming en la canalización de MLOps. Los investigadores de seguridad de la IA, empleados por organizaciones como OpenAI, Anthropic, Google DeepMind y organismos públicos como el UK AI Safety Institute, realizan evaluaciones previas a la publicación de los modelos de vanguardia para valorar los riesgos a nivel de capacidades. Los auditores externos y las empresas especializadas en seguridad de la IA proporcionan evaluaciones independientes, ofreciendo una perspectiva externa que los equipos internos pueden pasar por alto debido al sesgo de familiaridad.
Los marcos regulatorios emergentes están formalizando estos requisitos. El EU AI Act exige pruebas adversarias para los sistemas de IA de alto riesgo. La Executive Order on AI de los Estados Unidos (2023) exigía evaluaciones de red team para los potentes modelos fundacionales antes de su publicación. El AI Risk Management Framework del NIST incluye las pruebas adversarias como componente fundamental de la función «Measure». A medida que las empresas implementan agentes de IA con acceso a sistemas sensibles, el red teaming de la IA está pasando de ser una actividad previa a la implementación a una disciplina de seguridad continua, tan fundamental como lo son las pruebas de penetración para el software tradicional.