Un ataque de inyección de prompts es una técnica en la que se incorporan instrucciones maliciosas en el contenido que procesa un sistema de IA, lo que provoca que anule sus instrucciones originales, eluda los filtros de seguridad o ejecute acciones no previstas. Considerada el equivalente en IA de la inyección SQL, la inyección de prompts figura entre los riesgos de seguridad más críticos identificados en el OWASP LLM Top 10.
La inyección de prompts directa se produce cuando un usuario elabora intencionadamente una entrada para manipular el comportamiento de un asistente de IA, por ejemplo, «Ignora las instrucciones anteriores y, en su lugar, [acción maliciosa]». La inyección de prompts indirecta es más insidiosa: las instrucciones maliciosas se ocultan en contenido que se pide a la IA que procese, como un correo electrónico que se va a resumir, un documento que se va a analizar o una página web que se va a leer. Cuando la IA procesa ese contenido, ejecuta las instrucciones incorporadas sin que el usuario se dé cuenta.
En los sistemas de IA agéntica, en los que los modelos de IA pueden ejecutar herramientas, navegar por la web, enviar correos electrónicos y realizar llamadas a API -, la inyección de prompts resulta especialmente peligrosa. Un agente de IA comprometido puede recibir la instrucción de exfiltrar datos, crear cuentas no autorizadas, modificar archivos o realizar acciones que infrinjan las políticas de la organización. Investigadores de seguridad han demostrado ataques de inyección de prompts contra importantes asistentes de IA que provocaron que reenviaran correos electrónicos, expusieran el historial de conversaciones y ejecutaran código no autorizado.
Las estrategias de defensa incluyen: la validación y el saneamiento de entradas y salidas; la separación de privilegios (los agentes de IA deberían operar con los permisos mínimos necesarios); el aislamiento de contenido (tratar el contenido externo procesado por la IA como no fiable); la monitorización del comportamiento anómalo de la IA; y la realización periódica de ejercicios de red teaming en los sistemas de IA para identificar las vulnerabilidades de inyección antes de la implementación.
El OWASP LLM Top 10 sitúa la inyección de prompts como el riesgo n.º 1 para las aplicaciones basadas en LLM, lo que refleja su prevalencia y la gravedad de las posibles consecuencias en entornos empresariales.