What is Adversarial Machine Learning?

A field of study focused on understanding and defending against attacks that manipulate AI systems through malicious inputs, poisoned data, or model exploitation.

¿Qué es el aprendizaje automático adversario? Ataques y defensas

¿Qué es Aprendizaje automático adversario?

Un campo de estudio centrado en comprender los ataques que manipulan los sistemas de IA mediante entradas maliciosas, datos envenenados o la explotación de modelos, y en defenderse de ellos.

El aprendizaje automático adversario es el estudio de las vulnerabilidades de los sistemas de aprendizaje automático y el desarrollo de ataques y defensas relacionados con esas vulnerabilidades. Examina cómo los adversarios pueden engañar, manipular o explotar los modelos de IA y desarrolla técnicas para hacer que los sistemas de IA sean más robustos.

Las principales categorías de ataques incluyen: los ataques de evasión (diseñar entradas en el momento de la inferencia que provocan una clasificación errónea, por ejemplo, añadir ruido imperceptible a las imágenes para engañar a los clasificadores), los ataques de envenenamiento (corromper los datos de entrenamiento para comprometer el comportamiento del modelo durante el aprendizaje), los ataques de extracción de modelos (utilizar consultas a la API para robar la funcionalidad de un modelo entrenando un modelo sustituto), los ataques de inversión de modelos (reconstruir los datos de entrenamiento a partir de las salidas del modelo) y los ataques de inferencia de pertenencia (determinar si datos específicos formaban parte del conjunto de entrenamiento).

Las implicaciones en el mundo real son significativas: los sistemas de visión de los vehículos autónomos pueden ser engañados por parches adversarios, los detectores de spam y malware pueden eludirse con entradas diseñadas, los sistemas de reconocimiento facial pueden ser derrotados o suplantados, la moderación de contenido por IA puede sortearse y los modelos de IA financiera pueden manipularse con fines fraudulentos.

Las estrategias de defensa incluyen: el entrenamiento adversario (entrenar los modelos con ejemplos adversarios para desarrollar solidez), el preprocesamiento de entradas (detectar y filtrar las entradas adversarias antes de que lleguen al modelo), los conjuntos de modelos (utilizar varios modelos para reducir la vulnerabilidad a un único ataque), la solidez certificada (garantías matemáticas del comportamiento del modelo dentro de rangos de entrada definidos) y la supervisión en tiempo de ejecución (detectar entradas anómalas que puedan indicar actividad adversaria).

Descubra cómo Aona gestiona Aprendizaje automático adversario

Vea cómo Aona AI ayuda a las empresas a gestionar este riesgo en la práctica.

Vea cómo funciona →

¿Qué es Aprendizaje automático adversario?

Términos relacionados

Seguridad de la IA

Modelado de amenazas de la IA

Red teaming de la IA

Pruebas de penetración de la IA

Proteja su organización frente a los riesgos de la IA