El aprendizaje automático adversario es el estudio de las vulnerabilidades de los sistemas de aprendizaje automático y el desarrollo de ataques y defensas relacionados con esas vulnerabilidades. Examina cómo los adversarios pueden engañar, manipular o explotar los modelos de IA y desarrolla técnicas para hacer que los sistemas de IA sean más robustos.
Las principales categorías de ataques incluyen: los ataques de evasión (diseñar entradas en el momento de la inferencia que provocan una clasificación errónea, por ejemplo, añadir ruido imperceptible a las imágenes para engañar a los clasificadores), los ataques de envenenamiento (corromper los datos de entrenamiento para comprometer el comportamiento del modelo durante el aprendizaje), los ataques de extracción de modelos (utilizar consultas a la API para robar la funcionalidad de un modelo entrenando un modelo sustituto), los ataques de inversión de modelos (reconstruir los datos de entrenamiento a partir de las salidas del modelo) y los ataques de inferencia de pertenencia (determinar si datos específicos formaban parte del conjunto de entrenamiento).
Las implicaciones en el mundo real son significativas: los sistemas de visión de los vehículos autónomos pueden ser engañados por parches adversarios, los detectores de spam y malware pueden eludirse con entradas diseñadas, los sistemas de reconocimiento facial pueden ser derrotados o suplantados, la moderación de contenido por IA puede sortearse y los modelos de IA financiera pueden manipularse con fines fraudulentos.
Las estrategias de defensa incluyen: el entrenamiento adversario (entrenar los modelos con ejemplos adversarios para desarrollar solidez), el preprocesamiento de entradas (detectar y filtrar las entradas adversarias antes de que lleguen al modelo), los conjuntos de modelos (utilizar varios modelos para reducir la vulnerabilidad a un único ataque), la solidez certificada (garantías matemáticas del comportamiento del modelo dentro de rangos de entrada definidos) y la supervisión en tiempo de ejecución (detectar entradas anómalas que puedan indicar actividad adversaria).