L’apprentissage automatique adverse est l’étude des vulnérabilités des systèmes d’apprentissage automatique et le développement d’attaques et de défenses liées à ces vulnérabilités. Il examine comment les modèles d’IA peuvent être trompés, manipulés ou exploités par des adversaires et met au point des techniques pour rendre les systèmes d’IA plus robustes.
Les principales catégories d’attaques comprennent : les attaques par évasion (concevoir des entrées au moment de l’inférence qui provoquent une mauvaise classification, par exemple en ajoutant un bruit imperceptible aux images pour tromper les classificateurs), les attaques par empoisonnement (corrompre les données d’entraînement pour compromettre le comportement du modèle pendant l’apprentissage), les attaques par extraction de modèle (utiliser des requêtes d’API pour voler les fonctionnalités d’un modèle en entraînant un modèle de substitution), les attaques par inversion de modèle (reconstruire des données d’entraînement à partir des sorties du modèle) et les attaques par inférence d’appartenance (déterminer si des données spécifiques figuraient dans l’ensemble d’entraînement).
Les implications concrètes sont importantes : les systèmes de vision des véhicules autonomes peuvent être trompés par des patchs adverses, les détecteurs de spam et de logiciels malveillants peuvent être contournés par des entrées conçues à cet effet, les systèmes de reconnaissance faciale peuvent être déjoués ou usurpés, la modération de contenu par l’IA peut être contournée, et les modèles d’IA financière peuvent être manipulés à des fins frauduleuses.
Les stratégies de défense comprennent : l’entraînement adverse (entraîner les modèles sur des exemples adverses pour renforcer leur robustesse), le prétraitement des entrées (détecter et filtrer les entrées adverses avant qu’elles n’atteignent le modèle), les ensembles de modèles (utiliser plusieurs modèles pour réduire la vulnérabilité à une attaque unique), la robustesse certifiée (garanties mathématiques du comportement du modèle dans des plages d’entrées définies) et la surveillance à l’exécution (détecter les entrées anormales pouvant indiquer une activité adverse).