90 jours d'essai gratuit, risques IA générative :Commencer
Demander une démo
Security

Qu'est-ce que Apprentissage automatique adverse ?

Un domaine d’étude consacré à la compréhension et à la défense contre les attaques qui manipulent les systèmes d’IA au moyen d’entrées malveillantes, de données empoisonnées ou de l’exploitation des modèles.

L’apprentissage automatique adverse est l’étude des vulnérabilités des systèmes d’apprentissage automatique et le développement d’attaques et de défenses liées à ces vulnérabilités. Il examine comment les modèles d’IA peuvent être trompés, manipulés ou exploités par des adversaires et met au point des techniques pour rendre les systèmes d’IA plus robustes.

Les principales catégories d’attaques comprennent : les attaques par évasion (concevoir des entrées au moment de l’inférence qui provoquent une mauvaise classification, par exemple en ajoutant un bruit imperceptible aux images pour tromper les classificateurs), les attaques par empoisonnement (corrompre les données d’entraînement pour compromettre le comportement du modèle pendant l’apprentissage), les attaques par extraction de modèle (utiliser des requêtes d’API pour voler les fonctionnalités d’un modèle en entraînant un modèle de substitution), les attaques par inversion de modèle (reconstruire des données d’entraînement à partir des sorties du modèle) et les attaques par inférence d’appartenance (déterminer si des données spécifiques figuraient dans l’ensemble d’entraînement).

Les implications concrètes sont importantes : les systèmes de vision des véhicules autonomes peuvent être trompés par des patchs adverses, les détecteurs de spam et de logiciels malveillants peuvent être contournés par des entrées conçues à cet effet, les systèmes de reconnaissance faciale peuvent être déjoués ou usurpés, la modération de contenu par l’IA peut être contournée, et les modèles d’IA financière peuvent être manipulés à des fins frauduleuses.

Les stratégies de défense comprennent : l’entraînement adverse (entraîner les modèles sur des exemples adverses pour renforcer leur robustesse), le prétraitement des entrées (détecter et filtrer les entrées adverses avant qu’elles n’atteignent le modèle), les ensembles de modèles (utiliser plusieurs modèles pour réduire la vulnérabilité à une attaque unique), la robustesse certifiée (garanties mathématiques du comportement du modèle dans des plages d’entrées définies) et la surveillance à l’exécution (détecter les entrées anormales pouvant indiquer une activité adverse).

Termes associés

Découvrez comment Aona gère Apprentissage automatique adverse

Découvrez comment Aona AI aide les entreprises à gérer ce risque en pratique.

Voir comment ça marche

Protégez votre organisation contre les risques liés à l'IA

Aona AI offre une découverte automatisée du Shadow AI, l'application des politiques en temps réel et une gouvernance complète de l'IA pour les entreprises.