Les tests d’intrusion de l’IA sont une forme spécialisée de tests de sécurité qui ciblent les systèmes d’IA en simulant des attaques adverses afin de découvrir des vulnérabilités exploitables. Contrairement aux tests d’intrusion traditionnels axés sur la sécurité des réseaux et des applications, les tests d’intrusion de l’IA ciblent spécifiquement le comportement des modèles, les pipelines de données et les surfaces d’attaque propres à l’IA.
Les principaux domaines des tests d’intrusion de l’IA comprennent : les tests d’injection de requête (tenter de manipuler le comportement de l’IA au moyen d’entrées conçues à cet effet), les tests de robustesse des modèles (évaluer comment les modèles réagissent aux exemples adverses et aux cas limites), les tests d’exfiltration de données (tenter d’extraire des données d’entraînement ou des informations sensibles des modèles), les tests de sécurité des API (sonder les points de terminaison des services d’IA pour détecter des problèmes d’authentification, de limitation de débit et de validation des entrées), les tests de contournement des garde-fous (tenter de déjouer les filtres de sécurité du contenu), les tests d’escalade de privilèges (exploiter les autorisations des outils d’IA pour accéder à des données non autorisées) et les tests de la chaîne d’approvisionnement (évaluer la sécurité des dépendances et intégrations des modèles).
Les méthodologies de tests d’intrusion de l’IA s’appuient sur des cadres tels que l’OWASP Top 10 pour les applications LLM, MITRE ATLAS (Adversarial Threat Landscape for AI Systems) et les lignes directrices du NIST pour les tests de sécurité de l’IA.
Les organisations devraient intégrer les tests d’intrusion de l’IA à leurs programmes d’évaluation de la sécurité, réaliser des tests avant le déploiement d’applications dotées d’IA, après des mises à jour importantes des modèles et à un rythme régulier. Les résultats devraient être documentés, corrigés et vérifiés par de nouveaux tests.