90 jours d'essai gratuit, risques IA générative :Commencer
Demander une démo
Security

Qu'est-ce que Jailbreaking (IA) ?

Une technique permettant de contourner les garde-fous de sécurité d’un modèle d’IA en concevant des requêtes qui amènent le modèle à ignorer ses restrictions et à produire du contenu interdit.

Le jailbreaking de l’IA désigne la pratique consistant à concevoir des entrées, généralement des requêtes adverses, qui amènent un grand modèle de langage ou un autre système d’IA à contourner ses filtres de sécurité intégrés, ses politiques de contenu ou ses lignes directrices éthiques. Le terme est emprunté au jailbreaking des appareils mobiles, où les utilisateurs contournent les restrictions du système d’exploitation pour obtenir un accès non autorisé. Dans le contexte de l’IA, les jailbreaks exploitent la tension entre la capacité d’un modèle à suivre des instructions et son entraînement à l’alignement : en formulant les requêtes de manière à désorienter, tromper ou submerger les classificateurs de sécurité, les attaquants peuvent obtenir des sorties que le modèle refuserait habituellement, y compris des instructions nuisibles, des données d’entraînement privées ou du contenu enfreignant les politiques.

Les techniques de jailbreaking courantes comprennent les attaques par jeu de rôle (demander au modèle de « faire semblant » d’être un système non censuré), l’injection de requête (intégrer des instructions malveillantes dans un contenu ou des documents utilisateur d’apparence anodine), le many-shot prompting (utiliser un grand nombre d’exemples pour normaliser un comportement interdit), le token smuggling (obscurcir des mots-clés nuisibles par encodage ou espacement) et les suffixes adverses (ajouter des séquences de caractères soigneusement optimisées qui modifient le comportement du modèle). Comme les grands modèles de langage sont fondamentalement des prédicteurs de texte probabilistes, aucun système de garde-fous n’est parfaitement robuste, et de nouvelles techniques de jailbreak apparaissent régulièrement plus vite que les fournisseurs ne peuvent les corriger par le seul affinage.

Pour les entreprises, le jailbreaking représente une menace directe pour la posture de sécurité de l’IA. Les employés ou les attaquants externes qui réussissent à jailbreaker des outils d’IA déployés au sein d’une organisation peuvent extraire des requêtes système confidentielles révélant la logique métier, générer du code malveillant, produire de la désinformation ou manipuler des flux de travail pilotés par l’IA. Les stratégies de défense comprennent des garde-fous à plusieurs niveaux (combinant l’alignement au niveau du modèle avec des filtres externes en entrée et en sortie), des exercices de red teaming pour identifier les vulnérabilités de manière proactive, la surveillance des interactions avec l’IA pour repérer les schémas de jailbreak, la restriction de l’accès direct aux modèles de base au profit de déploiements d’entreprise renforcés, et la sensibilisation des utilisateurs aux politiques d’usage responsable de l’IA.

Termes associés

Découvrez comment Aona gère Jailbreaking (IA)

Découvrez comment Aona AI aide les entreprises à gérer ce risque en pratique.

Voir comment ça marche

Protégez votre organisation contre les risques liés à l'IA

Aona AI offre une découverte automatisée du Shadow AI, l'application des politiques en temps réel et une gouvernance complète de l'IA pour les entreprises.