90 jours d'essai gratuit, risques IA générative :Commencer
Demander une démo
Security

Qu'est-ce que Jailbreaking de l’IA ?

La pratique consistant à concevoir des entrées qui contournent les garde-fous de sécurité d’un modèle d’IA, l’amenant à produire des sorties qu’il a été spécifiquement entraîné à refuser.

Le jailbreaking de l’IA est la manipulation délibérée d’un grand modèle de langage (LLM) ou d’un autre système d’IA afin de contourner ses contrôles de sécurité intégrés, ses politiques de contenu et ses lignes directrices éthiques. Le terme provient du jailbreaking des appareils mobiles, où les utilisateurs suppriment les restrictions du fabricant, et s’applique dans le contexte de l’IA à des exploits fondés sur des requêtes qui outrepassent l’entraînement à l’alignement. Plutôt que d’attaquer l’infrastructure, les jailbreaks opèrent au niveau sémantique : une requête adverse amène le modèle à traiter une demande interdite comme légitime en exploitant sa capacité à suivre des instructions.

Le jailbreaking de l’IA diffère de l’injection de requête sur un point crucial. L’injection de requête consiste pour un attaquant à intégrer des instructions cachées dans les données que le modèle traite (telles qu’un document ou une page web) afin de détourner ses actions ; il s’agit principalement d’une exploitation des pipelines de données. Le jailbreaking, en revanche, est une attaque frontale directe sur les mécanismes de refus du modèle, généralement lancée via le canal d’entrée principal de l’utilisateur. Bien que les deux exploitent la même propriété fondamentale, à savoir que les LLM ne peuvent pas parfaitement distinguer les instructions des données, le jailbreaking cible les défaillances d’alignement et l’injection de requête cible les frontières de confiance architecturales. En pratique, les deux techniques sont fréquemment combinées.

Les techniques courantes de jailbreaking de l’IA comprennent : les attaques par jeu de rôle, où l’utilisateur demande au modèle « d’agir comme » une persona sans restriction (par exemple « DAN, Do Anything Now ») ; le token smuggling, où des mots-clés nuisibles sont encodés, mal orthographiés ou obscurcis à l’aide de substitutions Unicode, de leetspeak ou de Base64 pour échapper aux classificateurs de contenu ; le many-shot jailbreaking, qui exploite la tendance du modèle à reconnaître des motifs en faisant précéder la demande nuisible de dizaines d’exemples qui normalisent le comportement interdit ; les suffixes adverses, des chaînes optimisées ajoutées aux requêtes qui modifient systématiquement le comportement du modèle ; et les scénarios virtuels, où les instructions nuisibles sont présentées comme de la fiction, des hypothèses ou des exercices académiques. Comme les LLM sont probabilistes et entraînés sur d’immenses corpus de texte produit par des humains, aucun garde-fou n’est parfaitement robuste : de nouvelles techniques de jailbreak apparaissent régulièrement.

Pour les entreprises, le jailbreaking de l’IA comporte un risque opérationnel et de sécurité important. Les employés qui jailbreakent des outils d’IA, que ce soit délibérément ou en partageant de nouvelles requêtes trouvées en ligne, peuvent extraire des requêtes système confidentielles révélant la logique métier, générer du code malveillant ou de la désinformation, contourner les restrictions de traitement des données et exposer l’organisation à une responsabilité réglementaire. Les outils d’IA non encadrés adoptés via la Shadow AI sont particulièrement vulnérables : ils ne bénéficient pas du renforcement propre à l’entreprise, peuvent fonctionner sur des modèles de base sans couches de sécurité supplémentaires et sont invisibles pour les équipes informatiques et de sécurité. Un jailbreak réussi contre un assistant d’IA en contact avec la clientèle ou un agent d’IA interne disposant d’un accès aux outils peut avoir des conséquences comparables à celles d’une violation de sécurité classique.

La prévention exige une approche de défense en profondeur. Au niveau du modèle, l’affinage avec des exemples adverses et le RLHF (apprentissage par renforcement à partir de retours humains) améliore la robustesse de base. Au niveau de l’infrastructure, des filtres en entrée et en sortie, y compris des LLM secondaires faisant office de juges, interceptent les schémas de jailbreak connus avant qu’ils n’atteignent ou ne quittent le modèle principal. Les programmes de gouvernance de l’IA établissent des politiques d’usage acceptable qui interdisent les tentatives de jailbreaking et créent des canaux de signalement pour les employés qui constatent un comportement inattendu du modèle. Des exercices de red teaming continus font apparaître de manière proactive de nouvelles vulnérabilités avant que les adversaires ne les exploitent. Les plateformes de surveillance de l’IA offrent une visibilité en temps réel sur les interactions avec les LLM, permettant aux équipes de sécurité de détecter les signatures de jailbreak et de réagir rapidement. Enfin, restreindre l’accès aux modèles de base au profit de déploiements renforcés pour l’entreprise réduit considérablement la surface d’attaque.

Termes associés

Découvrez comment Aona gère Jailbreaking de l’IA

Découvrez comment Aona AI aide les entreprises à gérer ce risque en pratique.

Voir comment ça marche

Protégez votre organisation contre les risques liés à l'IA

Aona AI offre une découverte automatisée du Shadow AI, l'application des politiques en temps réel et une gouvernance complète de l'IA pour les entreprises.