What is Jailbreaking (AI)?

A technique to bypass an AI model's safety guardrails by crafting prompts that cause the model to ignore its restrictions and produce restricted content.

Qu’est-ce que le jailbreaking de l’IA ? Techniques, risques et prévention

Le jailbreaking de l’IA désigne la pratique consistant à concevoir des entrées, généralement des requêtes adverses, qui amènent un grand modèle de langage ou un autre système d’IA à contourner ses filtres de sécurité intégrés, ses politiques de contenu ou ses lignes directrices éthiques. Le terme est emprunté au jailbreaking des appareils mobiles, où les utilisateurs contournent les restrictions du système d’exploitation pour obtenir un accès non autorisé. Dans le contexte de l’IA, les jailbreaks exploitent la tension entre la capacité d’un modèle à suivre des instructions et son entraînement à l’alignement : en formulant les requêtes de manière à désorienter, tromper ou submerger les classificateurs de sécurité, les attaquants peuvent obtenir des sorties que le modèle refuserait habituellement, y compris des instructions nuisibles, des données d’entraînement privées ou du contenu enfreignant les politiques.

Les techniques de jailbreaking courantes comprennent les attaques par jeu de rôle (demander au modèle de « faire semblant » d’être un système non censuré), l’injection de requête (intégrer des instructions malveillantes dans un contenu ou des documents utilisateur d’apparence anodine), le many-shot prompting (utiliser un grand nombre d’exemples pour normaliser un comportement interdit), le token smuggling (obscurcir des mots-clés nuisibles par encodage ou espacement) et les suffixes adverses (ajouter des séquences de caractères soigneusement optimisées qui modifient le comportement du modèle). Comme les grands modèles de langage sont fondamentalement des prédicteurs de texte probabilistes, aucun système de garde-fous n’est parfaitement robuste, et de nouvelles techniques de jailbreak apparaissent régulièrement plus vite que les fournisseurs ne peuvent les corriger par le seul affinage.

Pour les entreprises, le jailbreaking représente une menace directe pour la posture de sécurité de l’IA. Les employés ou les attaquants externes qui réussissent à jailbreaker des outils d’IA déployés au sein d’une organisation peuvent extraire des requêtes système confidentielles révélant la logique métier, générer du code malveillant, produire de la désinformation ou manipuler des flux de travail pilotés par l’IA. Les stratégies de défense comprennent des garde-fous à plusieurs niveaux (combinant l’alignement au niveau du modèle avec des filtres externes en entrée et en sortie), des exercices de red teaming pour identifier les vulnérabilités de manière proactive, la surveillance des interactions avec l’IA pour repérer les schémas de jailbreak, la restriction de l’accès direct aux modèles de base au profit de déploiements d’entreprise renforcés, et la sensibilisation des utilisateurs aux politiques d’usage responsable de l’IA.

Qu'est-ce que Jailbreaking (IA) ?

Termes associés

Injection de prompt

Red teaming de l’IA

Grand modèle de langage (LLM)

Sécurité de l’IA

Protégez votre organisation contre les risques liés à l'IA