What are LLM guardrails?

LLM guardrails are safety constraints, filters, and controls layered around a large language model to prevent harmful, policy-violating, or inaccurate outputs. They operate at the input level (screening prompts before they reach the model), the output level (evaluating responses before delivery), and the tool-use level (controlling what actions an AI agent is permitted to take).

What is the difference between input and output guardrails?

Input guardrails intercept and evaluate user-supplied prompts before the model processes them, blocking harmful requests or redacting sensitive data. Output guardrails evaluate the model's response before it is returned to the user, checking for harmful content, hallucinated facts, PII leakage, or policy violations. Both layers are necessary because threats can originate from either direction.

How do LLM guardrails fail?

Guardrails can be bypassed through jailbreaking (creative prompts that trick the model into ignoring its restrictions), prompt injection (malicious instructions embedded in external content the model reads), and adversarial inputs crafted to fool the guardrail classifier while still eliciting a harmful response. Continuous red teaming and automated bypass testing are essential to maintain effective guardrail coverage over time.

What are tool-use guardrails in AI agents?

Tool-use guardrails control which external tools, APIs, and actions an AI agent is permitted to invoke. They enforce least-privilege access (the agent can only use what the current task requires), maintain an allowlist of approved tool calls, and require human approval before irreversible actions such as sending emails, modifying records, or triggering financial transactions.

Que sont les garde-fous LLM ? Contrôles en entrée, en sortie et d’usage des outils

Les garde-fous LLM sont l’ensemble des mécanismes techniques et de politique disposés autour d’un grand modèle de langage pour contenir son comportement dans des limites acceptables. Ils opèrent à plusieurs niveaux : l’alignement au niveau du modèle (affiner le modèle pour qu’il refuse certaines requêtes), les filtres en entrée (détecter et bloquer les requêtes nuisibles ou contraires aux politiques avant qu’elles n’atteignent le modèle), les filtres en sortie (classer et caviarder les réponses problématiques avant leur remise à l’utilisateur) et les contrôles au niveau de l’orchestration (appliquer, au sein des frameworks d’agents, des règles sur les outils qu’un modèle peut invoquer et les données auxquelles il peut accéder). Ensemble, ces couches forment une approche de défense en profondeur de la sécurité des LLM et une composante fondamentale de toute stratégie sérieuse de gouvernance de l’IA.

Les garde-fous en entrée interceptent le contenu fourni par l’utilisateur avant qu’il n’atteigne le modèle. Ils examinent les requêtes à la recherche d’intentions nuisibles, de tentatives d’outrepasser les instructions système (injection de requête), de demandes relevant de catégories de contenu interdites et de données sensibles que les employés ne devraient pas soumettre à des services d’IA externes, telles que des données personnelles de clients, du code source ou des relevés financiers. Lorsqu’une violation est détectée, le garde-fou en entrée peut bloquer purement et simplement la requête, caviarder le contenu en cause ou l’acheminer vers une revue humaine. Certains garde-fous en entrée sont de simples listes de blocage par mots-clés ou expressions régulières ; des implémentations plus sophistiquées utilisent un modèle classificateur secondaire qui note la requête entrante selon plusieurs dimensions de risque simultanément.

Les garde-fous en sortie se situent de l’autre côté du modèle et évaluent tout ce que le LLM produit avant qu’il ne soit renvoyé à l’utilisateur ou transmis en aval dans un flux d’agent. Ils vérifient la présence de faits hallucinés, de langage nuisible ou offensant, de données confidentielles ayant fui dans la réponse, de violations réglementaires (par exemple, un outil financier d’IA générant des conseils en investissement sans licence) et de contraintes de format ou de longueur. Les garde-fous en sortie peuvent aussi appliquer des politiques de sécurité de la marque, en veillant à ce que le modèle ne prenne pas d’engagements, ne formule pas de déclarations tarifaires ou de représentations juridiques que l’organisation n’a pas autorisés.

Les garde-fous d’usage des outils s’appliquent spécifiquement aux déploiements agentiques où le LLM a la capacité d’appeler des API externes, d’exécuter du code, d’envoyer des messages ou d’écrire dans des bases de données. Ces contrôles définissent une liste d’autorisation des appels d’outils permis, appliquent un accès à moindre privilège afin que le modèle ne puisse pas invoquer de capacités allant au-delà de ce que la tâche en cours requiert, et exigent une approbation humaine avant des actions irréversibles telles que l’envoi d’e-mails, la modification de dossiers ou le déclenchement de transactions financières. À mesure que les entreprises adoptent des agents d’IA pour des flux d’automatisation, les garde-fous d’usage des outils deviennent rapidement la catégorie de garde-fous la plus critique, car les erreurs commises via les appels d’outils ont des conséquences concrètes qu’il n’est pas facile d’annuler.

Les garde-fous fondés sur des règles et ceux fondés sur le ML présentent chacun des atouts distincts. Les garde-fous fondés sur des règles, à savoir les motifs d’expressions régulières, les listes de blocage par mots-clés et les restrictions de sujets explicites, sont déterministes, rapides et faciles à auditer. Ils fonctionnent de manière fiable pour des catégories interdites bien définies mais peinent face aux formulations inédites, à l’ambiguïté contextuelle et aux entrées adverses conçues spécifiquement pour échapper à la correspondance de motifs. Les garde-fous fondés sur le ML utilisent des classificateurs entraînés ou des LLM secondaires pour évaluer l’intention et le contexte plutôt que la forme de surface, ce qui leur confère une couverture plus large et une résilience face à l’évasion. Le compromis est un coût de calcul plus élevé, une moindre prévisibilité et la nécessité d’un réentraînement continu à mesure que le paysage des menaces évolue. Les déploiements en production superposent généralement les deux : des filtres fondés sur des règles pour un blocage rapide et peu coûteux des motifs connus comme mauvais, et des classificateurs fondés sur le ML pour un jugement nuancé sur les cas ambigus.

Des exemples concrets illustrent là où les garde-fous font une différence tangible. Une entreprise de services financiers déployant un assistant d’IA pour ses chargés de clientèle utilise des garde-fous en sortie pour empêcher le modèle de générer des recommandations d’investissement, en acheminant plutôt toute réponse ressemblant à un conseil financier vers une file de revue de conformité. Une organisation de santé utilise des garde-fous en entrée pour détecter et bloquer toute requête qui inclut ce qui semble être des données de patients, à l’aide d’un classificateur DLP réglé pour reconnaître les codes de diagnostic, les noms de médicaments et les identifiants d’assurance. Une entreprise de logiciels utilise des garde-fous d’usage des outils dans son agent de codage par IA pour empêcher le modèle de pousser du code directement vers les branches de production, en exigeant une pull request approuvée par un humain pour toute opération d’écriture dans le dépôt.

Les garde-fous échouent de plusieurs manières prévisibles, et comprendre ces modes de défaillance est essentiel pour les équipes de sécurité. Les attaques de jailbreaking utilisent des structures de requête créatives, à savoir des scénarios de jeu de rôle, des cadrages fictifs, des chaînes de raisonnement en plusieurs étapes, pour amener le modèle à produire un contenu que ses garde-fous sont censés empêcher. L’injection de requête intègre des instructions malveillantes dans des données que le modèle récupère depuis des sources externes (pages web, documents, e-mails), détournant de fait le comportement du modèle sans que l’attaquant n’interagisse jamais directement avec le système. Les entrées adverses sont conçues pour paraître anodines au classificateur de garde-fou tout en provoquant une réponse nuisible du modèle principal. Le bourrage de fenêtre de contexte submerge les garde-fous qui n’examinent qu’une fenêtre fixe de la conversation. Tous ces contournements partagent une racine commune : les garde-fous sont généralement des systèmes distincts du modèle qu’ils protègent, et toute jonction entre eux constitue une surface d’attaque potentielle.

L’automatisation de la blue team y répond en traitant l’efficacité des garde-fous comme une propriété de sécurité mesurable et surveillée en continu. Plutôt que de déployer des garde-fous en supposant qu’ils fonctionnent, les équipes de sécurité exécutent des pipelines de red team automatisés qui sondent en continu les garde-fous avec de nouvelles techniques de contournement, y compris le fuzzing, la perturbation adverse et des variantes de jailbreak générées par LLM, et alertent lorsque les taux de contournement dépassent un seuil défini. La télémétrie des garde-fous (nombre de requêtes bloquées, tentatives de contournement, taux de faux positifs) alimente les tableaux de bord de sécurité aux côtés des signaux conventionnels de détection des menaces. Lorsque des anomalies sont détectées, à savoir un pic soudain de sorties bloquées provenant d’un utilisateur ou d’une intégration spécifique, des flux automatisés peuvent procéder à une escalade vers la réponse aux incidents. Cette boucle de validation continue transforme les garde-fous d’une configuration statique en un contrôle de sécurité vivant doté d’une couverture mesurable et de SLA définis pour la remédiation.

Du point de vue de la gouvernance d’entreprise, les garde-fous LLM sont essentiels mais insuffisants à eux seuls. Ils doivent être associés à un cadre de gouvernance de l’IA qui définit les catégories de contenu et les types de données interdits, à un registre d’agents qui documente les outils et les autorisations que chaque déploiement d’IA est habilité à utiliser, et à une couche de surveillance qui donne aux équipes de sécurité une visibilité en temps réel sur l’activité des garde-fous dans l’ensemble du parc d’IA. Les organisations qui déploient des garde-fous sans gouvernance se retrouvent avec des contrôles fragmentés, appliqués de manière incohérente et presque impossibles à auditer. L’objectif est un système cohérent et piloté par les politiques dans lequel les règles de garde-fou découlent de politiques organisationnelles documentées, les violations sont consignées avec suffisamment de contexte pour étayer une investigation, et la configuration des garde-fous est versionnée et soumise à la gestion du changement. C’est le fondement d’une sécurité de l’IA défendable, et la norme que les régulateurs, les auditeurs et les clients d’entreprise attendent de plus en plus.

Qu'est-ce que Garde-fous LLM ?

Termes associés

Injection de prompt

Red teaming de l’IA

Grand modèle de langage (LLM)

Jailbreaking (IA)

Sécurité de l’IA

IA agentique

Protégez votre organisation contre les risques liés à l'IA