La Retrieval-Augmented Generation (RAG) est un schéma d’architecture d’IA qui combine les capacités génératives des grands modèles de langage avec la récupération d’informations en temps réel à partir de bases de connaissances externes. Plutôt que de s’appuyer uniquement sur les données d’entraînement du modèle, les systèmes RAG recherchent des documents, des bases de données ou des API pertinents afin d’ancrer leurs réponses dans des informations factuelles et actualisées.
Le pipeline RAG comprend généralement les étapes suivantes : une requête utilisateur est reçue, la requête sert à interroger une base de connaissances (par similarité vectorielle ou recherche par mots-clés), les fragments de documents pertinents sont récupérés et classés, le contexte récupéré est combiné à la requête initiale pour former une requête enrichie, et le modèle de langage génère une réponse ancrée dans les informations récupérées.
Les applications de la RAG en entreprise comprennent : les assistants de connaissances internes (interrogation des wikis, politiques et documentations de l’entreprise), les bots de support client ancrés dans la documentation produit, les outils de recherche juridique qui citent une jurisprudence réelle, les systèmes d’analyse financière s’appuyant sur des données de marché réelles et les assistants RH répondant aux questions de politique avec des informations exactes.
Les considérations de sécurité et de gouvernance pour la RAG comprennent : le contrôle d’accès à la base de connaissances (garantir que les utilisateurs ne récupèrent que les documents qu’ils sont autorisés à consulter), la fraîcheur et l’exactitude de la base de connaissances, les risques d’injection de requête via des documents empoisonnés, les fuites d’informations entre contextes utilisateurs, et la nécessité de vérifier que les sources récupérées font autorité.