Retrieval-Augmented Generation (RAG) ist ein KI-Architekturmuster, das die generativen Fähigkeiten großer Sprachmodelle mit dem Abruf von Informationen aus externen Wissensdatenbanken in Echtzeit kombiniert. Statt sich ausschließlich auf die Trainingsdaten des Modells zu stützen, durchsuchen RAG-Systeme relevante Dokumente, Datenbanken oder APIs, um ihre Antworten in aktuellen, faktischen Informationen zu verankern.
Die RAG-Pipeline umfasst in der Regel: Eine Benutzeranfrage geht ein, die Anfrage wird zur Suche in einer Wissensdatenbank verwendet (mittels Vektorähnlichkeit oder Schlüsselwortsuche), relevante Dokumentfragmente werden abgerufen und bewertet, der abgerufene Kontext wird mit der ursprünglichen Anfrage zu einem angereicherten Prompt kombiniert, und das Sprachmodell generiert eine in den abgerufenen Informationen verankerte Antwort.
Zu den unternehmensseitigen Anwendungen von RAG gehören: interne Wissensassistenten (Abfrage von Unternehmens-Wikis, -Richtlinien und -Dokumentationen), Kundensupport-Bots, die in der Produktdokumentation verankert sind, juristische Recherchewerkzeuge, die tatsächliche Rechtsprechung zitieren, Finanzanalysesysteme, die sich auf reale Marktdaten beziehen, und HR-Assistenten, die Richtlinienfragen mit korrekten Informationen beantworten.
Zu den Sicherheits- und Governance-Aspekten von RAG gehören: Zugriffskontrolle auf die Wissensdatenbank (sicherstellen, dass Benutzer nur Dokumente abrufen, zu deren Einsicht sie berechtigt sind), Aktualität und Genauigkeit der Wissensdatenbank, Prompt-Injection-Risiken durch vergiftete Dokumente, Informationsabfluss über Benutzerkontexte hinweg sowie die Notwendigkeit zu prüfen, dass die abgerufenen Quellen verlässlich sind.