La Retrieval-Augmented Generation (RAG) es un patrón de arquitectura de IA que combina las capacidades generativas de los grandes modelos de lenguaje con la recuperación de información en tiempo real desde bases de conocimiento externas. En lugar de depender únicamente de los datos de entrenamiento del modelo, los sistemas RAG buscan documentos, bases de datos o API relevantes para anclar sus respuestas en información factual y actualizada.
La canalización de RAG suele implicar: se recibe una consulta del usuario, la consulta se utiliza para buscar en una base de conocimiento (mediante similitud vectorial o búsqueda por palabras clave), se recuperan y clasifican los fragmentos de documentos relevantes, el contexto recuperado se combina con la consulta original en una solicitud enriquecida, y el modelo de lenguaje genera una respuesta anclada en la información recuperada.
Las aplicaciones empresariales de la RAG incluyen: asistentes de conocimiento internos (consulta de wikis, políticas y documentación de la empresa), bots de atención al cliente anclados en la documentación del producto, herramientas de investigación jurídica que citan jurisprudencia real, sistemas de análisis financiero que se basan en datos de mercado reales y asistentes de RR. HH. que responden preguntas sobre políticas con información precisa.
Las consideraciones de seguridad y gobernanza para la RAG incluyen: el control de acceso a la base de conocimiento (garantizar que los usuarios solo recuperen los documentos que están autorizados a ver), la actualidad y la exactitud de la base de conocimiento, los riesgos de inyección de instrucciones a través de documentos envenenados, la fuga de información entre contextos de usuario y la necesidad de validar que las fuentes recuperadas sean autorizadas.