Architecture qui augmente un LLM avec la capacité de consulter dynamiquement une base de connaissances externe avant de générer une réponse. Quand une question arrive, un moteur de recherche sémantique récupère les passages les plus pertinents (via similarité d'embeddings), qui sont injectés dans le contexte du LLM avec la question. Cela permet au LLM de répondre avec des informations récentes, propriétaires ou spécialisées, sans être réentraîné. Le RAG réduit significativement les hallucinations en ancrant la réponse dans des documents factuels. Ses limites : la qualité de la réponse dépend fortement de la qualité de la récupération (garbage in, garbage out).