RAG — Retrieval-Augmented Generation

Architecture qui augmente un LLM en lui donnant accès à une base documentaire externe au moment de la génération, pour réduire les hallucinations et ancrer les réponses dans des faits.

💡Explication simple

Un LLM comme GPT-4 connaît tout ce qu'on lui a appris pendant son entraînement, mais pas tes documents internes. RAG, c'est lui donner un accès en temps réel à ta bibliothèque : quand tu poses une question, le système recherche d'abord les passages pertinents dans tes documents, les montre au LLM, et lui dit « réponds en t'appuyant sur ces extraits ». Le LLM ne parle plus de mémoire, il lit avant de répondre.

🏗️Exemple concret

Un cabinet d'avocats dispose de 15 000 contrats. Avec RAG : la question 'Quelle est la clause de résiliation du contrat Acme ?' déclenche une recherche vectorielle qui retrouve les 5 passages les plus similaires dans les contrats, les injecte dans le prompt GPT-4, qui répond avec citation exacte. Précision validée : 91%.

Pythonexemple

from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA

# 1. Indexer les documents
embeddings  = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(documents, embeddings)

# 2. Creer la chaine RAG
qa_chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(model="gpt-4o", temperature=0),
    retriever=vectorstore.as_retriever(search_kwargs={"k": 4}),
    return_source_documents=True,
)

# 3. Interroger
result = qa_chain.invoke({"query": "Quelle est la politique de remboursement ?"})
print(result["result"])
sources = [doc.metadata["source"] for doc in result["source_documents"]]
print("Sources :", sources)

∑ Concept clé

Pipeline RAG : Query Embedding de la question Recherche vectorielle (top-K chunks) Augmentation du prompt (context + question) LLM Réponse avec sources