RLHF (Reinforcement Learning from Human Feedback)

Définition

Technique d'alignement qui adapte un LLM pré-entraîné pour qu'il suive les instructions humaines et produise des réponses utiles, inoffensives et honnêtes. Le processus se déroule en trois étapes : fine-tuning supervisé sur des exemples de référence générés par des humains, entraînement d'un modèle de récompense à partir de comparaisons de réponses par des annotateurs, puis optimisation du LLM pour maximiser cette récompense via du RL (typiquement PPO). Le RLHF transforme un modèle de prédiction de texte en un assistant conversationnel. Ses limites incluent le reward hacking (le modèle apprend à maximiser le score sans correspondre à l'intention) et les biais des annotateurs. Des variantes comme DPO (Direct Preference Optimization) simplifient le processus.

Exemples concrets

InstructGPTChatGPTAlignement de Claude

← Retour au glossaire Termes en “R”

Fiche rapide

CatégorieIA Générative

Exemples3 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →