Reward Model

Définition

Modèle de ML entraîné à prédire la qualité ou la préférence humaine pour une réponse d'un LLM donné un prompt, utilisé dans le pipeline RLHF pour fournir un signal de récompense scalaire. Le reward model est fine-tuné sur des données de préférences humaines : des paires de réponses (A préféré à B) annotées par des humains. Une fois entraîné, le reward model remplace les annotateurs humains dans la boucle de renforcement — le LLM est optimisé pour maximiser son score. La qualité du reward model est déterminante pour l'alignement final : un reward model biaisé ou incomplet produit un LLM qui exploite ses failles (reward hacking). InstructGPT (OpenAI), Claude (Anthropic) et Gemini utilisent tous un reward model. Constitutionnel AI (Anthropic) propose une alternative en remplaçant les préférences humaines par des principes constitutionnels.

Exemples concrets

InstructGPT reward modelOpenAssistant reward model (open source)Reward hacking / Goodhart's LawPPO avec reward model

← Retour au glossaire Termes en “R”

Fiche rapide

CatégorieIA Générative

Exemples4 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →