Modèle de ML entraîné à prédire la qualité ou la préférence humaine pour une réponse d'un LLM donné un prompt, utilisé dans le pipeline RLHF pour fournir un signal de récompense scalaire. Le reward model est fine-tuné sur des données de préférences humaines : des paires de réponses (A préféré à B) annotées par des humains. Une fois entraîné, le reward model remplace les annotateurs humains dans la boucle de renforcement — le LLM est optimisé pour maximiser son score. La qualité du reward model est déterminante pour l'alignement final : un reward model biaisé ou incomplet produit un LLM qui exploite ses failles (reward hacking). InstructGPT (OpenAI), Claude (Anthropic) et Gemini utilisent tous un reward model. Constitutionnel AI (Anthropic) propose une alternative en remplaçant les préférences humaines par des principes constitutionnels.