Technique d'alignement qui adapte un LLM pré-entraîné pour qu'il suive les instructions humaines et produise des réponses utiles, inoffensives et honnêtes. Le processus se déroule en trois étapes : fine-tuning supervisé sur des exemples de référence générés par des humains, entraînement d'un modèle de récompense à partir de comparaisons de réponses par des annotateurs, puis optimisation du LLM pour maximiser cette récompense via du RL (typiquement PPO). Le RLHF transforme un modèle de prédiction de texte en un assistant conversationnel. Ses limites incluent le reward hacking (le modèle apprend à maximiser le score sans correspondre à l'intention) et les biais des annotateurs. Des variantes comme DPO (Direct Preference Optimization) simplifient le processus.