Algorithme d'alignement des LLMs sur les préférences humaines qui simplifie le RLHF en éliminant le besoin d'un modèle de récompense séparé et de l'algorithme PPO (Proximal Policy Optimization). DPO reformule l'objectif de RLHF comme un problème de classification binaire simple : à partir de paires de réponses préférées/rejetées, on entraîne directement le LLM à augmenter la probabilité des réponses préférées et à diminuer celle des réponses rejetées. Plus stable à entraîner que RLHF, moins de mémoire GPU requise (pas de reward model séparé), moins d'hyperparamètres. Limites : DPO peut souffrir de distribution shift (les préférences sont générées par un modèle de référence différent du modèle entraîné). SimPO, IPO et ORPO sont des variantes plus récentes qui adressent certaines limitations de DPO.