DPO (Direct Preference Optimization)

Définition

Algorithme d'alignement des LLMs sur les préférences humaines qui simplifie le RLHF en éliminant le besoin d'un modèle de récompense séparé et de l'algorithme PPO (Proximal Policy Optimization). DPO reformule l'objectif de RLHF comme un problème de classification binaire simple : à partir de paires de réponses préférées/rejetées, on entraîne directement le LLM à augmenter la probabilité des réponses préférées et à diminuer celle des réponses rejetées. Plus stable à entraîner que RLHF, moins de mémoire GPU requise (pas de reward model séparé), moins d'hyperparamètres. Limites : DPO peut souffrir de distribution shift (les préférences sont générées par un modèle de référence différent du modèle entraîné). SimPO, IPO et ORPO sont des variantes plus récentes qui adressent certaines limitations de DPO.

Exemples concrets

Zephyr (HuggingFace DPO)trl library DPO TrainerLlama 2 fine-tuning avec DPOPréférences humaines vs RLHF

← Retour au glossaire Termes en “D”

Fiche rapide

CatégorieIA Générative

Exemples4 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →