Data Universe
Newsletter
GlossaireDDPO (Direct Preference Optimization)
IA Générative

DPO (Direct Preference Optimization)

Définition

Algorithme d'alignement des LLMs sur les préférences humaines qui simplifie le RLHF en éliminant le besoin d'un modèle de récompense séparé et de l'algorithme PPO (Proximal Policy Optimization). DPO reformule l'objectif de RLHF comme un problème de classification binaire simple : à partir de paires de réponses préférées/rejetées, on entraîne directement le LLM à augmenter la probabilité des réponses préférées et à diminuer celle des réponses rejetées. Plus stable à entraîner que RLHF, moins de mémoire GPU requise (pas de reward model séparé), moins d'hyperparamètres. Limites : DPO peut souffrir de distribution shift (les préférences sont générées par un modèle de référence différent du modèle entraîné). SimPO, IPO et ORPO sont des variantes plus récentes qui adressent certaines limitations de DPO.

Exemples concrets

Zephyr (HuggingFace DPO)trl library DPO TrainerLlama 2 fine-tuning avec DPOPréférences humaines vs RLHF
← Retour au glossaireTermes en “D

Fiche rapide

CatégorieIA Générative
Exemples4 outils / technologies