Data Universe
Newsletter
GlossaireAAlignment (IA)
IA Générative

Alignment (IA)

Définition

Domaine de recherche visant à s'assurer que les systèmes d'IA agissent conformément aux intentions et valeurs humaines, en particulier à mesure que ces systèmes deviennent plus capables. Le problème d'alignement se décompose : alignement des objectifs (le modèle optimise la bonne fonction — pas de reward hacking), alignement des valeurs (le comportement reflète des valeurs humaines complexes et contextuelles), et robustesse (l'alignement se maintient hors-distribution). Les approches techniques incluent RLHF, DPO, Constitutional AI, et l'interprétabilité mécaniste. Les risques : un modèle très capable mais mal aligné pourrait poursuivre des sous-objectifs nuisibles de façon instrumentale (instrument convergence). Anthropic, OpenAI (Superalignment) et DeepMind sont les principaux labs de recherche. L'alignement est considéré comme l'un des défis scientifiques les plus importants du 21e siècle.

Exemples concrets

RLHF (OpenAI/Anthropic)Superalignment OpenAIInterpretability mécanisteAI Safety research
← Retour au glossaireTermes en “A

Fiche rapide

CatégorieIA Générative
Exemples4 outils / technologies