Alignment (IA)

Définition

Domaine de recherche visant à s'assurer que les systèmes d'IA agissent conformément aux intentions et valeurs humaines, en particulier à mesure que ces systèmes deviennent plus capables. Le problème d'alignement se décompose : alignement des objectifs (le modèle optimise la bonne fonction — pas de reward hacking), alignement des valeurs (le comportement reflète des valeurs humaines complexes et contextuelles), et robustesse (l'alignement se maintient hors-distribution). Les approches techniques incluent RLHF, DPO, Constitutional AI, et l'interprétabilité mécaniste. Les risques : un modèle très capable mais mal aligné pourrait poursuivre des sous-objectifs nuisibles de façon instrumentale (instrument convergence). Anthropic, OpenAI (Superalignment) et DeepMind sont les principaux labs de recherche. L'alignement est considéré comme l'un des défis scientifiques les plus importants du 21e siècle.

Exemples concrets

RLHF (OpenAI/Anthropic)Superalignment OpenAIInterpretability mécanisteAI Safety research

← Retour au glossaire Termes en “A”

Fiche rapide

CatégorieIA Générative

Exemples4 outils / technologies

Autres termes en IA Générative

Agent IA →Chain of Thought (CoT) →Constitutional AI →Context Window →DPO (Direct Preference Optimization) →