Domaine de recherche visant à s'assurer que les systèmes d'IA agissent conformément aux intentions et valeurs humaines, en particulier à mesure que ces systèmes deviennent plus capables. Le problème d'alignement se décompose : alignement des objectifs (le modèle optimise la bonne fonction — pas de reward hacking), alignement des valeurs (le comportement reflète des valeurs humaines complexes et contextuelles), et robustesse (l'alignement se maintient hors-distribution). Les approches techniques incluent RLHF, DPO, Constitutional AI, et l'interprétabilité mécaniste. Les risques : un modèle très capable mais mal aligné pourrait poursuivre des sous-objectifs nuisibles de façon instrumentale (instrument convergence). Anthropic, OpenAI (Superalignment) et DeepMind sont les principaux labs de recherche. L'alignement est considéré comme l'un des défis scientifiques les plus importants du 21e siècle.