Méthode d'alignement développée par Anthropic qui guide le fine-tuning d'un LLM via une 'constitution' — un ensemble de principes éthiques écrits en langage naturel — plutôt que uniquement via des préférences humaines. Processus en deux étapes : (1) SL-CAI : le modèle critique et révise ses propres réponses potentiellement nuisibles en s'appuyant sur la constitution (self-critique), générant ainsi des paires préférées/rejetées synthétiques. (2) RL-CAI : un modèle de préférence est entraîné sur ces paires synthétiques (IA Feedback plutôt que Human Feedback — RLAIF vs RLHF) et utilisé comme reward model. L'avantage : réduit la dépendance aux annotateurs humains, rend les valeurs du modèle explicites et auditables, et produit des modèles qui peuvent expliquer leur refus en citant les principes violés. Claude est entraîné avec Constitutional AI.