Constitutional AI

Définition

Méthode d'alignement développée par Anthropic qui guide le fine-tuning d'un LLM via une 'constitution' — un ensemble de principes éthiques écrits en langage naturel — plutôt que uniquement via des préférences humaines. Processus en deux étapes : (1) SL-CAI : le modèle critique et révise ses propres réponses potentiellement nuisibles en s'appuyant sur la constitution (self-critique), générant ainsi des paires préférées/rejetées synthétiques. (2) RL-CAI : un modèle de préférence est entraîné sur ces paires synthétiques (IA Feedback plutôt que Human Feedback — RLAIF vs RLHF) et utilisé comme reward model. L'avantage : réduit la dépendance aux annotateurs humains, rend les valeurs du modèle explicites et auditables, et produit des modèles qui peuvent expliquer leur refus en citant les principes violés. Claude est entraîné avec Constitutional AI.

Exemples concrets

Claude (Anthropic)RLAIF vs RLHFCritiques auto-généréesPrincipes constitutionnels expliqués

← Retour au glossaire Termes en “C”

Fiche rapide

CatégorieIA Générative

Exemples4 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Context Window →DPO (Direct Preference Optimization) →