Mixture of Experts (MoE)

Définition

Architecture de réseau de neurones qui divise le modèle en multiples sous-réseaux spécialisés (experts) et utilise un routeur pour n'activer qu'un petit nombre d'experts par token traité. Alors qu'un dense transformer active 100% de ses paramètres pour chaque token, un MoE avec 8 experts n'en active que 2 par token — ce qui réduit le coût computationnel à paramètres totaux équivalents. Mixtral 8x7B (Mistral AI) a 46B paramètres au total mais n'active que ~13B par token, offrant les performances d'un modèle 13B pour le coût d'inférence d'un modèle 7B. GPT-4 serait un MoE selon des sources non officielles. Les défis : le load balancing entre experts (certains experts peuvent être sur-sollicités), la complexité d'entraînement, et la consommation mémoire totale élevée même si l'activation est partielle.

Exemples concrets

Mixtral 8x7B (Mistral AI)GPT-4 (architecture supposée MoE)Switch Transformer (Google)Expert routing load balancing

← Retour au glossaire Termes en “M”

Fiche rapide

CatégorieIA Générative

Exemples4 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →