Data Universe
Newsletter
GlossaireMMixture of Experts (MoE)
IA Générative

Mixture of Experts (MoE)

Définition

Architecture de réseau de neurones qui divise le modèle en multiples sous-réseaux spécialisés (experts) et utilise un routeur pour n'activer qu'un petit nombre d'experts par token traité. Alors qu'un dense transformer active 100% de ses paramètres pour chaque token, un MoE avec 8 experts n'en active que 2 par token — ce qui réduit le coût computationnel à paramètres totaux équivalents. Mixtral 8x7B (Mistral AI) a 46B paramètres au total mais n'active que ~13B par token, offrant les performances d'un modèle 13B pour le coût d'inférence d'un modèle 7B. GPT-4 serait un MoE selon des sources non officielles. Les défis : le load balancing entre experts (certains experts peuvent être sur-sollicités), la complexité d'entraînement, et la consommation mémoire totale élevée même si l'activation est partielle.

Exemples concrets

Mixtral 8x7B (Mistral AI)GPT-4 (architecture supposée MoE)Switch Transformer (Google)Expert routing load balancing
← Retour au glossaireTermes en “M

Fiche rapide

CatégorieIA Générative
Exemples4 outils / technologies