Architecture de réseau de neurones qui divise le modèle en multiples sous-réseaux spécialisés (experts) et utilise un routeur pour n'activer qu'un petit nombre d'experts par token traité. Alors qu'un dense transformer active 100% de ses paramètres pour chaque token, un MoE avec 8 experts n'en active que 2 par token — ce qui réduit le coût computationnel à paramètres totaux équivalents. Mixtral 8x7B (Mistral AI) a 46B paramètres au total mais n'active que ~13B par token, offrant les performances d'un modèle 13B pour le coût d'inférence d'un modèle 7B. GPT-4 serait un MoE selon des sources non officielles. Les défis : le load balancing entre experts (certains experts peuvent être sur-sollicités), la complexité d'entraînement, et la consommation mémoire totale élevée même si l'activation est partielle.