LLM (Large Language Model)

Définition

Modèle de deep learning entraîné sur des centaines de milliards de tokens de texte (livres, articles, code, web) pour prédire le prochain token dans une séquence, une tâche qui force le modèle à développer une compréhension implicite du langage, des faits et du raisonnement. Basés sur l'architecture Transformer, ils sont dit « large » car ils comptent des dizaines ou centaines de milliards de paramètres. Après le pré-entraînement, les LLMs sont alignés sur les instructions humaines via le fine-tuning supervisé et le RLHF, ce qui leur donne leur caractère conversationnel. Leurs capacités émergentes — raisonnement, génération de code, traduction, résumé — apparaissent de façon non linéaire avec la taille.

Exemples concrets

GPT-4oClaude 3.5 SonnetMistral LargeLlama 3Gemini

← Retour au glossaire Termes en “L”

Fiche rapide

CatégorieIA Générative

Exemples5 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →