Modèle de deep learning entraîné sur des centaines de milliards de tokens de texte (livres, articles, code, web) pour prédire le prochain token dans une séquence, une tâche qui force le modèle à développer une compréhension implicite du langage, des faits et du raisonnement. Basés sur l'architecture Transformer, ils sont dit « large » car ils comptent des dizaines ou centaines de milliards de paramètres. Après le pré-entraînement, les LLMs sont alignés sur les instructions humaines via le fine-tuning supervisé et le RLHF, ce qui leur donne leur caractère conversationnel. Leurs capacités émergentes — raisonnement, génération de code, traduction, résumé — apparaissent de façon non linéaire avec la taille.