Bidirectional Encoder Representations from Transformers — modèle de langage pré-entraîné par Google (2018) qui a révolutionné le NLP. Contrairement aux LM unidirectionnels (GPT), BERT est pré-entraîné de façon bidirectionnelle via deux tâches : Masked Language Modeling (prédire des tokens masqués au milieu d'une phrase, forçant la compréhension du contexte gauche ET droit) et Next Sentence Prediction. BERT produit des embeddings contextuels : le même mot a des représentations différentes selon son contexte. Il se fine-tune en ajoutant une simple couche de classification sur le token [CLS] pour des tâches downstream (classification, NER, QA). RoBERTa, CamemBERT (français), DistilBERT (version légère) sont des variantes améliorées. Les modèles de la famille BERT restent le choix par défaut pour les tâches de compréhension textuelle.