BERT — Représentations bidirectionnelles

Modèle NLP pré-entraîné de Google qui comprend le contexte bidirectionnel des phrases. La base de la plupart des systèmes de compréhension de texte modernes.

💡Explication simple

Les anciens modèles NLP lisaient de gauche à droite. BERT lit le mot 'banque' en regardant à la fois les mots qui le précèdent ET ceux qui le suivent, en même temps. C'est ce 'bidirectionnel' qui lui permet de comprendre la désambiguïsation contextuelle. BERT est pré-entraîné sur Wikipedia et BooksCorpus : il comprend déjà le langage. On le fine-tune ensuite sur sa tâche spécifique avec peu de données.

🏗️Exemple concret

Extraction d'entités nommées dans des contrats : BERT fine-tuné sur 5 000 contrats annotés identifie les parties, montants, dates et clauses clés avec une précision de 94% F1. CamemBERT (BERT en français) extrait les indicateurs ESG de rapports annuels avec 87% de précision, là où BERT anglais plafonnait à 71% sur les textes français.

∑ Concept clé

Pré-entraînement : MLM (Masked Language Modeling : prédire les mots masqués) + NSP (Next Sentence Prediction). Fine-tuning : ajouter une tête de classification sur le token [CLS].