🏗️Exemple concret
Extraction d'entités nommées dans des contrats : BERT fine-tuné sur 5 000 contrats annotés identifie les parties, montants, dates et clauses clés avec une précision de 94% F1. CamemBERT (BERT en français) extrait les indicateurs ESG de rapports annuels avec 87% de précision, là où BERT anglais plafonnait à 71% sur les textes français.
∑ Concept clé
Pré-entraînement : MLM (Masked Language Modeling : prédire les mots masqués) + NSP (Next Sentence Prediction). Fine-tuning : ajouter une tête de classification sur le token [CLS].
🎯Quand l'utiliser ?
✓Classification de texte (sentiment, intention)
✓Extraction d'entités nommées (NER)
✓Question-réponse sur documents
✅ Avantages
+Excellent en few-shot : fine-tuning avec 1 000 exemples donne de bons résultats
+Modèles multilingues (mBERT, XLM-R)
+Encodeur idéal pour les embeddings sémantiques
⚠️ Limites
−Encodeur seulement (pas de génération de texte — utiliser GPT pour ça)
−Fenêtre de contexte limitée à 512 tokens (vs 128K pour GPT-4)
−Supplanté par des modèles plus récents (DeBERTa, RoBERTa) pour la performance
🛠️ Outils principaux
HuggingFace Transformers (bert-base-french-cased, CamemBERT)
sentence-transformers (embeddings BERT)
LangChain (intégration BERT embeddings)
NLPDeep LearningEmbeddingsTransfer LearningTexte