🏗️Exemple concret
Moteur de recherche d'articles data : si tu cherches 'Delta Lake', TF-IDF identifie les articles où ces mots apparaissent souvent (TF élevé) mais qui sont rares dans la collection générale (IDF élevé). Un article dédié à Delta Lake aura un score TF-IDF bien plus élevé pour ces termes qu'un article qui le mentionne juste une fois.
∑ Concept clé
TF-IDF(t,d,D) = TF(t,d) × IDF(t,D) = (fréquence de t dans d) × log(N / nombre de docs contenant t)
🎯Quand l'utiliser ?
✓Recherche textuelle (moteurs de recherche)
✓Extraction de mots-clés
✓Première représentation de texte avant ML classique (pré-LLM)
✅ Avantages
+Simple et efficace pour les tâches de recherche
+Pas d'entraînement requis
+Très rapide sur de grandes collections
⚠️ Limites
−Ignore le contexte et l'ordre des mots
−Vocabulaire fixe (ne gère pas les synonymes)
−Les embeddings (Word2Vec, BERT) le surpassent largement
🛠️ Outils principaux
Scikit-learn (TfidfVectorizer)
spaCy
Elasticsearch (BM25 est une variante)
NLPTexteRechercheReprésentation