Data Universe
Newsletter
Accueil/Encyclopédie/TF-IDF — Pondération de termes textuels
📝Techniques AnalyticsIntermédiaireNLP

TF-IDF — Pondération de termes textuels

Méthode de représentation de texte qui attribue un poids à chaque mot en fonction de sa fréquence dans un document et de sa rareté dans la collection complète.

💡Explication simple

Le mot 'le' apparaît partout et ne dit rien d'utile. Le mot 'machine learning' apparaît souvent dans cet article mais peu dans d'autres — il est donc très important pour caractériser cet article. TF-IDF calcule exactement ça : fréquence du mot dans le document (TF) × rareté dans tous les documents (IDF). Plus un mot est fréquent localement ET rare globalement, plus son poids est élevé.

🏗️Exemple concret

Moteur de recherche d'articles data : si tu cherches 'Delta Lake', TF-IDF identifie les articles où ces mots apparaissent souvent (TF élevé) mais qui sont rares dans la collection générale (IDF élevé). Un article dédié à Delta Lake aura un score TF-IDF bien plus élevé pour ces termes qu'un article qui le mentionne juste une fois.

∑ Concept clé

TF-IDF(t,d,D) = TF(t,d) × IDF(t,D) = (fréquence de t dans d) × log(N / nombre de docs contenant t)

🎯Quand l'utiliser ?

Recherche textuelle (moteurs de recherche)
Extraction de mots-clés
Première représentation de texte avant ML classique (pré-LLM)

✅ Avantages

+Simple et efficace pour les tâches de recherche
+Pas d'entraînement requis
+Très rapide sur de grandes collections

⚠️ Limites

Ignore le contexte et l'ordre des mots
Vocabulaire fixe (ne gère pas les synonymes)
Les embeddings (Word2Vec, BERT) le surpassent largement

🛠️ Outils principaux

Scikit-learn (TfidfVectorizer)
spaCy
Elasticsearch (BM25 est une variante)
NLPTexteRechercheReprésentation

Concepts liés

🧪

A/B Testing

Expérimentation

👥

Analyse de cohortes

Analytics Produit

😊

Analyse de sentiment (NLP)

NLP

🔽

Analyse d'entonnoir (Funnel Analysis)

Analytics Produit

← Retour à l'encyclopédie