TF-IDF — Pondération de termes textuels

Méthode de représentation de texte qui attribue un poids à chaque mot en fonction de sa fréquence dans un document et de sa rareté dans la collection complète.

💡Explication simple

Le mot 'le' apparaît partout et ne dit rien d'utile. Le mot 'machine learning' apparaît souvent dans cet article mais peu dans d'autres — il est donc très important pour caractériser cet article. TF-IDF calcule exactement ça : fréquence du mot dans le document (TF) rareté dans tous les documents (IDF). Plus un mot est fréquent localement ET rare globalement, plus son poids est élevé.

🏗️Exemple concret

Moteur de recherche d'articles data : si tu cherches 'Delta Lake', TF-IDF identifie les articles où ces mots apparaissent souvent (TF élevé) mais qui sont rares dans la collection générale (IDF élevé). Un article dédié à Delta Lake aura un score TF-IDF bien plus élevé pour ces termes qu'un article qui le mentionne juste une fois.

∑ Concept clé

TF-IDF(t,d,D) = TF(t,d) IDF(t,D) = (fréquence de t dans d) log(N / nombre de docs contenant t)