Word2Vec et Embeddings de mots

Technique qui représente chaque mot par un vecteur numérique dense, capturant les relations sémantiques : des mots similaires ont des vecteurs proches.

💡Explication simple

Avec TF-IDF, 'voiture' et 'automobile' sont totalement différents (deux colonnes distinctes). Avec Word2Vec, ils ont presque le même vecteur car ils apparaissent dans les mêmes contextes dans des milliards de textes. La propriété magique : Roi - Homme + Femme ≥ Reine. Les relations mathématiques entre vecteurs reflètent les relations sémantiques du langage.

🏗️Exemple concret

Système de recommandation d'articles : en vectorisant chaque article avec la moyenne des vecteurs Word2Vec de ses mots, on peut trouver les articles les plus similaires par distance cosinus. « Détection de fraude bancaire » sera proche de « Machine Learning en Finance » et de « XGBoost pour le risque crédit ».

∑ Concept clé

Skip-gram : maximiser P(contexte | mot_cible). CBOW : maximiser P(mot_cible | contexte). Résultat : vecteurs de dimension 100-300.