Data Universe
Newsletter
Accueil/Encyclopédie/Word2Vec et Embeddings de mots
🔤Techniques AnalyticsIntermédiaireNLP

Word2Vec et Embeddings de mots

Technique qui représente chaque mot par un vecteur numérique dense, capturant les relations sémantiques : des mots similaires ont des vecteurs proches.

💡Explication simple

Avec TF-IDF, 'voiture' et 'automobile' sont totalement différents (deux colonnes distinctes). Avec Word2Vec, ils ont presque le même vecteur car ils apparaissent dans les mêmes contextes dans des milliards de textes. La propriété magique : Roi - Homme + Femme ≈ Reine. Les relations mathématiques entre vecteurs reflètent les relations sémantiques du langage.

🏗️Exemple concret

Système de recommandation d'articles : en vectorisant chaque article avec la moyenne des vecteurs Word2Vec de ses mots, on peut trouver les articles les plus similaires par distance cosinus. « Détection de fraude bancaire » sera proche de « Machine Learning en Finance » et de « XGBoost pour le risque crédit ».

∑ Concept clé

Skip-gram : maximiser P(contexte | mot_cible). CBOW : maximiser P(mot_cible | contexte). Résultat : vecteurs de dimension 100-300.

🎯Quand l'utiliser ?

Représentation sémantique de textes
Similarité de documents
Pré-traitement NLP avant classification

✅ Avantages

+Capture la sémantique (synonymes proches)
+Vecteurs de taille fixe (utile pour ML)
+Pré-entraîné sur des milliards de mots disponibles gratuitement

⚠️ Limites

Un mot = un vecteur (pas de polysémie : 'banque' financière vs rivière)
Supplanté par les embeddings contextuels (BERT, GPT)
Requiert un large corpus pour de bons vecteurs

🛠️ Outils principaux

Gensim (Word2Vec)
FastText (Meta)
HuggingFace (embeddings modernes)
NLPEmbeddingsSémantiqueReprésentation

Concepts liés

🧪

A/B Testing

Expérimentation

👥

Analyse de cohortes

Analytics Produit

😊

Analyse de sentiment (NLP)

NLP

🔽

Analyse d'entonnoir (Funnel Analysis)

Analytics Produit

← Retour à l'encyclopédie