🏗️Exemple concret
Système de recommandation d'articles : en vectorisant chaque article avec la moyenne des vecteurs Word2Vec de ses mots, on peut trouver les articles les plus similaires par distance cosinus. « Détection de fraude bancaire » sera proche de « Machine Learning en Finance » et de « XGBoost pour le risque crédit ».
∑ Concept clé
Skip-gram : maximiser P(contexte | mot_cible). CBOW : maximiser P(mot_cible | contexte). Résultat : vecteurs de dimension 100-300.
🎯Quand l'utiliser ?
✓Représentation sémantique de textes
✓Similarité de documents
✓Pré-traitement NLP avant classification
✅ Avantages
+Capture la sémantique (synonymes proches)
+Vecteurs de taille fixe (utile pour ML)
+Pré-entraîné sur des milliards de mots disponibles gratuitement
⚠️ Limites
−Un mot = un vecteur (pas de polysémie : 'banque' financière vs rivière)
−Supplanté par les embeddings contextuels (BERT, GPT)
−Requiert un large corpus pour de bons vecteurs
🛠️ Outils principaux
Gensim (Word2Vec)
FastText (Meta)
HuggingFace (embeddings modernes)
NLPEmbeddingsSémantiqueReprésentation