🏗️Exemple concret
Hub de documentation interne DataSphère : 5 000 articles. Recherche classique de « machine learning non supervisé » ne trouve que les articles avec ces mots exacts. Recherche sémantique trouve aussi « clustering », « détection d'outliers », « Isolation Forest » — les articles sémantiquement proches. Satisfaction utilisateurs : +65% vs recherche par mots-clés.
∑ Concept clé
Pipeline : Requête → Embedding (ex: text-embedding-3-small) → Vecteur 1536D → Similarité cosinus avec index vectoriel (HNSW) → Top-K documents → Reranking (optionnel).
🎯Quand l'utiliser ?
✓Moteurs de recherche interne documentaire
✓Composant retrieval d'une architecture RAG
✓Recommandation de contenu par similarité sémantique
✅ Avantages
+Robuste aux synonymes et formulations différentes
+Gère le multilinguisme (modèles multilingues)
+Aucune indexation manuelle de mots-clés requise
⚠️ Limites
−Coût d'encodage de tous les documents (temps et argent API)
−Résultats parfois surprenants pour les requêtes très spécifiques
−Moins précis que BM25 pour les termes techniques exacts (hybrid search recommandé)
🛠️ Outils principaux
OpenAI Embeddings API
sentence-transformers (open source)
Elasticsearch (vector search + BM25 hybrid)
Pinecone, Qdrant, ChromaDB
NLPVector SearchRAGRechercheEmbeddings