Data Universe
Newsletter
Accueil/Encyclopédie/Recherche Sémantique
🔍Techniques AnalyticsIntermédiaireNLP

Recherche Sémantique

Moteur de recherche qui comprend le sens de la requête plutôt que les mots-clés exacts, en comparant les embeddings vectoriels de la requête et des documents.

💡Explication simple

Un moteur de recherche classique cherche les mots exacts. Tu cherches « voiture rapide » et il trouve les documents contenant ces mots. La recherche sémantique comprend que « automobile sportive » est la même chose. Elle encode ta requête en vecteur numérique, cherche les documents dont les vecteurs sont les plus proches géométriquement. « Détection d'anomalies financières » retrouve des articles sur « fraude bancaire » même sans mot en commun.

🏗️Exemple concret

Hub de documentation interne DataSphère : 5 000 articles. Recherche classique de « machine learning non supervisé » ne trouve que les articles avec ces mots exacts. Recherche sémantique trouve aussi « clustering », « détection d'outliers », « Isolation Forest » — les articles sémantiquement proches. Satisfaction utilisateurs : +65% vs recherche par mots-clés.

∑ Concept clé

Pipeline : Requête → Embedding (ex: text-embedding-3-small) → Vecteur 1536D → Similarité cosinus avec index vectoriel (HNSW) → Top-K documents → Reranking (optionnel).

🎯Quand l'utiliser ?

Moteurs de recherche interne documentaire
Composant retrieval d'une architecture RAG
Recommandation de contenu par similarité sémantique

✅ Avantages

+Robuste aux synonymes et formulations différentes
+Gère le multilinguisme (modèles multilingues)
+Aucune indexation manuelle de mots-clés requise

⚠️ Limites

Coût d'encodage de tous les documents (temps et argent API)
Résultats parfois surprenants pour les requêtes très spécifiques
Moins précis que BM25 pour les termes techniques exacts (hybrid search recommandé)

🛠️ Outils principaux

OpenAI Embeddings API
sentence-transformers (open source)
Elasticsearch (vector search + BM25 hybrid)
Pinecone, Qdrant, ChromaDB
NLPVector SearchRAGRechercheEmbeddings

Concepts liés

🧪

A/B Testing

Expérimentation

👥

Analyse de cohortes

Analytics Produit

😊

Analyse de sentiment (NLP)

NLP

🔽

Analyse d'entonnoir (Funnel Analysis)

Analytics Produit

← Retour à l'encyclopédie