Recherche Sémantique

Moteur de recherche qui comprend le sens de la requête plutôt que les mots-clés exacts, en comparant les embeddings vectoriels de la requête et des documents.

💡Explication simple

Un moteur de recherche classique cherche les mots exacts. Tu cherches « voiture rapide » et il trouve les documents contenant ces mots. La recherche sémantique comprend que « automobile sportive » est la même chose. Elle encode ta requête en vecteur numérique, cherche les documents dont les vecteurs sont les plus proches géométriquement. « Détection d'anomalies financières » retrouve des articles sur « fraude bancaire » même sans mot en commun.

🏗️Exemple concret

Hub de documentation interne DataSphère : 5 000 articles. Recherche classique de « machine learning non supervisé » ne trouve que les articles avec ces mots exacts. Recherche sémantique trouve aussi « clustering », « détection d'outliers », « Isolation Forest » — les articles sémantiquement proches. Satisfaction utilisateurs : +65% vs recherche par mots-clés.

∑ Concept clé

Pipeline : Requête Embedding (ex: text-embedding-3-small) Vecteur 1536D Similarité cosinus avec index vectoriel (HNSW) Top-K documents Reranking (optionnel).