🏗️Exemple concret
Moteur de recherche d'articles data : l'article 'XGBoost pour la détection de fraude' est encodé en vecteur. La recherche 'algorithme pour détecter les anomalies financières' trouve cet article en top 1 malgré aucun mot en commun — parce que les sens sont proches.
∑ Concept clé
Similarité cosinus : cos(θ) = (A·B) / (||A|| × ||B||). HNSW (Hierarchical Navigable Small World) : algorithme d'indexation permettant la recherche approximative du voisin le plus proche en O(log n).
🎯Quand l'utiliser ?
✓Recherche sémantique (moteur de recherche IA)
✓Composante retrieval d'une architecture RAG
✓Recommandation par similarité de contenu
✅ Avantages
+Recherche par sens, pas par mots-clés exacts
+Haute performance sur des millions de vecteurs (ANN)
+Compatible avec tous les types de données embarquables
⚠️ Limites
−Nécessite de générer les embeddings au préalable (coût API)
−Pas de requêtes relationnelles classiques (pas de JOIN SQL)
−Gestion des mises à jour (reindexation nécessaire)
🛠️ Outils principaux
Pinecone
ChromaDB (open source)
Qdrant
Weaviate
Databricks Vector Search
pgvector (PostgreSQL)
Vector SearchEmbeddingsRAGIA GénérativeSimilarité