Data Universe
Newsletter
Accueil/Encyclopédie/K-Means (Clustering)
🎯Machine LearningDébutantApprentissage non supervisé

K-Means (Clustering)

Algorithme qui groupe automatiquement des données similaires en K groupes (clusters), sans labels préalables. La base de la segmentation client.

💡Explication simple

Imagine que tu dois organiser une fête et placer 100 invités à table en 5 tables (K=5) de façon que les gens qui se ressemblent soient ensemble. K-Means fait exactement ça : il place d'abord 5 centres aléatoires, puis assigne chaque invité à son centre le plus proche, puis bouge les centres vers le milieu de leur groupe, et répète. Au final, les groupes sont cohérents.

🏗️Exemple concret

Segmentation des 50 000 clients d'une banque en 5 profils : 1) Jeunes emprunteurs (K1), 2) Familles établies (K2), 3) Seniors épargne (K3), 4) Entrepreneurs actifs (K4), 5) Premium (K5). Chaque profil reçoit des offres différentes.

∑ Concept clé

Minimise : Σ Σ ||xᵢ - μₖ||² — la distance totale entre chaque point et son centroïde

🎯Quand l'utiliser ?

Segmentation client
Compression d'image (réduire le nombre de couleurs)
Première exploration de données sans labels

✅ Avantages

+Simple et rapide
+Fonctionne bien quand les clusters sont sphériques
+Facile à interpréter : on regarde les centres pour comprendre chaque groupe

⚠️ Limites

Faut choisir K à l'avance (méthode du coude pour aider)
Sensible aux outliers et à l'initialisation
Suppose des clusters de taille similaire et forme sphérique

🛠️ Outils principaux

Scikit-learn
R (kmeans)
SAS (PROC FASTCLUS)
Dataiku (Clustering recipe)
MLNon superviséClusteringSegmentation

Concepts liés

🔭

ACP / PCA (Analyse en Composantes Principales)

Apprentissage non supervisé

🤖

Agent IA — Intelligence artificielle autonome

IA Générative

😊

Analyse de sentiment (NLP)

NLP

🌳

Arbre de décision

Apprentissage supervisé

← Retour à l'encyclopédie