K-Means (Clustering)

Algorithme qui groupe automatiquement des données similaires en K groupes (clusters), sans labels préalables. La base de la segmentation client.

💡Explication simple

Imagine que tu dois organiser une fête et placer 100 invités à table en 5 tables (K=5) de façon que les gens qui se ressemblent soient ensemble. K-Means fait exactement ça : il place d'abord 5 centres aléatoires, puis assigne chaque invité à son centre le plus proche, puis bouge les centres vers le milieu de leur groupe, et répète. Au final, les groupes sont cohérents.

🏗️Exemple concret

Segmentation des 50 000 clients d'une banque en 5 profils : 1) Jeunes emprunteurs (K1), 2) Familles établies (K2), 3) Seniors épargne (K3), 4) Entrepreneurs actifs (K4), 5) Premium (K5). Chaque profil reçoit des offres différentes.

Pythonexemple

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Methode du coude pour choisir k
inertias = [
    KMeans(n_clusters=k, random_state=42, n_init=10).fit(X_scaled).inertia_
    for k in range(2, 11)
]

model = KMeans(n_clusters=4, random_state=42, n_init=10)
df["cluster"] = model.fit_predict(X_scaled)
print(df.groupby("cluster").mean().round(2))

∑ Concept clé

Minimise : Σ Σ ||xᵢ - μ||² — la distance totale entre chaque point et son centroïde

🎯Quand l'utiliser ?

✓Segmentation client

✓Compression d'image (réduire le nombre de couleurs)

✓Première exploration de données sans labels

✅ Avantages

+Simple et rapide

+Fonctionne bien quand les clusters sont sphériques

+Facile à interpréter : on regarde les centres pour comprendre chaque groupe

⚠️ Limites

−Faut choisir K à l'avance (méthode du coude pour aider)

−Sensible aux outliers et à l'initialisation

−Suppose des clusters de taille similaire et forme sphérique

🛠️ Outils principaux

Scikit-learn

R (kmeans)

SAS (PROC FASTCLUS)

Dataiku (Clustering recipe)

MLNon superviséClusteringSegmentation

Concepts liés

🔭

ACP / PCA (Analyse en Composantes Principales)

Apprentissage non supervisé

🤖

Agent IA — Intelligence artificielle autonome

IA Générative

💬

Analyse de sentiment (NLP)

NLP

🤖

Arbre de décision

Apprentissage supervisé

← Retour à l'encyclopédie