ACP / PCA (Analyse en Composantes Principales)

Technique de réduction de dimension qui compresse des centaines de variables en quelques composantes, en gardant le maximum d'information.

💡Explication simple

Imagine une ombre d'un cube projetée sur un mur. L'ombre en 2D capture l'essentiel de la forme 3D. PCA fait pareil : si tu as 200 variables très corrélées entre elles, PCA trouve les 5 « directions principales » qui résument le mieux toute l'information. Tu passes de 200 à 5 variables sans trop perdre.

🏗️Exemple concret

En analyse génomique, on peut avoir 100 000 gènes par patient. PCA réduit ça à 20 composantes qui expliquent 95% de la variance, permettant de tracer les patients sur un graphique 2D et de voir des groupes naturels (populations, maladies similaires).

∑ Concept clé

PCA calcule les vecteurs propres (eigenvectors) de la matrice de covariance. Les composantes principales sont les directions de variance maximale.

🎯Quand l'utiliser ?

✓Trop de variables corrélées entre elles (multicolinéarité)

✓Visualisation de données haute dimension

✓Compression avant d'appliquer un algorithme ML

✅ Avantages

+Réduit le temps d'entraînement

+Supprime la multicolinéarité

+Permet la visualisation en 2D/3D

⚠️ Limites

−Les composantes ne sont pas interprétables (combinaison de toutes les variables)

−La réduction d'information est irréversible

−Suppose des relations linéaires

🛠️ Outils principaux

Scikit-learn (PCA)

R (prcomp)

SAS (PROC PRINCOMP)

Dataiku (PCA recipe)

MLNon superviséRéduction de dimensionVisualisation

Concepts liés

🤖

Agent IA — Intelligence artificielle autonome

IA Générative

💬

Analyse de sentiment (NLP)

NLP

🤖

Arbre de décision

Apprentissage supervisé

🤖

AutoML (Machine Learning Automatisé)

Automatisation ML

← Retour à l'encyclopédie