Data Universe
Newsletter
Accueil/Encyclopédie/ACP / PCA (Analyse en Composantes Principales)
🔭Machine LearningIntermédiaireApprentissage non supervisé

ACP / PCA (Analyse en Composantes Principales)

Technique de réduction de dimension qui compresse des centaines de variables en quelques composantes, en gardant le maximum d'information.

💡Explication simple

Imagine une ombre d'un cube projetée sur un mur. L'ombre en 2D capture l'essentiel de la forme 3D. PCA fait pareil : si tu as 200 variables très corrélées entre elles, PCA trouve les 5 « directions principales » qui résument le mieux toute l'information. Tu passes de 200 à 5 variables sans trop perdre.

🏗️Exemple concret

En analyse génomique, on peut avoir 100 000 gènes par patient. PCA réduit ça à 20 composantes qui expliquent 95% de la variance, permettant de tracer les patients sur un graphique 2D et de voir des groupes naturels (populations, maladies similaires).

∑ Concept clé

PCA calcule les vecteurs propres (eigenvectors) de la matrice de covariance. Les composantes principales sont les directions de variance maximale.

🎯Quand l'utiliser ?

Trop de variables corrélées entre elles (multicolinéarité)
Visualisation de données haute dimension
Compression avant d'appliquer un algorithme ML

✅ Avantages

+Réduit le temps d'entraînement
+Supprime la multicolinéarité
+Permet la visualisation en 2D/3D

⚠️ Limites

Les composantes ne sont pas interprétables (combinaison de toutes les variables)
La réduction d'information est irréversible
Suppose des relations linéaires

🛠️ Outils principaux

Scikit-learn (PCA)
R (prcomp)
SAS (PROC PRINCOMP)
Dataiku (PCA recipe)
MLNon superviséRéduction de dimensionVisualisation

Concepts liés

🤖

Agent IA — Intelligence artificielle autonome

IA Générative

😊

Analyse de sentiment (NLP)

NLP

🌳

Arbre de décision

Apprentissage supervisé

🤖

AutoML (Machine Learning Automatisé)

Automatisation ML

← Retour à l'encyclopédie