🏗️Exemple concret
En analyse génomique, on peut avoir 100 000 gènes par patient. PCA réduit ça à 20 composantes qui expliquent 95% de la variance, permettant de tracer les patients sur un graphique 2D et de voir des groupes naturels (populations, maladies similaires).
∑ Concept clé
PCA calcule les vecteurs propres (eigenvectors) de la matrice de covariance. Les composantes principales sont les directions de variance maximale.
🎯Quand l'utiliser ?
✓Trop de variables corrélées entre elles (multicolinéarité)
✓Visualisation de données haute dimension
✓Compression avant d'appliquer un algorithme ML
✅ Avantages
+Réduit le temps d'entraînement
+Supprime la multicolinéarité
+Permet la visualisation en 2D/3D
⚠️ Limites
−Les composantes ne sont pas interprétables (combinaison de toutes les variables)
−La réduction d'information est irréversible
−Suppose des relations linéaires
🛠️ Outils principaux
Scikit-learn (PCA)
R (prcomp)
SAS (PROC PRINCOMP)
Dataiku (PCA recipe)
MLNon superviséRéduction de dimensionVisualisation