Processus de sélection d'un sous-ensemble des features les plus informatives pour réduire la dimensionnalité, améliorer la performance du modèle, réduire le temps d'entraînement et améliorer l'interprétabilité. Trois approches : Filter methods (évaluation statistique indépendante du modèle — corrélation, chi-2, information mutuelle, variance), Wrapper methods (entraînement répété avec différents sous-ensembles de features — RFE recursive feature elimination, forward/backward selection — coûteux mais efficace), Embedded methods (la sélection est intégrée dans l'entraînement — LASSO L1 qui annule les coefficients non pertinents, feature importance des forêts aléatoires). SHAP values permettent une sélection post-hoc basée sur la contribution réelle de chaque feature. La sélection de features doit toujours se faire sur le training set uniquement pour éviter le data leakage.