🏗️Exemple concret
Entraînement d'un modèle de fraude sur 100 000 transactions : avec un simple train/test split, on obtient AUC = 0.88. Mais avec une validation croisée à 5 folds, on obtient AUC moyen = 0.84 ± 0.03. L'écart type nous dit que le modèle est stable (pas de surapprentissage sur un sous-ensemble particulier).
∑ Concept clé
K-fold CV : Score = (1/K) Σ score(modèle entraîné sur K-1 folds, testé sur le fold k). K=5 ou K=10 sont les valeurs standard.
🎯Quand l'utiliser ?
✓Sélection de modèle et tuning d'hyperparamètres
✓Quand le dataset est petit (< 10 000 exemples)
✓Validation rigoureuse avant mise en production
✅ Avantages
+Estimation plus fiable (moins de variance)
+Utilise toutes les données pour l'entraînement ET le test
+Détecte le surapprentissage
⚠️ Limites
−K fois plus lent à entraîner
−Risque de data leakage si mal implémenté (features temporelles)
−Pas adapté aux séries temporelles (utiliser TimeSeriesSplit)
🛠️ Outils principaux
Scikit-learn (cross_val_score, KFold)
MLflow
Optuna
MLÉvaluationValidationBonnes pratiques