Validation croisée (Cross-validation)

Technique d'évaluation qui divise le dataset en plusieurs sous-ensembles pour entraîner et tester le modèle plusieurs fois, donnant une estimation plus fiable des performances réelles.

💡Explication simple

Au lieu d'une seule division données train/test (qui peut être chanceuse ou malchanceuse), la validation croisée à 5 folds divise les données en 5 groupes égaux. Elle entraîne 5 modèles différents, chacun testé sur un groupe différent. La performance finale est la moyenne des 5 résultats. C'est comme passer 5 examens différents plutôt qu'un seul pour évaluer ton niveau.

🏗️Exemple concret

Entraînement d'un modèle de fraude sur 100 000 transactions : avec un simple train/test split, on obtient AUC = 0.88. Mais avec une validation croisée à 5 folds, on obtient AUC moyen = 0.84 ± 0.03. L'écart type nous dit que le modèle est stable (pas de surapprentissage sur un sous-ensemble particulier).

∑ Concept clé

K-fold CV : Score = (1/K) Σ score(modèle entraîné sur K-1 folds, testé sur le fold k). K=5 ou K=10 sont les valeurs standard.