Model Drift et Data Drift

Phénomène par lequel la performance d'un modèle ML se dégrade en production parce que les données réelles ont changé par rapport aux données d'entraînement.

💡Explication simple

Un modèle de scoring crédit entraîné en 2019 commence à se tromper en 2022. Pourquoi ? Le monde a changé : COVID, inflation, nouveaux comportements de consommation. Les données d'entrée ont dérivé (data drift) et la relation entre les features et le résultat n'est plus la même (concept drift). Un modèle ML n'est jamais 'fini' : sans monitoring, il se dégrade silencieusement.

🏗️Exemple concret

Modèle de prédiction de churn télécom entraîné avant le lancement de la 5G. Après le lancement : les clients qui consomment peu de données (feature importante = « churner probable ») ne le sont plus — ils ont upgradé. L'AUC passe de 0.85 à 0.71 en 6 mois. Seul un monitoring des distributions de features et de la performance détecte cette dégradation.

∑ Concept clé

Data drift : mesure PSI (Population Stability Index) ou KS test entre distribution actuelle et distribution de référence. PSI < 0.1 : stable. 0.1-0.25 : alerte. > 0.25 : retraining requis. Concept drift : suivi de la métrique métier (AUC, F1) sur les données récentes labellisées.