Data Universe
Newsletter
GlossaireCClass Imbalance
Machine Learning

Class Imbalance

Définition

Situation dans un problème de classification où une classe est significativement plus représentée que l'autre dans les données d'entraînement. Exemple typique : 99% de transactions légitimes, 1% de fraudes. Un modèle naïf qui prédit toujours 'légitime' atteindrait 99% d'accuracy tout en étant inutile. Stratégies de traitement : rééchantillonnage côté données (undersampling de la classe majoritaire, oversampling de la minoritaire via duplication ou SMOTE qui génère des exemples synthétiques par interpolation), ajustement des poids de classe dans la fonction de perte (class_weight='balanced' dans scikit-learn), choix de métriques adaptées (F1, AUC-ROC plutôt qu'accuracy), et seuil de décision ajusté. Dans les arbres de décision et forêts aléatoires, le paramètre class_weight est particulièrement efficace.

Exemples concrets

SMOTE (imbalanced-learn)class_weight='balanced'Fraud detection datasetUndersampling RandomUnderSampler
← Retour au glossaireTermes en “C

Fiche rapide

CatégorieMachine Learning
Exemples4 outils / technologies