Data Universe
Newsletter
Accueil/Encyclopédie/Surapprentissage & Sous-apprentissage
⚖️Machine LearningDébutantConcepts ML fondamentaux

Surapprentissage & Sous-apprentissage

Le surapprentissage (overfitting) se produit quand un modèle mémorise les données d'entraînement sans généraliser. Le sous-apprentissage (underfitting) quand il est trop simple pour capturer les patterns.

💡Explication simple

Un élève qui révise uniquement les annales de l'examen et les apprend par cœur va échouer si les questions changent (surapprentissage). Mais s'il n'étudie que 2 heures, il n'en saura pas assez (sous-apprentissage). Un bon modèle ML doit apprendre les règles générales, pas les exceptions spécifiques au dataset d'entraînement.

🏗️Exemple concret

Modèle de prédiction de prix immobilier : un arbre de décision à profondeur 50 mémorise chaque maison du dataset train (erreur 0%) mais prédit n'importe quoi sur les nouvelles maisons (erreur test = 45%). En limitant la profondeur à 8, on obtient erreur train = 12%, erreur test = 14%. Bien équilibré.

∑ Concept clé

Biais-Variance tradeoff : Erreur totale = Biais² + Variance + Bruit irréductible. Surapprentissage = haute variance, faible biais. Sous-apprentissage = haut biais, faible variance.

🎯Quand l'utiliser ?

Diagnostic systématique lors de tout projet ML
Avant de déployer un modèle en production
Quand les performances train/test divergent

✅ Avantages

+Comprendre ce concept est fondamental pour éviter les erreurs classiques
+Permet de choisir la bonne complexité de modèle
+Guide le choix des techniques de régularisation

⚠️ Limites

Pas un algorithme mais un concept — l'équilibre est difficile à trouver
Dépend du volume et de la qualité des données
Le 'bon' équilibre est souvent empirique

🛠️ Outils principaux

Courbes d'apprentissage (sklearn learning_curve)
Régularisation L1/L2
Dropout (deep learning)
Early Stopping
MLConcepts fondamentauxDiagnosticsRégularisation

Concepts liés

🔭

ACP / PCA (Analyse en Composantes Principales)

Apprentissage non supervisé

🤖

Agent IA — Intelligence artificielle autonome

IA Générative

😊

Analyse de sentiment (NLP)

NLP

🌳

Arbre de décision

Apprentissage supervisé

← Retour à l'encyclopédie