Surapprentissage & Sous-apprentissage

Le surapprentissage (overfitting) se produit quand un modèle mémorise les données d'entraînement sans généraliser. Le sous-apprentissage (underfitting) quand il est trop simple pour capturer les patterns.

💡Explication simple

Un élève qui révise uniquement les annales de l'examen et les apprend par cur va échouer si les questions changent (surapprentissage). Mais s'il n'étudie que 2 heures, il n'en saura pas assez (sous-apprentissage). Un bon modèle ML doit apprendre les règles générales, pas les exceptions spécifiques au dataset d'entraînement.

🏗️Exemple concret

Modèle de prédiction de prix immobilier : un arbre de décision à profondeur 50 mémorise chaque maison du dataset train (erreur 0%) mais prédit n'importe quoi sur les nouvelles maisons (erreur test = 45%). En limitant la profondeur à 8, on obtient erreur train = 12%, erreur test = 14%. Bien équilibré.

∑ Concept clé

Biais-Variance tradeoff : Erreur totale = Biais² + Variance + Bruit irréductible. Surapprentissage = haute variance, faible biais. Sous-apprentissage = haut biais, faible variance.