Phénomène où un modèle apprend trop précisément les données d'entraînement — y compris leur bruit et leurs artefacts spécifiques — au détriment de sa capacité à généraliser sur de nouvelles données. Un modèle en surapprentissage a une excellente performance sur les données d'entraînement mais une performance dégradée sur les données de test. Il se produit quand le modèle est trop complexe par rapport à la quantité de données disponibles (trop de paramètres, trop d'arbres trop profonds). Les remèdes classiques sont la régularisation (L1/L2), le dropout pour les réseaux de neurones, l'early stopping et l'augmentation du dataset d'entraînement.