Décomposition fondamentale de l'erreur de généralisation d'un modèle de ML en trois composantes : biais (erreur due aux hypothèses simplificatrices du modèle — un modèle trop simple sous-fit les données), variance (sensibilité aux fluctuations de l'ensemble d'entraînement — un modèle trop complexe sur-fit), et bruit irréductible (variabilité inhérente aux données). Un modèle à biais élevé performe mal sur les données d'entraînement et de test (underfitting). Un modèle à variance élevée performe bien sur train mais mal sur test (overfitting). L'objectif est de trouver la complexité optimale qui minimise l'erreur totale. Les solutions au compromis : régularisation (réduit la variance), plus de données (réduit la variance), features supplémentaires (réduit le biais), ensembles de modèles (bagging réduit la variance, boosting réduit le biais).