🏗️Exemple concret
Détection de fraude sur 1 million de transactions : XGBoost obtient un AUC-ROC de 0.97 quand Random Forest plafonne à 0.92. Il capture des interactions complexes entre variables que les autres algorithmes manquent (ex: montant élevé + pays inhabituel + heure tardive = très suspect).
∑ Concept clé
F(x) = Σ fₖ(x), où chaque fₖ est un arbre qui minimise la perte résiduelle des arbres précédents. Objective = L(y, ŷ) + Σ Ω(fₖ) (régularisation)
🎯Quand l'utiliser ?
✓Données tabulaires structurées
✓Quand la performance est prioritaire sur l'interprétabilité
✓Compétitions Kaggle, scoring, détection de fraude
✅ Avantages
+Meilleure performance en général sur données tabulaires
+Gère les données manquantes nativement
+Régularisation intégrée (évite le surapprentissage)
⚠️ Limites
−Hyperparamètres nombreux à tuner
−Peu interprétable (boîte noire)
−Lent à entraîner sur de très grands datasets
🛠️ Outils principaux
XGBoost (Python)
LightGBM (Microsoft, plus rapide)
CatBoost (Yandex, bon sur catégorielles)
Dataiku, SAS Viya
MLSuperviséEnsembleGradient BoostingCompétitions