XGBoost / Gradient Boosting

L'algorithme qui gagne la majorité des compétitions ML sur données tabulaires. Construit des arbres en séquence, chacun corrigeant les erreurs du précédent.

💡Explication simple

Imagine que tu apprends à jouer aux fléchettes. Au premier lancer tu rates. Au deuxième, tu corriges ton erreur de 5cm vers la gauche. Au troisième tu corriges encore. Progressivement tu converges vers le centre. XGBoost fait pareil : chaque arbre est spécialisé pour corriger les erreurs laissées par tous les arbres précédents. C'est pourquoi il est si puissant.

🏗️Exemple concret

Détection de fraude sur 1 million de transactions : XGBoost obtient un AUC-ROC de 0.97 quand Random Forest plafonne à 0.92. Il capture des interactions complexes entre variables que les autres algorithmes manquent (ex: montant élevé + pays inhabituel + heure tardive = très suspect).

Pythonexemple

import xgboost as xgb
from sklearn.metrics import roc_auc_score

dtrain = xgb.DMatrix(X_train, label=y_train)
dtest  = xgb.DMatrix(X_test,  label=y_test)

params = {
    "objective":       "binary:logistic",
    "eval_metric":     "auc",
    "eta":             0.05,
    "max_depth":       6,
    "subsample":       0.8,
    "colsample_bytree": 0.8,
}

model = xgb.train(
    params, dtrain,
    num_boost_round=400,
    evals=[(dtest, "test")],
    early_stopping_rounds=20,
    verbose_eval=50,
)
print(f"AUC : {roc_auc_score(y_test, model.predict(dtest)):.4f}")

∑ Concept clé

F(x) = Σ f(x), où chaque f est un arbre qui minimise la perte résiduelle des arbres précédents. Objective = L(y, ŷ) + Σ Ω(f) (régularisation)

🎯Quand l'utiliser ?

✓Données tabulaires structurées

✓Quand la performance est prioritaire sur l'interprétabilité

✓Compétitions Kaggle, scoring, détection de fraude

✅ Avantages

+Meilleure performance en général sur données tabulaires

+Gère les données manquantes nativement

+Régularisation intégrée (évite le surapprentissage)

⚠️ Limites

−Hyperparamètres nombreux à tuner

−Peu interprétable (boîte noire)

−Lent à entraîner sur de très grands datasets

🛠️ Outils principaux

XGBoost (Python)

LightGBM (Microsoft, plus rapide)

CatBoost (Yandex, bon sur catégorielles)

Dataiku, SAS Viya

MLSuperviséEnsembleGradient BoostingCompétitions

Concepts liés

🔭

ACP / PCA (Analyse en Composantes Principales)

Apprentissage non supervisé

🤖

Agent IA — Intelligence artificielle autonome

IA Générative

💬

Analyse de sentiment (NLP)

NLP

🤖

Arbre de décision

Apprentissage supervisé

← Retour à l'encyclopédie