🏗️Exemple concret
Sur un dataset de scoring crédit avec 5 millions de clients et 200 variables, XGBoost prend 45 minutes d'entraînement. LightGBM fait le même travail en 3 minutes avec un AUC-ROC légèrement meilleur (0.942 vs 0.938). Sur Kaggle, LightGBM domine les solutions gagnantes depuis 2017.
∑ Concept clé
Croissance par feuilles : score_gain = 0.5 × [G_L²/H_L + G_R²/H_R - (G_L+G_R)²/(H_L+H_R)] - γ. Sélectionne la feuille maximisant le gain.
🎯Quand l'utiliser ?
✓Grands datasets (> 100K lignes) où XGBoost est trop lent
✓Features catégorielles nombreuses (LightGBM les gère nativement)
✓Itération rapide en R&D ML
✓Production où la latence d'inférence compte
✅ Avantages
+10-20x plus rapide que XGBoost à performance équivalente
+Faible consommation mémoire (histogram-based splitting)
+Gère les features catégorielles sans encodage
⚠️ Limites
−Peut overfit plus facilement sur les petits datasets
−Paramétrage moins intuitif que XGBoost pour les débutants
−Moins de ressources communautaires qu'XGBoost
🛠️ Outils principaux
LightGBM (Python/R)
Scikit-learn API
Dataiku (intégré)
Optuna pour le tuning
MLGradient BoostingRapideTabulaireKaggle