LightGBM — Gradient Boosting rapide

Variante ultra-rapide du gradient boosting (Microsoft) qui construit les arbres par feuilles plutôt que par niveaux, idéale pour les grands datasets.

💡Explication simple

LightGBM est XGBoost en version turbo. Là où XGBoost construit ses arbres niveau par niveau (en largeur d'abord), LightGBM les construit feuille par feuille en suivant les branches qui réduisent le plus l'erreur. Résultat : 10 à 20 fois plus rapide sur les mêmes données, avec des performances identiques ou meilleures. C'est devenu le standard pour les datasets avec des millions de lignes.

🏗️Exemple concret

Sur un dataset de scoring crédit avec 5 millions de clients et 200 variables, XGBoost prend 45 minutes d'entraînement. LightGBM fait le même travail en 3 minutes avec un AUC-ROC légèrement meilleur (0.942 vs 0.938). Sur Kaggle, LightGBM domine les solutions gagnantes depuis 2017.

∑ Concept clé

Croissance par feuilles : score_gain = 0.5 [G_L²/H_L + G_R²/H_R - (G_L+G_R)²/(H_L+H_R)] - γ. Sélectionne la feuille maximisant le gain.

🎯Quand l'utiliser ?

✓Grands datasets (> 100K lignes) où XGBoost est trop lent

✓Features catégorielles nombreuses (LightGBM les gère nativement)

✓Itération rapide en R&D ML

✓Production où la latence d'inférence compte

✅ Avantages

+10-20x plus rapide que XGBoost à performance équivalente

+Faible consommation mémoire (histogram-based splitting)

+Gère les features catégorielles sans encodage

⚠️ Limites

−Peut overfit plus facilement sur les petits datasets

−Paramétrage moins intuitif que XGBoost pour les débutants

−Moins de ressources communautaires qu'XGBoost

🛠️ Outils principaux

LightGBM (Python/R)

Scikit-learn API

Dataiku (intégré)

Optuna pour le tuning

MLGradient BoostingRapideTabulaireKaggle

Concepts liés

🔭

ACP / PCA (Analyse en Composantes Principales)

Apprentissage non supervisé

🤖

Agent IA — Intelligence artificielle autonome

IA Générative

💬

Analyse de sentiment (NLP)

NLP

🤖

Arbre de décision

Apprentissage supervisé

← Retour à l'encyclopédie