🏗️Exemple concret
Pour prédire si un client va churner : 500 arbres sont créés, chacun avec un échantillon aléatoire de clients et de variables. 340 arbres disent « va partir », 160 disent 'reste'. Résultat : « va partir » (68% de probabilité de churn).
∑ Concept clé
Prediction = Majority vote of N trees. Chaque arbre utilise un sous-échantillon bootstrap des données et √p variables aléatoires à chaque split.
🎯Quand l'utiliser ?
✓Classification ou régression avec peu de tuning requis
✓Quand on veut l'importance des variables
✓Bonne baseline robuste pour tout type de problème
✅ Avantages
+Très robuste au surapprentissage
+Gère bien les données manquantes
+Fournit l'importance des variables gratuitement
⚠️ Limites
−Moins interprétable qu'un seul arbre
−Long à prédire avec 500 arbres
−Moins performant que XGBoost sur données tabulaires
🛠️ Outils principaux
Scikit-learn
H2O.ai
Dataiku (intégré)
SAS Viya (Forest)
MLSuperviséEnsembleClassificationRégression