Data Universe
Newsletter
Accueil/Encyclopédie/Random Forest (Forêt aléatoire)
🌲Machine LearningIntermédiaireApprentissage supervisé

Random Forest (Forêt aléatoire)

Ensemble de centaines d'arbres de décision, chacun entraîné sur des données légèrement différentes. La décision finale est un vote majoritaire. Robuste et difficile à battre.

💡Explication simple

Si un seul expert peut se tromper, 500 experts qui votent ensemble font moins d'erreurs. C'est exactement l'idée : Random Forest crée 500 arbres différents (chacun voit des données légèrement différentes, avec des variables différentes) puis fait voter tout ce monde. La classe qui remporte le plus de votes gagne. L'intelligence collective est plus fiable que l'individuel.

🏗️Exemple concret

Pour prédire si un client va churner : 500 arbres sont créés, chacun avec un échantillon aléatoire de clients et de variables. 340 arbres disent « va partir », 160 disent 'reste'. Résultat : « va partir » (68% de probabilité de churn).

∑ Concept clé

Prediction = Majority vote of N trees. Chaque arbre utilise un sous-échantillon bootstrap des données et √p variables aléatoires à chaque split.

🎯Quand l'utiliser ?

Classification ou régression avec peu de tuning requis
Quand on veut l'importance des variables
Bonne baseline robuste pour tout type de problème

✅ Avantages

+Très robuste au surapprentissage
+Gère bien les données manquantes
+Fournit l'importance des variables gratuitement

⚠️ Limites

Moins interprétable qu'un seul arbre
Long à prédire avec 500 arbres
Moins performant que XGBoost sur données tabulaires

🛠️ Outils principaux

Scikit-learn
H2O.ai
Dataiku (intégré)
SAS Viya (Forest)
MLSuperviséEnsembleClassificationRégression

Concepts liés

🔭

ACP / PCA (Analyse en Composantes Principales)

Apprentissage non supervisé

🤖

Agent IA — Intelligence artificielle autonome

IA Générative

😊

Analyse de sentiment (NLP)

NLP

🌳

Arbre de décision

Apprentissage supervisé

← Retour à l'encyclopédie