Random Forest (Forêt aléatoire)

Ensemble de centaines d'arbres de décision, chacun entraîné sur des données légèrement différentes. La décision finale est un vote majoritaire. Robuste et difficile à battre.

💡Explication simple

Si un seul expert peut se tromper, 500 experts qui votent ensemble font moins d'erreurs. C'est exactement l'idée : Random Forest crée 500 arbres différents (chacun voit des données légèrement différentes, avec des variables différentes) puis fait voter tout ce monde. La classe qui remporte le plus de votes gagne. L'intelligence collective est plus fiable que l'individuel.

🏗️Exemple concret

Pour prédire si un client va churner : 500 arbres sont créés, chacun avec un échantillon aléatoire de clients et de variables. 340 arbres disent « va partir », 160 disent 'reste'. Résultat : « va partir » (68% de probabilité de churn).

Pythonexemple

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

model = RandomForestClassifier(
    n_estimators=200,
    max_depth=10,
    min_samples_leaf=5,
    random_state=42,
    n_jobs=-1,
)

scores = cross_val_score(model, X, y, cv=5, scoring="roc_auc")
print(f"AUC moyen : {scores.mean():.3f} (+/- {scores.std():.3f})")

model.fit(X_train, y_train)
importances = sorted(
    zip(feature_names, model.feature_importances_),
    key=lambda x: -x[1]
)
for feat, imp in importances[:10]:
    print(f"  {feat:<30} {imp:.4f}")

∑ Concept clé

Prediction = Majority vote of N trees. Chaque arbre utilise un sous-échantillon bootstrap des données et p variables aléatoires à chaque split.

🎯Quand l'utiliser ?

✓Classification ou régression avec peu de tuning requis

✓Quand on veut l'importance des variables

✓Bonne baseline robuste pour tout type de problème

✅ Avantages

+Très robuste au surapprentissage

+Gère bien les données manquantes

+Fournit l'importance des variables gratuitement

⚠️ Limites

−Moins interprétable qu'un seul arbre

−Long à prédire avec 500 arbres

−Moins performant que XGBoost sur données tabulaires

🛠️ Outils principaux

Scikit-learn

H2O.ai

Dataiku (intégré)

SAS Viya (Forest)

MLSuperviséEnsembleClassificationRégression

Concepts liés

🔭

ACP / PCA (Analyse en Composantes Principales)

Apprentissage non supervisé

🤖

Agent IA — Intelligence artificielle autonome

IA Générative

💬

Analyse de sentiment (NLP)

NLP

🤖

Arbre de décision

Apprentissage supervisé

← Retour à l'encyclopédie