Algorithme d'ensemble qui construit un grand nombre d'arbres de décision sur des sous-échantillons aléatoires du dataset (bagging) et des sous-ensembles aléatoires de features, puis agrège leurs prédictions par vote majoritaire (classification) ou moyenne (régression). Cette double randomisation réduit fortement la variance et le surapprentissage par rapport à un seul arbre de décision. Random Forest est robuste aux outliers, gère les valeurs manquantes nativement et fournit des estimations d'importance de features. Moins performant que le Gradient Boosting sur les données tabulaires propres, il reste un excellent choix pour les datasets bruités ou avec des valeurs aberrantes.