🏗️Exemple concret
Détection de transactions frauduleuses : 99.9% des transactions sont normales, 0.1% sont des fraudes. Isolation Forest construit 100 arbres aléatoires. Une fraude typique (montant inhabituellement élevé à 3h du matin dans un pays étranger) s'isole en 3-4 coupes en moyenne vs 15-20 coupes pour une transaction normale.
∑ Concept clé
Score d'anomalie = 2^(-E(h(x))/c(n)), où h(x) est le nombre moyen de coupes pour isoler x, et c(n) est la longueur de chemin moyenne pour un dataset de taille n.
🎯Quand l'utiliser ?
✓Détection d'anomalies sans labels (non supervisé)
✓Données haute dimension
✓Quand les anomalies sont rares et non définies a priori
✅ Avantages
+Ne nécessite pas de labels (non supervisé)
+Efficace sur des données haute dimension
+Rapide à entraîner même sur de grands datasets
⚠️ Limites
−Sensible aux données avec beaucoup de variables corrélées
−Le score d'anomalie est relatif, pas absolu (calibrage difficile)
−Peut rater des anomalies « masquées » par d'autres
🛠️ Outils principaux
Scikit-learn (IsolationForest)
PyOD (bibliothèque spécialisée)
H2O.ai
MLNon superviséAnomaliesFraude