🏗️Exemple concret
Sur un dataset de fraude bancaire : la colonne 'montant' seule n'est pas très utile. Mais 'montant / montant_moyen_client_30j' (ratio par rapport à ses habitudes) est 10x plus prédictif. Cette nouvelle variable créée de zéro peut faire passer l'AUC de 0.82 à 0.91.
∑ Concept clé
Variables courantes : log(x) pour les montants, différences temporelles, ratios, moyennes mobiles, comptages, encodage one-hot, target encoding
🎯Quand l'utiliser ?
✓Avant d'entraîner tout modèle ML
✓Quand les performances stagnent malgré le tuning
✓Quand on a une connaissance métier à encoder
✅ Avantages
+Souvent plus impactant que changer d'algorithme
+Permet d'intégrer la connaissance métier dans le modèle
+Réduit la complexité requise du modèle
⚠️ Limites
−Demande du temps et de la créativité
−Risque de data leakage si on utilise des infos futures
−Les features doivent être recalculables en production
🛠️ Outils principaux
Pandas / NumPy (Python)
Feature Store (Feast, Databricks)
Dataiku (Prepare recipe)
dbt (transformations SQL)
MLData PreparationPreprocessingFeature Store