Data Universe
Newsletter
Accueil/Encyclopédie/Feature Engineering
⚙️Techniques AnalyticsIntermédiairePréparation des données

Feature Engineering

L'art de créer de nouvelles variables à partir des données brutes pour améliorer les performances des modèles ML. Souvent plus impactant que le choix de l'algorithme.

💡Explication simple

Si tu veux prédire les ventes d'une boulangerie, tu as la date. Mais 'date' brute ne dit rien à un modèle. Si tu crées 'est_samedi' (oui/non), 'mois_été' (oui/non), 'veille_ferie' (oui/non), là le modèle comprend tout. Feature Engineering, c'est transformer la matière première (données brutes) en ingrédients que le modèle peut vraiment utiliser.

🏗️Exemple concret

Sur un dataset de fraude bancaire : la colonne 'montant' seule n'est pas très utile. Mais 'montant / montant_moyen_client_30j' (ratio par rapport à ses habitudes) est 10x plus prédictif. Cette nouvelle variable créée de zéro peut faire passer l'AUC de 0.82 à 0.91.

∑ Concept clé

Variables courantes : log(x) pour les montants, différences temporelles, ratios, moyennes mobiles, comptages, encodage one-hot, target encoding

🎯Quand l'utiliser ?

Avant d'entraîner tout modèle ML
Quand les performances stagnent malgré le tuning
Quand on a une connaissance métier à encoder

✅ Avantages

+Souvent plus impactant que changer d'algorithme
+Permet d'intégrer la connaissance métier dans le modèle
+Réduit la complexité requise du modèle

⚠️ Limites

Demande du temps et de la créativité
Risque de data leakage si on utilise des infos futures
Les features doivent être recalculables en production

🛠️ Outils principaux

Pandas / NumPy (Python)
Feature Store (Feast, Databricks)
Dataiku (Prepare recipe)
dbt (transformations SQL)
MLData PreparationPreprocessingFeature Store

Concepts liés

🧪

A/B Testing

Expérimentation

👥

Analyse de cohortes

Analytics Produit

🔽

Analyse d'entonnoir (Funnel Analysis)

Analytics Produit

🛒

Analyse du panier — Market Basket Analysis

Analytics Retail

← Retour à l'encyclopédie