Techniques Analytics
25 concepts
A/B Testing
Méthode d'expérimentation scientifique qui compare deux versions (A et B) d'une page, d'une fonctionnalité ou d'un message pour déterminer laquelle performe le mieux.
Analyse de cohortes
Méthode qui suit l'évolution de groupes d'utilisateurs partageant une caractéristique commune (date d'inscription, premier achat) dans le temps pour mesurer la rétention et le comportement.
Analyse d'entonnoir (Funnel Analysis)
Visualisation du parcours utilisateur à travers des étapes séquentielles (visite → inscription → achat) pour identifier les points de friction et d'abandon.
Analyse du panier — Market Basket Analysis
Technique qui identifie les associations entre produits achetés ensemble pour optimiser le merchandising, le cross-selling et les recommandations.
Analytique géospatiale
Analyse de données enrichies de coordonnées géographiques pour identifier des patterns spatiaux, optimiser la logistique et personnaliser les services par zone.
Analytique temps réel
Architecture et techniques pour analyser et visualiser des données avec une latence de quelques secondes, permettant des décisions opérationnelles immédiates.
Apache Airflow — Orchestration de pipelines
Plateforme d'orchestration qui permet de définir, planifier et monitorer des pipelines de données sous forme de graphes acycliques dirigés (DAGs) en Python.
Apache Kafka
Plateforme de streaming distribué qui permet de publier, stocker et consommer des flux de données en temps réel à très haute échelle.
Apache Spark
Moteur de calcul distribué qui traite des données à grande échelle (téraoctets) en parallèle sur un cluster, 100x plus vite que Hadoop MapReduce.
Customer Lifetime Value (CLV / LTV)
Valeur économique totale qu'un client va générer tout au long de sa relation avec l'entreprise. Métrique fondamentale pour arbitrer les investissements marketing et CRM.
Delta Lake
Couche de stockage open-source qui apporte les transactions ACID (fiabilité des bases relationnelles) aux fichiers Parquet du Data Lake.
ETL vs ELT — Architecture data
ETL (Extract-Transform-Load) transforme les données avant chargement. ELT (Extract-Load-Transform) les charge d'abord, puis transforme directement dans l'entrepôt de données.
Feature Engineering
L'art de créer de nouvelles variables à partir des données brutes pour améliorer les performances des modèles ML. Souvent plus impactant que le choix de l'algorithme.
Maintenance prédictive
Utilisation du ML sur les données de capteurs IoT pour prédire les pannes d'équipements avant qu'elles ne surviennent et optimiser les interventions de maintenance.
Modélisation d'attribution marketing
Méthode qui détermine quelle part du crédit d'une conversion accorder à chaque point de contact du parcours client (pub Facebook, email, SEO, TV...).
Optimisation dynamique des prix
Utilisation du ML pour ajuster automatiquement les prix en temps réel en fonction de la demande, de la concurrence, des stocks et du profil client.
Product Analytics — Comprendre le comportement utilisateur
Analyse quantitative du comportement des utilisateurs dans un produit numérique pour prendre des décisions data-driven sur les fonctionnalités, l'UX et la croissance.
Recherche Sémantique
Moteur de recherche qui comprend le sens de la requête plutôt que les mots-clés exacts, en comparant les embeddings vectoriels de la requête et des documents.
RH Analytics — Data-driven People Management
Application des techniques d'analytics et de ML aux données RH pour améliorer le recrutement, la rétention des talents, la performance et la planification des effectifs.
Scoring (Score décisionnel)
Technique qui attribue un score numérique à une entité (client, transaction, prospect) pour prioriser les actions ou prendre une décision automatique.
Segmentation RFM
Méthode de segmentation client basée sur 3 dimensions : Récence (quand a-t-on acheté pour la dernière fois ?), Fréquence (combien de fois ?) et Montant (combien dépensé ?).
Supply Chain Analytics
Application des données et du ML à l'optimisation de la chaîne d'approvisionnement : prévision de la demande, gestion des stocks, optimisation logistique et détection des risques fournisseurs.
TF-IDF — Pondération de termes textuels
Méthode de représentation de texte qui attribue un poids à chaque mot en fonction de sa fréquence dans un document et de sa rareté dans la collection complète.
Web Scraping
Technique pour extraire automatiquement des données de sites web. Transforme des pages HTML en données structurées exploitables.
Word2Vec et Embeddings de mots
Technique qui représente chaque mot par un vecteur numérique dense, capturant les relations sémantiques : des mots similaires ont des vecteurs proches.
Machine Learning
55 concepts
ACP / PCA (Analyse en Composantes Principales)
Technique de réduction de dimension qui compresse des centaines de variables en quelques composantes, en gardant le maximum d'information.
Agent IA — Intelligence artificielle autonome
Système IA qui utilise un LLM comme cerveau pour planifier et exécuter des séquences d'actions complexes de façon autonome, en utilisant des outils externes.
Analyse de sentiment (NLP)
Technique de NLP qui identifie automatiquement l'opinion exprimée dans un texte : positive, négative ou neutre.
Arbre de décision
Modèle qui prend des décisions par une série de questions oui/non, comme un jeu de 20 questions. Très lisible et explicable.
AutoML (Machine Learning Automatisé)
Technologies qui automatisent la sélection du modèle ML, le tuning des hyperparamètres et le feature engineering pour rendre le ML accessible sans expertise approfondie.
Base de données vectorielle
Base de données spécialisée dans le stockage et la recherche par similarité de vecteurs numériques représentant des textes, images ou sons.
BERT — Représentations bidirectionnelles
Modèle NLP pré-entraîné de Google qui comprend le contexte bidirectionnel des phrases. La base de la plupart des systèmes de compréhension de texte modernes.
Classification multi-label
Problème de classification où un exemple peut appartenir à plusieurs classes simultanément, contrairement à la classification binaire ou multi-classe classique.
Conformal Prediction
Framework statistique qui produit des intervalles de prédiction avec des garanties de couverture théoriques, contrairement aux modèles classiques qui donnent une prédiction ponctuelle sans incertitude fiable.
Détection d'objets — YOLO et Vision par ordinateur
Systèmes de vision par ordinateur qui localisent et classifient en temps réel tous les objets dans une image ou une vidéo via des boîtes englobantes.
Descente de gradient
Algorithme d'optimisation fondamental qui ajuste itérativement les paramètres d'un modèle pour minimiser l'erreur, en suivant la pente de la fonction de perte.
Feature Store
Référentiel centralisé pour stocker, calculer, versioner et servir des features ML, garantissant la cohérence entre l'entraînement et la production.
Fine-tuning de LLM
Technique d'adaptation d'un LLM pré-entraîné à une tâche ou un domaine spécifique en le réentraînant sur un dataset ciblé, pour un coût bien inférieur à l'entraînement from scratch.
Fine-tuning efficace — LoRA et QLoRA
Techniques d'adaptation d'un LLM à un domaine spécifique en n'entraînant qu'une fraction des paramètres, rendant le fine-tuning accessible sur GPU standard.
Function Calling et Tool Use (LLM)
Capacité des LLMs à appeler des fonctions ou APIs externes en produisant une sortie JSON structurée, permettant de connecter l'IA à des systèmes réels.
Génération de données synthétiques
Création de données artificielles qui préservent les propriétés statistiques des données réelles, pour contourner les problèmes de confidentialité, de rareté ou de déséquilibre.
Graph Neural Networks (GNN)
Famille de réseaux de neurones conçus pour traiter des données structurées en graphe (nœuds, arêtes), capturant les relations entre entités interconnectées.
Hyperparameter Tuning — Optuna et Bayesian Optimization
Techniques automatisées pour trouver les meilleurs hyperparamètres d'un modèle ML, remplaçant la grid search par des méthodes intelligentes qui apprennent des essais précédents.
IA Multimodale
Systèmes d'IA capables de traiter et raisonner sur plusieurs types de données simultanément : texte, images, audio, vidéo et données structurées.
Inférence causale
Méthodes statistiques qui permettent de mesurer l'effet causal d'une action (campagne, feature, politique) et non juste une corrélation.
Isolation Forest
Algorithme de détection d'anomalies qui isole les points aberrants en construisant des arbres aléatoires — les anomalies sont plus faciles à isoler car elles sont rares et différentes.
K-Means (Clustering)
Algorithme qui groupe automatiquement des données similaires en K groupes (clusters), sans labels préalables. La base de la segmentation client.
K-Nearest Neighbors (KNN)
Algorithme paresseux qui prédit en cherchant les K exemples les plus proches dans les données d'entraînement et vote à la majorité.
Knowledge Graph — Graphes de connaissances
Représentation structurée des connaissances sous forme de graphe d'entités et de relations, permettant la recherche sémantique, la découverte d'insights et l'enrichissement des données.
LightGBM — Gradient Boosting rapide
Variante ultra-rapide du gradient boosting (Microsoft) qui construit les arbres par feuilles plutôt que par niveaux, idéale pour les grands datasets.
LLMs open source — Llama, Mistral et alternatives
Modèles de langage grands ouverts (Llama, Mistral, Qwen, Gemma) qui peuvent être téléchargés, exécutés et fine-tunés localement, sans dépendance aux APIs propriétaires.
Mécanisme d'Attention
Composant clé des Transformers qui permet au modèle de pondérer dynamiquement l'importance de chaque élément d'une séquence par rapport aux autres lors du traitement.
MLflow — Gestion du cycle de vie ML
Plateforme open-source de gestion du cycle de vie ML : tracking des expériences, packaging des modèles, registre de modèles et déploiement.
Model Drift et Data Drift
Phénomène par lequel la performance d'un modèle ML se dégrade en production parce que les données réelles ont changé par rapport aux données d'entraînement.
NER — Extraction d'entités nommées
Technique NLP qui identifie et classifie automatiquement les entités nommées dans un texte : personnes, organisations, lieux, dates, montants.
Observabilité des LLMs en production
Surveillance des systèmes basés sur des LLMs pour détecter les dégradations de performance, les hallucinations, les dérapages et les coûts excessifs en production.
Prédiction du churn
Modèle ML qui identifie les clients sur le point de partir avant qu'ils ne le fassent, pour permettre des actions de rétention ciblées.
Prévision avancée de séries temporelles
Comparaison des approches modernes pour prévoir des valeurs futures : Prophet, N-BEATS, TFT et modèles de fondation temporels (TimesFM, Chronos).
Prompt Engineering
L'art de formuler des instructions précises pour guider un LLM vers la sortie désirée, en utilisant des techniques comme le few-shot, chain-of-thought ou le role prompting.
Régression linéaire
Le modèle ML le plus simple pour prédire une valeur numérique continue en trouvant la droite qui passe le mieux à travers les données.
Régression logistique
Algorithme de classification qui prédit la probabilité qu'un exemple appartienne à une catégorie (oui/non, spam/pas spam, fraude/légitime).
Réseaux de neurones (Deep Learning)
Modèles inspirés du cerveau humain, composés de couches de neurones interconnectés. La base de l'IA moderne : images, texte, audio.
RAG — Retrieval-Augmented Generation
Architecture qui augmente un LLM en lui donnant accès à une base documentaire externe au moment de la génération, pour réduire les hallucinations et ancrer les réponses dans des faits.
RAG avancé — Architectures et optimisations
Techniques avancées pour optimiser la précision des systèmes RAG : re-ranking, HyDE, chunking avancé, et RAG hybride dense+sparse.
Random Forest (Forêt aléatoire)
Ensemble de centaines d'arbres de décision, chacun entraîné sur des données légèrement différentes. La décision finale est un vote majoritaire. Robuste et difficile à battre.
Reinforcement Learning (Apprentissage par renforcement)
Paradigme d'apprentissage où un agent apprend en interagissant avec un environnement, en recevant des récompenses (ou pénalités) pour ses actions, sans données labellisées.
ROC-AUC — Évaluation des modèles de classification
Métrique d'évaluation qui mesure la capacité d'un modèle à distinguer les classes positives des négatives, indépendamment du seuil de décision choisi.
Séries temporelles (ARIMA, Prophet, LSTM)
Famille de méthodes pour modéliser et prévoir des données ordonnées dans le temps, en capturant tendances, saisonnalités et cycles.
Scoring de propension
Modèle ML qui attribue à chaque individu une probabilité de réaliser un comportement cible : acheter un produit, répondre à une offre, s'abonner, faire défaut.
SHAP — Explainabilité des modèles ML
Framework d'explainabilité qui quantifie la contribution de chaque variable à une prédiction individuelle, basé sur la théorie des jeux de Shapley.
Surapprentissage & Sous-apprentissage
Le surapprentissage (overfitting) se produit quand un modèle mémorise les données d'entraînement sans généraliser. Le sous-apprentissage (underfitting) quand il est trop simple pour capturer les patterns.
SVM (Support Vector Machine)
Algorithme qui trouve la frontière optimale entre des classes en maximisant la marge entre les points les plus proches de chaque groupe.
Système de recommandation
Algorithme qui prédit ce qu'un utilisateur aimerait voir ou acheter ensuite, en se basant sur ses comportements passés et la similarité avec d'autres utilisateurs.
Text-to-SQL — Requêtes en langage naturel
Application des LLMs pour convertir des questions en langage naturel en requêtes SQL exécutables, permettant aux non-techniciens d'interroger leurs données.
Transfer Learning (Apprentissage par transfert)
Technique qui réutilise un modèle pré-entraîné sur une grande tâche générale pour l'adapter rapidement à une tâche spécifique avec peu de données.
Transformers et LLMs
L'architecture qui a révolutionné le NLP et propulsé ChatGPT. Les Transformers comprennent le contexte d'une phrase en regardant tous les mots en même temps.
Uplift Modeling
Modélisation de l'effet incrémental d'une action sur chaque individu, pour cibler uniquement les clients qui agiront GRÂCE à l'intervention (ni ceux qui le feraient de toute façon, ni ceux que l'on ferait fuir).
Validation croisée (Cross-validation)
Technique d'évaluation qui divise le dataset en plusieurs sous-ensembles pour entraîner et tester le modèle plusieurs fois, donnant une estimation plus fiable des performances réelles.
XGBoost / Gradient Boosting
L'algorithme qui gagne la majorité des compétitions ML sur données tabulaires. Construit des arbres en séquence, chacun corrigeant les erreurs du précédent.
Zero-shot et Few-shot Learning
Capacité des grands modèles de langage à réaliser une tâche sans (zero-shot) ou avec très peu d'exemples (few-shot), sans réentraînement du modèle.
Gouvernance & Qualité
19 concepts
AI Act européen — Réglementation de l'IA
Premier cadre légal mondial sur l'intelligence artificielle, adopté par l'UE en 2024, qui classe les systèmes IA selon leur niveau de risque et impose des obligations proportionnées.
BCBS 239 — Agrégation des données de risque bancaire
Norme réglementaire du Comité de Bâle qui exige que les banques systémiques puissent agréger leurs données de risque de façon précise, rapide et automatisée.
Biais algorithmique et fairness
Erreurs systématiques dans les décisions d'un algorithme qui produisent des résultats injustes envers certains groupes, souvent hérités des données historiques biaisées.
Data Contract
Accord formel entre le producteur de données et ses consommateurs qui définit le schéma, la qualité attendue, la fréquence de mise à jour et les responsabilités.
Data Gouvernance
L'ensemble des règles, processus et responsabilités qui garantissent que les données d'une organisation sont fiables, sécurisées et utilisées de façon éthique et conforme.
Data Lineage (Lignage de données)
La capacité à tracer le parcours d'une donnée de sa source jusqu'à son utilisation finale, en passant par toutes les transformations intermédiaires.
Data Mesh
Paradigme architectural qui décentralise la propriété des données : chaque domaine métier est responsable de ses propres données et les expose comme des « produits données ».
Data Quality et Great Expectations
La qualité des données désigne leur aptitude à être utilisées. Great Expectations est le framework Python de référence pour définir, tester et documenter des règles de qualité comme des tests automatisés.
Data Stewardship — Gardiens des données
Rôle organisationnel qui assure au quotidien la qualité, la définition et la conformité des données dans un domaine métier, faisant le lien entre les équipes techniques et les métiers.
DataOps
Pratiques qui appliquent les principes DevOps (CI/CD, automatisation, collaboration) aux pipelines de données pour accélérer les livraisons et améliorer la qualité.
Données ESG et reporting de durabilité
Collecte, traitement et reporting des données environnementales, sociales et de gouvernance pour répondre aux exigences réglementaires (CSRD, SFDR, Taxonomie UE) et aux attentes des investisseurs.
Données ESG et Taxonomie européenne
Cadre réglementaire européen qui définit quelles activités économiques sont 'durables' et impose aux entreprises et investisseurs de reporter leur performance environnementale, sociale et de gouvernance.
IA Responsable (Responsible AI)
Ensemble de principes, pratiques et techniques pour concevoir des systèmes IA qui sont équitables, transparents, explicables, robustes et respectueux de la vie privée.
Master Data Management (MDM)
Discipline qui consiste à créer et maintenir une version unique, fiable et partagée des données de référence d'une entreprise (clients, produits, fournisseurs, employés).
Monte Carlo — Observabilité des données
Plateforme d'observabilité des données qui monitore automatiquement la fraîcheur, le volume, la distribution et le schéma des tables pour détecter les incidents data avant que les utilisateurs ne les signalent.
Pilier 3 — Reporting réglementaire bancaire
Volet du cadre de Bâle III qui impose aux banques de publier des informations détaillées sur leurs risques (crédit, marché, opérationnel) pour discipliner le marché par la transparence.
Privacy by Design
Approche qui intègre la protection de la vie privée dès la conception des systèmes et des projets data, obligatoire sous le RGPD (Article 25) et préventive par essence.
RGPD appliqué à la Data
Règlement Général sur la Protection des Données : cadre légal européen qui encadre la collecte, le traitement et la conservation des données personnelles, avec des impacts concrets sur l'architecture data.
Taxonomie ESG et Finance Durable
La Taxonomie européenne est un système de classification officiel qui définit quelles activités économiques sont durables, imposant aux entreprises et investisseurs de mesurer et reporter leur alignement.
Cloud
17 concepts
Amazon Kinesis Data Streams
Service de streaming AWS permettant d'ingérer et traiter des flux de données en temps réel à très haute échelle, compatible avec Flink et Spark Streaming.
Amazon Redshift
Data Warehouse cloud d'AWS en architecture colonnaire, permettant des analyses SQL rapides sur des pétaoctets de données structurées.
Amazon S3 (Simple Storage Service)
Le stockage objet d'AWS. Infinite, durable (99.999999999%), peu coûteux. Le point de départ de presque toute architecture data sur AWS.
Amazon SageMaker
La plateforme MLOps d'AWS. Couvre tout le cycle ML : exploration (Studio), entraînement distribué, tuning automatique, déploiement d'endpoints, monitoring et MLOps.
AWS Bedrock — IA Générative sur AWS
Service AWS fully managed qui donne accès à des dizaines de LLMs de fondation (Claude, Llama, Mistral, Titan) via une API unifiée avec les contrôles sécurité AWS.
AWS Glue
Service ETL serverless d'AWS qui découvre, catalogue et transforme les données sans gérer de serveurs. Intégré nativement avec S3, Redshift, RDS et Athena.
Azure Data Factory (ADF)
Service d'orchestration et d'intégration de données Azure. Crée des pipelines ETL visuellement pour déplacer et transformer des données entre des centaines de sources.
Azure Synapse Analytics
La plateforme data analytics unifiée de Microsoft. Combine SQL serverless, Spark, Data Factory et Power BI dans un seul environnement.
Databricks — Unified Analytics Platform
Plateforme unifiée fondée sur Apache Spark qui combine data engineering, data science, ML et BI sur un lakehouse Delta Lake, disponible sur AWS, Azure et GCP.
Dataiku — Plateforme collaborative de Data Science
Plateforme end-to-end pour construire, déployer et gérer des projets data et ML en équipe, avec une interface visuelle pour les non-codeurs et une API pour les experts.
Google BigQuery
Le Data Warehouse serverless de Google. Fait du SQL sur des téraoctets de données en quelques secondes, sans gérer de serveurs. Facturation à la requête.
Google Cloud Dataflow
Service de traitement de données en flux et par batch entièrement géré sur GCP, basé sur Apache Beam. Unifie le traitement batch et streaming avec le même code.
Google Vertex AI — ML Platform sur GCP
Plateforme ML unifiée de Google Cloud qui couvre l'entraînement, le déploiement et le monitoring de modèles ML, avec accès à Gemini et aux modèles open source.
Microsoft Fabric — Analytics tout-en-un Microsoft
Plateforme analytics unifiée Microsoft qui regroupe Power BI, Azure Synapse, Data Factory et Azure ML dans une interface unique sur OneLake.
SAS Viya — Analytics cloud enterprise
Plateforme analytics et ML de SAS Institute, leader historique de l'analytics enterprise, dans sa version cloud-native moderne utilisée dans les secteurs réglementés.
Snowflake — Cloud Data Warehouse
Data warehouse cloud qui sépare le stockage du calcul, permettant de scaler indépendamment et de payer à l'usage, avec partage natif de données entre organisations.
Terraform pour l'infrastructure data
Outil d'Infrastructure as Code (IaC) HashiCorp qui permet de définir, provisionner et versionner toute l'infrastructure cloud data (Snowflake, Databricks, Kafka, S3) en code déclaratif.
Data Engineering
18 concepts
Apache Flink — Stream processing temps réel
Moteur de traitement de flux distribué qui traite chaque événement individuellement avec une latence de l'ordre de la milliseconde, contrairement au micro-batching de Spark.
Apache Iceberg
Format de table ouvert pour les Data Lakes qui apporte des transactions ACID, le time travel et l'évolution de schéma, compatible avec Spark, Trino, Flink et Hive.
Architecture Lakehouse
Architecture data qui combine la flexibilité et l'économie d'un Data Lake avec les performances ACID et les capacités analytiques d'un Data Warehouse.
Architecture Medallion (Bronze / Silver / Gold)
Pattern d'architecture Lakehouse qui organise les données en 3 couches progressives : Bronze (brut), Silver (nettoyé) et Gold (agrégé pour la consommation).
Change Data Capture (CDC)
Technique qui capture en temps quasi-réel tous les changements (INSERT, UPDATE, DELETE) dans une base de données source et les propage vers les systèmes cibles.
Data Contracts — Engagements sur les données
Convention formelle entre les producteurs et consommateurs de données qui définit le schéma, la qualité, la fraîcheur et les SLAs attendus, garantissant la fiabilité des pipelines.
Data Vault 2.0
Méthodologie de modélisation de Data Warehouse orientée audit, agilité et chargement parallèle, basée sur 3 types de tables : Hubs (entités), Links (relations) et Satellites (attributs).
dbt (Data Build Tool)
Framework de transformation de données qui permet d'écrire des transformations SQL versionables, testées et documentées directement dans le Data Warehouse.
dbt Tests et Documentation
Fonctionnalités de dbt pour garantir la qualité des données en production via des tests automatisés et générer une documentation vivante du data warehouse.
DuckDB — Analytics sur laptop
Base de données analytique in-process qui tourne directement dans Python/R sans serveur, et lit nativement les fichiers Parquet sur S3 comme si c'était une table SQL.
Fivetran — Ingestion de données clé en main
Plateforme d'ingestion automatisée EL (Extract-Load) avec plus de 500 connecteurs vers des sources SaaS et bases de données, zéro maintenance du code d'ingestion.
Lakehouse Architecture
Paradigme qui combine les avantages du Data Lake (stockage brut bas coût) et du Data Warehouse (ACID, performance SQL) dans une architecture unifiée.
OLAP vs OLTP
OLTP (Online Transaction Processing) optimise les transactions rapides et fréquentes. OLAP (Online Analytical Processing) optimise les requêtes analytiques complexes sur de grands volumes.
Orchestration de pipelines data
Gestion des dépendances, de la planification et du monitoring des pipelines data pour garantir que toutes les étapes s'exécutent dans le bon ordre et en temps voulu.
Reverse ETL — Des données vers les outils métier
Le flux inverse de l'ETL classique : envoyer les insights calculés dans le data warehouse vers les outils opérationnels (CRM, marketing automation, support) pour activer les données.
Semantic Layer — La couche de sens des données
Couche d'abstraction entre les données brutes et les outils de visualisation qui centralise les définitions métier, les métriques et les règles de calcul pour garantir la cohérence.
Slowly Changing Dimension (SCD)
Technique de modélisation de Data Warehouse qui gère les changements d'attributs dans les dimensions au fil du temps, avec plusieurs stratégies (Type 1, 2, 3).
Star Schema et Snowflake Schema
Modèles de conception de Data Warehouse : le schéma en étoile avec une table de faits centrale et des dimensions dénormalisées, le schéma en flocon avec des dimensions normalisées.