Data Universe
Newsletter
📚 Encyclopédie Data

Tous les concepts data
expliqués simplement

134 concepts couverts — Machine Learning, Cloud, Techniques Analytics, Gouvernance. Des explications avec des exemples que tout le monde peut comprendre.

134 concepts
📊

Techniques Analytics

25 concepts

🧪Intermédiaire
Expérimentation

A/B Testing

Méthode d'expérimentation scientifique qui compare deux versions (A et B) d'une page, d'une fonctionnalité ou d'un message pour déterminer laquelle performe le mieux.

ExpérimentationStatistiquesProduit
👥Intermédiaire
Analytics Produit

Analyse de cohortes

Méthode qui suit l'évolution de groupes d'utilisateurs partageant une caractéristique commune (date d'inscription, premier achat) dans le temps pour mesurer la rétention et le comportement.

AnalyticsProduitRétention
🔽Débutant
Analytics Produit

Analyse d'entonnoir (Funnel Analysis)

Visualisation du parcours utilisateur à travers des étapes séquentielles (visite → inscription → achat) pour identifier les points de friction et d'abandon.

AnalyticsProduitConversion
🛒Intermédiaire
Analytics Retail

Analyse du panier — Market Basket Analysis

Technique qui identifie les associations entre produits achetés ensemble pour optimiser le merchandising, le cross-selling et les recommandations.

RetailAssociationCross-sell
🗺️Intermédiaire
Analytics Avancé

Analytique géospatiale

Analyse de données enrichies de coordonnées géographiques pour identifier des patterns spatiaux, optimiser la logistique et personnaliser les services par zone.

GéospatialCartographieRetail
⚡Avancé
Analytics Avancé

Analytique temps réel

Architecture et techniques pour analyser et visualiser des données avec une latence de quelques secondes, permettant des décisions opérationnelles immédiates.

StreamingTemps réelBI
🌬️Intermédiaire
Orchestration

Apache Airflow — Orchestration de pipelines

Plateforme d'orchestration qui permet de définir, planifier et monitorer des pipelines de données sous forme de graphes acycliques dirigés (DAGs) en Python.

Data EngineeringOrchestrationPipelines
⚡Avancé
Streaming & Messagerie

Apache Kafka

Plateforme de streaming distribué qui permet de publier, stocker et consommer des flux de données en temps réel à très haute échelle.

Data EngineeringStreamingEvent-Driven
🔥Intermédiaire
Traitement distribué

Apache Spark

Moteur de calcul distribué qui traite des données à grande échelle (téraoctets) en parallèle sur un cluster, 100x plus vite que Hadoop MapReduce.

Data EngineeringBig DataDistribué
💰Intermédiaire
Marketing Analytics

Customer Lifetime Value (CLV / LTV)

Valeur économique totale qu'un client va générer tout au long de sa relation avec l'entreprise. Métrique fondamentale pour arbitrer les investissements marketing et CRM.

MarketingAnalyticsCRM
🌊Intermédiaire
Lakehouse Architecture

Delta Lake

Couche de stockage open-source qui apporte les transactions ACID (fiabilité des bases relationnelles) aux fichiers Parquet du Data Lake.

Data EngineeringLakehouseACID
🔄Débutant
Data Engineering

ETL vs ELT — Architecture data

ETL (Extract-Transform-Load) transforme les données avant chargement. ELT (Extract-Load-Transform) les charge d'abord, puis transforme directement dans l'entrepôt de données.

Data EngineeringArchitecturedbt
⚙️Intermédiaire
Préparation des données

Feature Engineering

L'art de créer de nouvelles variables à partir des données brutes pour améliorer les performances des modèles ML. Souvent plus impactant que le choix de l'algorithme.

MLData PreparationPreprocessing
🔧Intermédiaire
IoT & Industrie

Maintenance prédictive

Utilisation du ML sur les données de capteurs IoT pour prédire les pannes d'équipements avant qu'elles ne surviennent et optimiser les interventions de maintenance.

IoTIndustriePrédiction
🎯Intermédiaire
Marketing Analytics

Modélisation d'attribution marketing

Méthode qui détermine quelle part du crédit d'une conversion accorder à chaque point de contact du parcours client (pub Facebook, email, SEO, TV...).

AttributionMarketingAnalytics
💰Avancé
Analytics Avancé

Optimisation dynamique des prix

Utilisation du ML pour ajuster automatiquement les prix en temps réel en fonction de la demande, de la concurrence, des stocks et du profil client.

PricingRevenue ManagementOptimisation
📱Intermédiaire
Analytics Produit

Product Analytics — Comprendre le comportement utilisateur

Analyse quantitative du comportement des utilisateurs dans un produit numérique pour prendre des décisions data-driven sur les fonctionnalités, l'UX et la croissance.

ProductComportementOnboarding
🔍Intermédiaire
NLP

Recherche Sémantique

Moteur de recherche qui comprend le sens de la requête plutôt que les mots-clés exacts, en comparant les embeddings vectoriels de la requête et des documents.

NLPVector SearchRAG
👥Intermédiaire
Analytics RH

RH Analytics — Data-driven People Management

Application des techniques d'analytics et de ML aux données RH pour améliorer le recrutement, la rétention des talents, la performance et la planification des effectifs.

RHPeople AnalyticsAttrition
🏆Débutant
Decision Analytics

Scoring (Score décisionnel)

Technique qui attribue un score numérique à une entité (client, transaction, prospect) pour prioriser les actions ou prendre une décision automatique.

AnalyticsMLDécisionnel
📊Débutant
Marketing Analytics

Segmentation RFM

Méthode de segmentation client basée sur 3 dimensions : Récence (quand a-t-on acheté pour la dernière fois ?), Fréquence (combien de fois ?) et Montant (combien dépensé ?).

MarketingSegmentationCRM
🚚Intermédiaire
Analytics Opérationnel

Supply Chain Analytics

Application des données et du ML à l'optimisation de la chaîne d'approvisionnement : prévision de la demande, gestion des stocks, optimisation logistique et détection des risques fournisseurs.

Supply ChainStocksLogistique
📝Intermédiaire
NLP

TF-IDF — Pondération de termes textuels

Méthode de représentation de texte qui attribue un poids à chaque mot en fonction de sa fréquence dans un document et de sa rareté dans la collection complète.

NLPTexteRecherche
🕷️Intermédiaire
Collecte de données

Web Scraping

Technique pour extraire automatiquement des données de sites web. Transforme des pages HTML en données structurées exploitables.

Data CollectionPythonETL
🔤Intermédiaire
NLP

Word2Vec et Embeddings de mots

Technique qui représente chaque mot par un vecteur numérique dense, capturant les relations sémantiques : des mots similaires ont des vecteurs proches.

NLPEmbeddingsSémantique
🤖

Machine Learning

55 concepts

🔭Intermédiaire
Apprentissage non supervisé

ACP / PCA (Analyse en Composantes Principales)

Technique de réduction de dimension qui compresse des centaines de variables en quelques composantes, en gardant le maximum d'information.

MLNon superviséRéduction de dimension
🤖Avancé
IA Générative

Agent IA — Intelligence artificielle autonome

Système IA qui utilise un LLM comme cerveau pour planifier et exécuter des séquences d'actions complexes de façon autonome, en utilisant des outils externes.

AgentLLMAutonome
😊Intermédiaire
NLP

Analyse de sentiment (NLP)

Technique de NLP qui identifie automatiquement l'opinion exprimée dans un texte : positive, négative ou neutre.

NLPSentimentClassification
🌳Débutant
Apprentissage supervisé

Arbre de décision

Modèle qui prend des décisions par une série de questions oui/non, comme un jeu de 20 questions. Très lisible et explicable.

MLSuperviséClassification
🤖Débutant
Automatisation ML

AutoML (Machine Learning Automatisé)

Technologies qui automatisent la sélection du modèle ML, le tuning des hyperparamètres et le feature engineering pour rendre le ML accessible sans expertise approfondie.

MLAutoMLNo-code
🗄️Intermédiaire
IA Générative

Base de données vectorielle

Base de données spécialisée dans le stockage et la recherche par similarité de vecteurs numériques représentant des textes, images ou sons.

Vector SearchEmbeddingsRAG
🤖Avancé
NLP

BERT — Représentations bidirectionnelles

Modèle NLP pré-entraîné de Google qui comprend le contexte bidirectionnel des phrases. La base de la plupart des systèmes de compréhension de texte modernes.

NLPDeep LearningEmbeddings
🏷️Intermédiaire
Apprentissage supervisé

Classification multi-label

Problème de classification où un exemple peut appartenir à plusieurs classes simultanément, contrairement à la classification binaire ou multi-classe classique.

MLClassificationMulti-label
📊Avancé
Évaluation ML

Conformal Prediction

Framework statistique qui produit des intervalles de prédiction avec des garanties de couverture théoriques, contrairement aux modèles classiques qui donnent une prédiction ponctuelle sans incertitude fiable.

MLIncertitudeStatistiques
👁️Avancé
Deep Learning

Détection d'objets — YOLO et Vision par ordinateur

Systèmes de vision par ordinateur qui localisent et classifient en temps réel tous les objets dans une image ou une vidéo via des boîtes englobantes.

VisionYOLODeep Learning
⛷️Intermédiaire
Optimisation ML

Descente de gradient

Algorithme d'optimisation fondamental qui ajuste itérativement les paramètres d'un modèle pour minimiser l'erreur, en suivant la pente de la fonction de perte.

MLOptimisationDeep Learning
🏪Avancé
MLOps

Feature Store

Référentiel centralisé pour stocker, calculer, versioner et servir des features ML, garantissant la cohérence entre l'entraînement et la production.

MLOpsMLFeature Engineering
🎛️Avancé
IA Générative

Fine-tuning de LLM

Technique d'adaptation d'un LLM pré-entraîné à une tâche ou un domaine spécifique en le réentraînant sur un dataset ciblé, pour un coût bien inférieur à l'entraînement from scratch.

LLMDeep LearningLoRA
⚙️Avancé
IA Générative

Fine-tuning efficace — LoRA et QLoRA

Techniques d'adaptation d'un LLM à un domaine spécifique en n'entraînant qu'une fraction des paramètres, rendant le fine-tuning accessible sur GPU standard.

LLMFine-tuningLoRA
🛠️Intermédiaire
IA Générative

Function Calling et Tool Use (LLM)

Capacité des LLMs à appeler des fonctions ou APIs externes en produisant une sortie JSON structurée, permettant de connecter l'IA à des systèmes réels.

LLMFunction CallingTool Use
🧬Avancé
Techniques avancées

Génération de données synthétiques

Création de données artificielles qui préservent les propriétés statistiques des données réelles, pour contourner les problèmes de confidentialité, de rareté ou de déséquilibre.

SynthétiqueRGPDGénération
🕸️Avancé
Deep Learning

Graph Neural Networks (GNN)

Famille de réseaux de neurones conçus pour traiter des données structurées en graphe (nœuds, arêtes), capturant les relations entre entités interconnectées.

Deep LearningGraphesFraud Detection
🎛️Intermédiaire
Optimisation ML

Hyperparameter Tuning — Optuna et Bayesian Optimization

Techniques automatisées pour trouver les meilleurs hyperparamètres d'un modèle ML, remplaçant la grid search par des méthodes intelligentes qui apprennent des essais précédents.

MLOptimisationAutoML
🌐Avancé
Deep Learning

IA Multimodale

Systèmes d'IA capables de traiter et raisonner sur plusieurs types de données simultanément : texte, images, audio, vidéo et données structurées.

Deep LearningLLMComputer Vision
🔗Avancé
Techniques avancées

Inférence causale

Méthodes statistiques qui permettent de mesurer l'effet causal d'une action (campagne, feature, politique) et non juste une corrélation.

CausalitéInférenceExpérimentation
🌲Intermédiaire
Détection d'anomalies

Isolation Forest

Algorithme de détection d'anomalies qui isole les points aberrants en construisant des arbres aléatoires — les anomalies sont plus faciles à isoler car elles sont rares et différentes.

MLNon superviséAnomalies
🎯Débutant
Apprentissage non supervisé

K-Means (Clustering)

Algorithme qui groupe automatiquement des données similaires en K groupes (clusters), sans labels préalables. La base de la segmentation client.

MLNon superviséClustering
🏘️Débutant
Apprentissage supervisé

K-Nearest Neighbors (KNN)

Algorithme paresseux qui prédit en cherchant les K exemples les plus proches dans les données d'entraînement et vote à la majorité.

MLSuperviséClassification
🕸️Avancé
Représentation des données

Knowledge Graph — Graphes de connaissances

Représentation structurée des connaissances sous forme de graphe d'entités et de relations, permettant la recherche sémantique, la découverte d'insights et l'enrichissement des données.

GrapheKnowledge GraphEntités
⚡Intermédiaire
Apprentissage supervisé

LightGBM — Gradient Boosting rapide

Variante ultra-rapide du gradient boosting (Microsoft) qui construit les arbres par feuilles plutôt que par niveaux, idéale pour les grands datasets.

MLGradient BoostingRapide
🦙Intermédiaire
IA Générative

LLMs open source — Llama, Mistral et alternatives

Modèles de langage grands ouverts (Llama, Mistral, Qwen, Gemma) qui peuvent être téléchargés, exécutés et fine-tunés localement, sans dépendance aux APIs propriétaires.

LLMOpen SourceLlama
👁️Avancé
Deep Learning

Mécanisme d'Attention

Composant clé des Transformers qui permet au modèle de pondérer dynamiquement l'importance de chaque élément d'une séquence par rapport aux autres lors du traitement.

Deep LearningTransformersNLP
🔬Intermédiaire
MLOps

MLflow — Gestion du cycle de vie ML

Plateforme open-source de gestion du cycle de vie ML : tracking des expériences, packaging des modèles, registre de modèles et déploiement.

MLOpsMLTracking
📉Intermédiaire
MLOps

Model Drift et Data Drift

Phénomène par lequel la performance d'un modèle ML se dégrade en production parce que les données réelles ont changé par rapport aux données d'entraînement.

MLOpsMLProduction
🏷️Intermédiaire
NLP

NER — Extraction d'entités nommées

Technique NLP qui identifie et classifie automatiquement les entités nommées dans un texte : personnes, organisations, lieux, dates, montants.

NLPNERExtraction
🔭Avancé
IA Générative

Observabilité des LLMs en production

Surveillance des systèmes basés sur des LLMs pour détecter les dégradations de performance, les hallucinations, les dérapages et les coûts excessifs en production.

LLMObservabilitéProduction
🚪Intermédiaire
Apprentissage supervisé

Prédiction du churn

Modèle ML qui identifie les clients sur le point de partir avant qu'ils ne le fassent, pour permettre des actions de rétention ciblées.

MLChurnRétention
📊Intermédiaire
Apprentissage supervisé

Prévision avancée de séries temporelles

Comparaison des approches modernes pour prévoir des valeurs futures : Prophet, N-BEATS, TFT et modèles de fondation temporels (TimesFM, Chronos).

Séries temporellesPrévisionProphet
✏️Intermédiaire
IA Générative

Prompt Engineering

L'art de formuler des instructions précises pour guider un LLM vers la sortie désirée, en utilisant des techniques comme le few-shot, chain-of-thought ou le role prompting.

LLMIA GénérativeGPT
📈Débutant
Apprentissage supervisé

Régression linéaire

Le modèle ML le plus simple pour prédire une valeur numérique continue en trouvant la droite qui passe le mieux à travers les données.

MLSuperviséPrédiction
🎯Débutant
Apprentissage supervisé

Régression logistique

Algorithme de classification qui prédit la probabilité qu'un exemple appartienne à une catégorie (oui/non, spam/pas spam, fraude/légitime).

MLSuperviséClassification
🧠Intermédiaire
Deep Learning

Réseaux de neurones (Deep Learning)

Modèles inspirés du cerveau humain, composés de couches de neurones interconnectés. La base de l'IA moderne : images, texte, audio.

Deep LearningNeural NetworkIA
🔍Avancé
IA Générative

RAG — Retrieval-Augmented Generation

Architecture qui augmente un LLM en lui donnant accès à une base documentaire externe au moment de la génération, pour réduire les hallucinations et ancrer les réponses dans des faits.

LLMIA GénérativeNLP
🔍Avancé
IA Générative

RAG avancé — Architectures et optimisations

Techniques avancées pour optimiser la précision des systèmes RAG : re-ranking, HyDE, chunking avancé, et RAG hybride dense+sparse.

RAGLLMRetrieval
🌲Intermédiaire
Apprentissage supervisé

Random Forest (Forêt aléatoire)

Ensemble de centaines d'arbres de décision, chacun entraîné sur des données légèrement différentes. La décision finale est un vote majoritaire. Robuste et difficile à battre.

MLSuperviséEnsemble
🎮Avancé
Deep Learning

Reinforcement Learning (Apprentissage par renforcement)

Paradigme d'apprentissage où un agent apprend en interagissant avec un environnement, en recevant des récompenses (ou pénalités) pour ses actions, sans données labellisées.

MLDeep LearningIA
📐Intermédiaire
Évaluation ML

ROC-AUC — Évaluation des modèles de classification

Métrique d'évaluation qui mesure la capacité d'un modèle à distinguer les classes positives des négatives, indépendamment du seuil de décision choisi.

MLÉvaluationMétriques
📈Intermédiaire
Prévision

Séries temporelles (ARIMA, Prophet, LSTM)

Famille de méthodes pour modéliser et prévoir des données ordonnées dans le temps, en capturant tendances, saisonnalités et cycles.

MLPrévisionTime Series
🎲Intermédiaire
Apprentissage supervisé

Scoring de propension

Modèle ML qui attribue à chaque individu une probabilité de réaliser un comportement cible : acheter un produit, répondre à une offre, s'abonner, faire défaut.

ScoringMarketingCiblage
🔦Intermédiaire
Explainabilité IA

SHAP — Explainabilité des modèles ML

Framework d'explainabilité qui quantifie la contribution de chaque variable à une prédiction individuelle, basé sur la théorie des jeux de Shapley.

MLExplainabilitéIA Responsable
⚖️Débutant
Concepts ML fondamentaux

Surapprentissage & Sous-apprentissage

Le surapprentissage (overfitting) se produit quand un modèle mémorise les données d'entraînement sans généraliser. Le sous-apprentissage (underfitting) quand il est trop simple pour capturer les patterns.

MLConcepts fondamentauxDiagnostics
⚔️Intermédiaire
Apprentissage supervisé

SVM (Support Vector Machine)

Algorithme qui trouve la frontière optimale entre des classes en maximisant la marge entre les points les plus proches de chaque groupe.

MLSuperviséClassification
🎯Intermédiaire
Apprentissage non supervisé

Système de recommandation

Algorithme qui prédit ce qu'un utilisateur aimerait voir ou acheter ensuite, en se basant sur ses comportements passés et la similarité avec d'autres utilisateurs.

MLRecommandationCollaboratif
💬Intermédiaire
IA Générative

Text-to-SQL — Requêtes en langage naturel

Application des LLMs pour convertir des questions en langage naturel en requêtes SQL exécutables, permettant aux non-techniciens d'interroger leurs données.

LLMSQLNLP
🔄Avancé
Deep Learning

Transfer Learning (Apprentissage par transfert)

Technique qui réutilise un modèle pré-entraîné sur une grande tâche générale pour l'adapter rapidement à une tâche spécifique avec peu de données.

Deep LearningNLPComputer Vision
🤖Avancé
Deep Learning

Transformers et LLMs

L'architecture qui a révolutionné le NLP et propulsé ChatGPT. Les Transformers comprennent le contexte d'une phrase en regardant tous les mots en même temps.

Deep LearningNLPLLM
📈Avancé
Techniques avancées

Uplift Modeling

Modélisation de l'effet incrémental d'une action sur chaque individu, pour cibler uniquement les clients qui agiront GRÂCE à l'intervention (ni ceux qui le feraient de toute façon, ni ceux que l'on ferait fuir).

UpliftMarketingCausalité
🔄Intermédiaire
Évaluation ML

Validation croisée (Cross-validation)

Technique d'évaluation qui divise le dataset en plusieurs sous-ensembles pour entraîner et tester le modèle plusieurs fois, donnant une estimation plus fiable des performances réelles.

MLÉvaluationValidation
🚀Intermédiaire
Apprentissage supervisé

XGBoost / Gradient Boosting

L'algorithme qui gagne la majorité des compétitions ML sur données tabulaires. Construit des arbres en séquence, chacun corrigeant les erreurs du précédent.

MLSuperviséEnsemble
🎓Intermédiaire
IA Générative

Zero-shot et Few-shot Learning

Capacité des grands modèles de langage à réaliser une tâche sans (zero-shot) ou avec très peu d'exemples (few-shot), sans réentraînement du modèle.

LLMZero-shotFew-shot
📁

Gouvernance & Qualité

19 concepts

⚖️Intermédiaire
Conformité

AI Act européen — Réglementation de l'IA

Premier cadre légal mondial sur l'intelligence artificielle, adopté par l'UE en 2024, qui classe les systèmes IA selon leur niveau de risque et impose des obligations proportionnées.

RéglementationIAConformité
🏦Avancé
Réglementation

BCBS 239 — Agrégation des données de risque bancaire

Norme réglementaire du Comité de Bâle qui exige que les banques systémiques puissent agréger leurs données de risque de façon précise, rapide et automatisée.

RéglementationBanqueRisque
⚠️Intermédiaire
Éthique IA

Biais algorithmique et fairness

Erreurs systématiques dans les décisions d'un algorithme qui produisent des résultats injustes envers certains groupes, souvent hérités des données historiques biaisées.

BiaisFairnessÉthique
📋Intermédiaire
Gouvernance

Data Contract

Accord formel entre le producteur de données et ses consommateurs qui définit le schéma, la qualité attendue, la fréquence de mise à jour et les responsabilités.

GouvernanceData MeshQualité
🏛️Intermédiaire
Gouvernance

Data Gouvernance

L'ensemble des règles, processus et responsabilités qui garantissent que les données d'une organisation sont fiables, sécurisées et utilisées de façon éthique et conforme.

GouvernanceRGPDConformité
🔗Intermédiaire
Gouvernance

Data Lineage (Lignage de données)

La capacité à tracer le parcours d'une donnée de sa source jusqu'à son utilisation finale, en passant par toutes les transformations intermédiaires.

GouvernanceAuditData Quality
🕸️Avancé
Architecture Data

Data Mesh

Paradigme architectural qui décentralise la propriété des données : chaque domaine métier est responsable de ses propres données et les expose comme des « produits données ».

ArchitectureGouvernanceOrganisation
✅Intermédiaire
Data Quality

Data Quality et Great Expectations

La qualité des données désigne leur aptitude à être utilisées. Great Expectations est le framework Python de référence pour définir, tester et documenter des règles de qualité comme des tests automatisés.

Data QualityTestsGouvernance
🛡️Débutant
Organisation data

Data Stewardship — Gardiens des données

Rôle organisationnel qui assure au quotidien la qualité, la définition et la conformité des données dans un domaine métier, faisant le lien entre les équipes techniques et les métiers.

GouvernanceOrganisationData Catalog
⚙️Intermédiaire
Organisation data

DataOps

Pratiques qui appliquent les principes DevOps (CI/CD, automatisation, collaboration) aux pipelines de données pour accélérer les livraisons et améliorer la qualité.

GouvernanceData EngineeringCI/CD
🌿Intermédiaire
Finance durable

Données ESG et reporting de durabilité

Collecte, traitement et reporting des données environnementales, sociales et de gouvernance pour répondre aux exigences réglementaires (CSRD, SFDR, Taxonomie UE) et aux attentes des investisseurs.

ESGCSRDCarbone
🌱Intermédiaire
Finance Durable

Données ESG et Taxonomie européenne

Cadre réglementaire européen qui définit quelles activités économiques sont 'durables' et impose aux entreprises et investisseurs de reporter leur performance environnementale, sociale et de gouvernance.

ESGFinance durableSFDR
⚖️Intermédiaire
Éthique IA

IA Responsable (Responsible AI)

Ensemble de principes, pratiques et techniques pour concevoir des systèmes IA qui sont équitables, transparents, explicables, robustes et respectueux de la vie privée.

GouvernanceÉthiqueIA
👑Avancé
Gouvernance

Master Data Management (MDM)

Discipline qui consiste à créer et maintenir une version unique, fiable et partagée des données de référence d'une entreprise (clients, produits, fournisseurs, employés).

GouvernanceMDMQualité des données
🎲Avancé
Data Quality

Monte Carlo — Observabilité des données

Plateforme d'observabilité des données qui monitore automatiquement la fraîcheur, le volume, la distribution et le schéma des tables pour détecter les incidents data avant que les utilisateurs ne les signalent.

Data QualityObservabilitéMLOps
🏦Avancé
Réglementation

Pilier 3 — Reporting réglementaire bancaire

Volet du cadre de Bâle III qui impose aux banques de publier des informations détaillées sur leurs risques (crédit, marché, opérationnel) pour discipliner le marché par la transparence.

RéglementationBanqueRisque
🔒Intermédiaire
Conformité RGPD

Privacy by Design

Approche qui intègre la protection de la vie privée dès la conception des systèmes et des projets data, obligatoire sous le RGPD (Article 25) et préventive par essence.

RGPDPrivacyConfidentialité
🔒Intermédiaire
Réglementation

RGPD appliqué à la Data

Règlement Général sur la Protection des Données : cadre légal européen qui encadre la collecte, le traitement et la conservation des données personnelles, avec des impacts concrets sur l'architecture data.

GouvernanceRGPDConformité
🌱Avancé
Finance Durable

Taxonomie ESG et Finance Durable

La Taxonomie européenne est un système de classification officiel qui définit quelles activités économiques sont durables, imposant aux entreprises et investisseurs de mesurer et reporter leur alignement.

ESGFinance durableSFDR
☁️

Cloud

17 concepts

🌊Avancé
AWS - Streaming

Amazon Kinesis Data Streams

Service de streaming AWS permettant d'ingérer et traiter des flux de données en temps réel à très haute échelle, compatible avec Flink et Spark Streaming.

AWSStreamingTemps réel
🏪Intermédiaire
AWS - Data Warehouse

Amazon Redshift

Data Warehouse cloud d'AWS en architecture colonnaire, permettant des analyses SQL rapides sur des pétaoctets de données structurées.

AWSData WarehouseSQL
🪣Débutant
AWS - Stockage

Amazon S3 (Simple Storage Service)

Le stockage objet d'AWS. Infinite, durable (99.999999999%), peu coûteux. Le point de départ de presque toute architecture data sur AWS.

AWSCloudStockage
🔬Avancé
AWS - Machine Learning

Amazon SageMaker

La plateforme MLOps d'AWS. Couvre tout le cycle ML : exploration (Studio), entraînement distribué, tuning automatique, déploiement d'endpoints, monitoring et MLOps.

AWSMLMLOps
🏔️Intermédiaire
IA Générative Cloud

AWS Bedrock — IA Générative sur AWS

Service AWS fully managed qui donne accès à des dizaines de LLMs de fondation (Claude, Llama, Mistral, Titan) via une API unifiée avec les contrôles sécurité AWS.

AWSLLMCloud
🔧Intermédiaire
AWS - Data Engineering

AWS Glue

Service ETL serverless d'AWS qui découvre, catalogue et transforme les données sans gérer de serveurs. Intégré nativement avec S3, Redshift, RDS et Athena.

AWSETLServerless
🏭Intermédiaire
Azure - Orchestration

Azure Data Factory (ADF)

Service d'orchestration et d'intégration de données Azure. Crée des pipelines ETL visuellement pour déplacer et transformer des données entre des centaines de sources.

AzureETLOrchestration
⚡Intermédiaire
Azure - Data Platform

Azure Synapse Analytics

La plateforme data analytics unifiée de Microsoft. Combine SQL serverless, Spark, Data Factory et Power BI dans un seul environnement.

AzureData WarehouseSpark
🧱Intermédiaire
Data Platforms

Databricks — Unified Analytics Platform

Plateforme unifiée fondée sur Apache Spark qui combine data engineering, data science, ML et BI sur un lakehouse Delta Lake, disponible sur AWS, Azure et GCP.

LakehouseSparkCloud
🎨Intermédiaire
Data Platforms

Dataiku — Plateforme collaborative de Data Science

Plateforme end-to-end pour construire, déployer et gérer des projets data et ML en équipe, avec une interface visuelle pour les non-codeurs et une API pour les experts.

PlateformeMLOpsCollaboration
🔍Intermédiaire
GCP - Data Warehouse

Google BigQuery

Le Data Warehouse serverless de Google. Fait du SQL sur des téraoctets de données en quelques secondes, sans gérer de serveurs. Facturation à la requête.

GCPData WarehouseSQL
🌊Avancé
GCP - Traitement

Google Cloud Dataflow

Service de traitement de données en flux et par batch entièrement géré sur GCP, basé sur Apache Beam. Unifie le traitement batch et streaming avec le même code.

GCPStreamingBatch
🔷Intermédiaire
ML Platforms Cloud

Google Vertex AI — ML Platform sur GCP

Plateforme ML unifiée de Google Cloud qui couvre l'entraînement, le déploiement et le monitoring de modèles ML, avec accès à Gemini et aux modèles open source.

GCPMLCloud
🪡Intermédiaire
Data Platforms

Microsoft Fabric — Analytics tout-en-un Microsoft

Plateforme analytics unifiée Microsoft qui regroupe Power BI, Azure Synapse, Data Factory et Azure ML dans une interface unique sur OneLake.

MicrosoftCloudPower BI
📊Intermédiaire
Data Platforms

SAS Viya — Analytics cloud enterprise

Plateforme analytics et ML de SAS Institute, leader historique de l'analytics enterprise, dans sa version cloud-native moderne utilisée dans les secteurs réglementés.

SASRéguléBanque
❄️Intermédiaire
Data Warehouses

Snowflake — Cloud Data Warehouse

Data warehouse cloud qui sépare le stockage du calcul, permettant de scaler indépendamment et de payer à l'usage, avec partage natif de données entre organisations.

CloudData WarehouseSQL
🏗️Avancé
DevOps Data

Terraform pour l'infrastructure data

Outil d'Infrastructure as Code (IaC) HashiCorp qui permet de définir, provisionner et versionner toute l'infrastructure cloud data (Snowflake, Databricks, Kafka, S3) en code déclaratif.

IaCTerraformDevOps
⚙️

Data Engineering

18 concepts

⚡Avancé
Streaming

Apache Flink — Stream processing temps réel

Moteur de traitement de flux distribué qui traite chaque événement individuellement avec une latence de l'ordre de la milliseconde, contrairement au micro-batching de Spark.

StreamingTemps réelFlink
🧊Avancé
Lakehouse Architecture

Apache Iceberg

Format de table ouvert pour les Data Lakes qui apporte des transactions ACID, le time travel et l'évolution de schéma, compatible avec Spark, Trino, Flink et Hive.

Data EngineeringLakehouseOpen Table Format
🏗️Intermédiaire
Architecture

Architecture Lakehouse

Architecture data qui combine la flexibilité et l'économie d'un Data Lake avec les performances ACID et les capacités analytiques d'un Data Warehouse.

LakehouseDelta LakeIceberg
🥇Intermédiaire
Architecture data

Architecture Medallion (Bronze / Silver / Gold)

Pattern d'architecture Lakehouse qui organise les données en 3 couches progressives : Bronze (brut), Silver (nettoyé) et Gold (agrégé pour la consommation).

Data EngineeringArchitectureLakehouse
📡Intermédiaire
Ingestion de données

Change Data Capture (CDC)

Technique qui capture en temps quasi-réel tous les changements (INSERT, UPDATE, DELETE) dans une base de données source et les propage vers les systèmes cibles.

Data EngineeringStreamingETL
📋Avancé
Data Governance

Data Contracts — Engagements sur les données

Convention formelle entre les producteurs et consommateurs de données qui définit le schéma, la qualité, la fraîcheur et les SLAs attendus, garantissant la fiabilité des pipelines.

Data ContractQualitéSLA
🔐Avancé
Modélisation data

Data Vault 2.0

Méthodologie de modélisation de Data Warehouse orientée audit, agilité et chargement parallèle, basée sur 3 types de tables : Hubs (entités), Links (relations) et Satellites (attributs).

Data EngineeringModélisationData Warehouse
🔧Intermédiaire
Transformation de données

dbt (Data Build Tool)

Framework de transformation de données qui permet d'écrire des transformations SQL versionables, testées et documentées directement dans le Data Warehouse.

Data EngineeringSQLELT
🧪Intermédiaire
Transformation

dbt Tests et Documentation

Fonctionnalités de dbt pour garantir la qualité des données en production via des tests automatisés et générer une documentation vivante du data warehouse.

dbtTestsDocumentation
🦆Intermédiaire
Query engines

DuckDB — Analytics sur laptop

Base de données analytique in-process qui tourne directement dans Python/R sans serveur, et lit nativement les fichiers Parquet sur S3 comme si c'était une table SQL.

AnalyticsSQLParquet
🔌Débutant
Ingestion

Fivetran — Ingestion de données clé en main

Plateforme d'ingestion automatisée EL (Extract-Load) avec plus de 500 connecteurs vers des sources SaaS et bases de données, zéro maintenance du code d'ingestion.

IngestionELConnecteurs
🏠Intermédiaire
Lakehouse Architecture

Lakehouse Architecture

Paradigme qui combine les avantages du Data Lake (stockage brut bas coût) et du Data Warehouse (ACID, performance SQL) dans une architecture unifiée.

Data EngineeringArchitectureDelta Lake
⚖️Débutant
Architecture data

OLAP vs OLTP

OLTP (Online Transaction Processing) optimise les transactions rapides et fréquentes. OLAP (Online Analytical Processing) optimise les requêtes analytiques complexes sur de grands volumes.

Data EngineeringArchitectureData Warehouse
🎼Intermédiaire
Architecture

Orchestration de pipelines data

Gestion des dépendances, de la planification et du monitoring des pipelines data pour garantir que toutes les étapes s'exécutent dans le bon ordre et en temps voulu.

OrchestrationPipelineDAG
🔄Intermédiaire
Intégration

Reverse ETL — Des données vers les outils métier

Le flux inverse de l'ETL classique : envoyer les insights calculés dans le data warehouse vers les outils opérationnels (CRM, marketing automation, support) pour activer les données.

Reverse ETLActivationCRM
🧩Intermédiaire
Architecture

Semantic Layer — La couche de sens des données

Couche d'abstraction entre les données brutes et les outils de visualisation qui centralise les définitions métier, les métriques et les règles de calcul pour garantir la cohérence.

Semantic LayerMétriquesGouvernance
⏳Intermédiaire
Modélisation data

Slowly Changing Dimension (SCD)

Technique de modélisation de Data Warehouse qui gère les changements d'attributs dans les dimensions au fil du temps, avec plusieurs stratégies (Type 1, 2, 3).

Data EngineeringModélisationData Warehouse
⭐Débutant
Modélisation data

Star Schema et Snowflake Schema

Modèles de conception de Data Warehouse : le schéma en étoile avec une table de faits centrale et des dimensions dénormalisées, le schéma en flocon avec des dimensions normalisées.

Data EngineeringModélisationData Warehouse

Un concept manque dans l'encyclopédie ?

L'encyclopédie grandit en continu. Propose un concept dans la communauté.

Proposer un concept →