Tous les concepts data expliqués simplement

RetailAssociationCross-sell

Analytics Retail

Analyse du panier — Market Basket Analysis

Technique qui identifie les associations entre produits achetés ensemble pour optimiser le merchandising, le cross-selling et les recommandations.

GéospatialCartographieRetail

Analytics Avancé

Analytique géospatiale

Analyse de données enrichies de coordonnées géographiques pour identifier des patterns spatiaux, optimiser la logistique et personnaliser les services par zone.

Data EngineeringOrchestrationPipelines

Analytics Avancé

Analytique temps réel

Architecture et techniques pour analyser et visualiser des données avec une latence de quelques secondes, permettant des décisions opérationnelles immédiates.

StreamingTemps réelBI

🚂Intermédiaire

Orchestration

Apache Airflow — Orchestration de pipelines

Plateforme d'orchestration qui permet de définir, planifier et monitorer des pipelines de données sous forme de graphes acycliques dirigés (DAGs) en Python.

⚡Avancé

Streaming & Messagerie

Apache Kafka

Plateforme de streaming distribué qui permet de publier, stocker et consommer des flux de données en temps réel à très haute échelle.

Data EngineeringStreamingEvent-Driven

⚡Intermédiaire

Traitement distribué

Apache Spark

Moteur de calcul distribué qui traite des données à grande échelle (téraoctets) en parallèle sur un cluster, 100x plus vite que Hadoop MapReduce.

Data EngineeringBig DataDistribué

💰Intermédiaire

Marketing Analytics

Customer Lifetime Value (CLV / LTV)

Valeur économique totale qu'un client va générer tout au long de sa relation avec l'entreprise. Métrique fondamentale pour arbitrer les investissements marketing et CRM.

MarketingAnalyticsCRM

🔄Intermédiaire

Lakehouse Architecture

Delta Lake

Couche de stockage open-source qui apporte les transactions ACID (fiabilité des bases relationnelles) aux fichiers Parquet du Data Lake.

Data EngineeringLakehouseACID

🔄Débutant

Data Engineering

ETL vs ELT — Architecture data

ETL (Extract-Transform-Load) transforme les données avant chargement. ELT (Extract-Load-Transform) les charge d'abord, puis transforme directement dans l'entrepôt de données.

Data EngineeringArchitecturedbt

🔍Intermédiaire

Préparation des données

Feature Engineering

L'art de créer de nouvelles variables à partir des données brutes pour améliorer les performances des modèles ML. Souvent plus impactant que le choix de l'algorithme.

MLData PreparationPreprocessing

AttributionMarketingAnalytics

IoT & Industrie

Maintenance prédictive

Utilisation du ML sur les données de capteurs IoT pour prédire les pannes d'équipements avant qu'elles ne surviennent et optimiser les interventions de maintenance.

IoTIndustriePrédiction

🔀Intermédiaire

Marketing Analytics

Modélisation d'attribution marketing

Méthode qui détermine quelle part du crédit d'une conversion accorder à chaque point de contact du parcours client (pub Facebook, email, SEO, TV...).

⚙️Avancé

Analytics Avancé

Optimisation dynamique des prix

Utilisation du ML pour ajuster automatiquement les prix en temps réel en fonction de la demande, de la concurrence, des stocks et du profil client.

PricingRevenue ManagementOptimisation

📱Intermédiaire

Analytics Produit

Product Analytics — Comprendre le comportement utilisateur

Analyse quantitative du comportement des utilisateurs dans un produit numérique pour prendre des décisions data-driven sur les fonctionnalités, l'UX et la croissance.

ProductComportementOnboarding

Recherche Sémantique

Moteur de recherche qui comprend le sens de la requête plutôt que les mots-clés exacts, en comparant les embeddings vectoriels de la requête et des documents.

NLPVector SearchRAG

RHPeople AnalyticsAttrition

Analytics RH

RH Analytics — Data-driven People Management

Application des techniques d'analytics et de ML aux données RH pour améliorer le recrutement, la rétention des talents, la performance et la planification des effectifs.

📊Débutant

Decision Analytics

Scoring (Score décisionnel)

Technique qui attribue un score numérique à une entité (client, transaction, prospect) pour prioriser les actions ou prendre une décision automatique.

AnalyticsMLDécisionnel

🎯Débutant

Marketing Analytics

Segmentation RFM

Méthode de segmentation client basée sur 3 dimensions : Récence (quand a-t-on acheté pour la dernière fois ?), Fréquence (combien de fois ?) et Montant (combien dépensé ?).

MarketingSegmentationCRM

Supply ChainStocksLogistique

Analytics Opérationnel

Supply Chain Analytics

Application des données et du ML à l'optimisation de la chaîne d'approvisionnement : prévision de la demande, gestion des stocks, optimisation logistique et détection des risques fournisseurs.

TF-IDF — Pondération de termes textuels

Méthode de représentation de texte qui attribue un poids à chaque mot en fonction de sa fréquence dans un document et de sa rareté dans la collection complète.

NLPTexteRecherche

🌐Intermédiaire

Collecte de données

Web Scraping

Technique pour extraire automatiquement des données de sites web. Transforme des pages HTML en données structurées exploitables.

Data CollectionPythonETL

🧩Intermédiaire

Apprentissage non supervisé

Word2Vec et Embeddings de mots

Technique qui représente chaque mot par un vecteur numérique dense, capturant les relations sémantiques : des mots similaires ont des vecteurs proches.

NLPEmbeddingsSémantique

🤖

Machine Learning

55 concepts

🔭Intermédiaire

ACP / PCA (Analyse en Composantes Principales)

Technique de réduction de dimension qui compresse des centaines de variables en quelques composantes, en gardant le maximum d'information.

MLNon superviséRéduction de dimension

Agent IA — Intelligence artificielle autonome

Système IA qui utilise un LLM comme cerveau pour planifier et exécuter des séquences d'actions complexes de façon autonome, en utilisant des outils externes.

AgentLLMAutonome

💬Intermédiaire

NLPSentimentClassification

Analyse de sentiment (NLP)

Technique de NLP qui identifie automatiquement l'opinion exprimée dans un texte : positive, négative ou neutre.

🤖Débutant

Arbre de décision

Modèle qui prend des décisions par une série de questions oui/non, comme un jeu de 20 questions. Très lisible et explicable.

🤖Débutant

Automatisation ML

AutoML (Machine Learning Automatisé)

Technologies qui automatisent la sélection du modèle ML, le tuning des hyperparamètres et le feature engineering pour rendre le ML accessible sans expertise approfondie.

MLAutoMLNo-code

🗄️Intermédiaire

Vector SearchEmbeddingsRAG

Base de données vectorielle

Base de données spécialisée dans le stockage et la recherche par similarité de vecteurs numériques représentant des textes, images ou sons.

💡Avancé

NLPDeep LearningEmbeddings

BERT — Représentations bidirectionnelles

Modèle NLP pré-entraîné de Google qui comprend le contexte bidirectionnel des phrases. La base de la plupart des systèmes de compréhension de texte modernes.

🏷️Intermédiaire

MLClassificationMulti-label

Classification multi-label

Problème de classification où un exemple peut appartenir à plusieurs classes simultanément, contrairement à la classification binaire ou multi-classe classique.

MLIncertitudeStatistiques

Évaluation ML

Conformal Prediction

Framework statistique qui produit des intervalles de prédiction avec des garanties de couverture théoriques, contrairement aux modèles classiques qui donnent une prédiction ponctuelle sans incertitude fiable.

🚨Avancé

Détection d'objets — YOLO et Vision par ordinateur

Systèmes de vision par ordinateur qui localisent et classifient en temps réel tous les objets dans une image ou une vidéo via des boîtes englobantes.

VisionYOLODeep Learning

MLOptimisationDeep Learning

Optimisation ML

Descente de gradient

Algorithme d'optimisation fondamental qui ajuste itérativement les paramètres d'un modèle pour minimiser l'erreur, en suivant la pente de la fonction de perte.

🔍Avancé

MLOps

Feature Store

Référentiel centralisé pour stocker, calculer, versioner et servir des features ML, garantissant la cohérence entre l'entraînement et la production.

MLOpsMLFeature Engineering

💡Avancé

Fine-tuning de LLM

Technique d'adaptation d'un LLM pré-entraîné à une tâche ou un domaine spécifique en le réentraînant sur un dataset ciblé, pour un coût bien inférieur à l'entraînement from scratch.

LLMDeep LearningLoRA

⚙️Avancé

Fine-tuning efficace — LoRA et QLoRA

Techniques d'adaptation d'un LLM à un domaine spécifique en n'entraînant qu'une fraction des paramètres, rendant le fine-tuning accessible sur GPU standard.

LLMFine-tuningLoRA

💡Intermédiaire

LLMFunction CallingTool Use

Function Calling et Tool Use (LLM)

Capacité des LLMs à appeler des fonctions ou APIs externes en produisant une sortie JSON structurée, permettant de connecter l'IA à des systèmes réels.

🏭Avancé

Techniques avancées

Génération de données synthétiques

Création de données artificielles qui préservent les propriétés statistiques des données réelles, pour contourner les problèmes de confidentialité, de rareté ou de déséquilibre.

SynthétiqueRGPDGénération

🧠Avancé

Deep LearningGraphesFraud Detection

Graph Neural Networks (GNN)

Famille de réseaux de neurones conçus pour traiter des données structurées en graphe (nuds, arêtes), capturant les relations entre entités interconnectées.

Optimisation ML

Hyperparameter Tuning — Optuna et Bayesian Optimization

Techniques automatisées pour trouver les meilleurs hyperparamètres d'un modèle ML, remplaçant la grid search par des méthodes intelligentes qui apprennent des essais précédents.

MLOptimisationAutoML

Deep LearningLLMComputer Vision

IA Multimodale

Systèmes d'IA capables de traiter et raisonner sur plusieurs types de données simultanément : texte, images, audio, vidéo et données structurées.

CausalitéInférenceExpérimentation

Techniques avancées

Inférence causale

Méthodes statistiques qui permettent de mesurer l'effet causal d'une action (campagne, feature, politique) et non juste une corrélation.

🚨Intermédiaire

Détection d'anomalies

Isolation Forest

Algorithme de détection d'anomalies qui isole les points aberrants en construisant des arbres aléatoires les anomalies sont plus faciles à isoler car elles sont rares et différentes.

MLNon superviséAnomalies

🔵Débutant

Apprentissage non supervisé

K-Means (Clustering)

Algorithme qui groupe automatiquement des données similaires en K groupes (clusters), sans labels préalables. La base de la segmentation client.

MLNon superviséClustering

🌐Débutant

K-Nearest Neighbors (KNN)

Algorithme paresseux qui prédit en cherchant les K exemples les plus proches dans les données d'entraînement et vote à la majorité.

Représentation des données

Knowledge Graph — Graphes de connaissances

Représentation structurée des connaissances sous forme de graphe d'entités et de relations, permettant la recherche sémantique, la découverte d'insights et l'enrichissement des données.

GrapheKnowledge GraphEntités

🚀Intermédiaire

MLGradient BoostingRapide

LightGBM — Gradient Boosting rapide

Variante ultra-rapide du gradient boosting (Microsoft) qui construit les arbres par feuilles plutôt que par niveaux, idéale pour les grands datasets.

💡Intermédiaire

LLMs open source — Llama, Mistral et alternatives

Modèles de langage grands ouverts (Llama, Mistral, Qwen, Gemma) qui peuvent être téléchargés, exécutés et fine-tunés localement, sans dépendance aux APIs propriétaires.

LLMOpen SourceLlama

🧠Avancé

Deep LearningTransformersNLP

Mécanisme d'Attention

Composant clé des Transformers qui permet au modèle de pondérer dynamiquement l'importance de chaque élément d'une séquence par rapport aux autres lors du traitement.

MLOps

MLflow — Gestion du cycle de vie ML

Plateforme open-source de gestion du cycle de vie ML : tracking des expériences, packaging des modèles, registre de modèles et déploiement.

MLOpsMLTracking

MLOps

Model Drift et Data Drift

Phénomène par lequel la performance d'un modèle ML se dégrade en production parce que les données réelles ont changé par rapport aux données d'entraînement.

MLOpsMLProduction

NER — Extraction d'entités nommées

Technique NLP qui identifie et classifie automatiquement les entités nommées dans un texte : personnes, organisations, lieux, dates, montants.

NLPNERExtraction

💡Avancé

LLMObservabilitéProduction

Observabilité des LLMs en production

Surveillance des systèmes basés sur des LLMs pour détecter les dégradations de performance, les hallucinations, les dérapages et les coûts excessifs en production.

🚪Intermédiaire

Prédiction du churn

Modèle ML qui identifie les clients sur le point de partir avant qu'ils ne le fassent, pour permettre des actions de rétention ciblées.

MLChurnRétention

📈Intermédiaire

Séries temporellesPrévisionProphet

Prévision avancée de séries temporelles

Comparaison des approches modernes pour prévoir des valeurs futures : Prophet, N-BEATS, TFT et modèles de fondation temporels (TimesFM, Chronos).

Prompt Engineering

L'art de formuler des instructions précises pour guider un LLM vers la sortie désirée, en utilisant des techniques comme le few-shot, chain-of-thought ou le role prompting.

LLMIA GénérativeGPT

📉Débutant

Régression linéaire

Le modèle ML le plus simple pour prédire une valeur numérique continue en trouvant la droite qui passe le mieux à travers les données.

MLSuperviséPrédiction

📈Débutant

Régression logistique

Algorithme de classification qui prédit la probabilité qu'un exemple appartienne à une catégorie (oui/non, spam/pas spam, fraude/légitime).

🧠Intermédiaire

Deep LearningNeural NetworkIA

Réseaux de neurones (Deep Learning)

Modèles inspirés du cerveau humain, composés de couches de neurones interconnectés. La base de l'IA moderne : images, texte, audio.

🔗Avancé

RAG — Retrieval-Augmented Generation

Architecture qui augmente un LLM en lui donnant accès à une base documentaire externe au moment de la génération, pour réduire les hallucinations et ancrer les réponses dans des faits.

LLMIA GénérativeNLP

🔗Avancé

RAG avancé — Architectures et optimisations

Techniques avancées pour optimiser la précision des systèmes RAG : re-ranking, HyDE, chunking avancé, et RAG hybride dense+sparse.

RAGLLMRetrieval

🌲Intermédiaire

Random Forest (Forêt aléatoire)

Ensemble de centaines d'arbres de décision, chacun entraîné sur des données légèrement différentes. La décision finale est un vote majoritaire. Robuste et difficile à battre.

MLSuperviséEnsemble

🎮Avancé

Reinforcement Learning (Apprentissage par renforcement)

Paradigme d'apprentissage où un agent apprend en interagissant avec un environnement, en recevant des récompenses (ou pénalités) pour ses actions, sans données labellisées.

MLDeep LearningIA

🏷️Intermédiaire

Évaluation ML

ROC-AUC — 0valuation des modèles de classification

Métrique d'évaluation qui mesure la capacité d'un modèle à distinguer les classes positives des négatives, indépendamment du seuil de décision choisi.

MLÉvaluationMétriques

🔁Intermédiaire

Prévision

Séries temporelles (ARIMA, Prophet, LSTM)

Famille de méthodes pour modéliser et prévoir des données ordonnées dans le temps, en capturant tendances, saisonnalités et cycles.

MLPrévisionTime Series

MLExplainabilitéIA Responsable

Scoring de propension

Modèle ML qui attribue à chaque individu une probabilité de réaliser un comportement cible : acheter un produit, répondre à une offre, s'abonner, faire défaut.

ScoringMarketingCiblage

🔭Intermédiaire

Explainabilité IA

SHAP — Explainabilité des modèles ML

Framework d'explainabilité qui quantifie la contribution de chaque variable à une prédiction individuelle, basé sur la théorie des jeux de Shapley.

🤖Débutant

Concepts ML fondamentaux

Surapprentissage & Sous-apprentissage

Le surapprentissage (overfitting) se produit quand un modèle mémorise les données d'entraînement sans généraliser. Le sous-apprentissage (underfitting) quand il est trop simple pour capturer les patterns.

MLConcepts fondamentauxDiagnostics

📐Intermédiaire

SVM (Support Vector Machine)

Algorithme qui trouve la frontière optimale entre des classes en maximisant la marge entre les points les plus proches de chaque groupe.

Apprentissage non supervisé

⭐Intermédiaire

Système de recommandation

Algorithme qui prédit ce qu'un utilisateur aimerait voir ou acheter ensuite, en se basant sur ses comportements passés et la similarité avec d'autres utilisateurs.

MLRecommandationCollaboratif

💬Intermédiaire

Text-to-SQL — Requêtes en langage naturel

Application des LLMs pour convertir des questions en langage naturel en requêtes SQL exécutables, permettant aux non-techniciens d'interroger leurs données.

LLMSQLNLP

🎯Avancé

Deep LearningNLPComputer Vision

Transfer Learning (Apprentissage par transfert)

Technique qui réutilise un modèle pré-entraîné sur une grande tâche générale pour l'adapter rapidement à une tâche spécifique avec peu de données.

🧠Avancé

Transformers et LLMs

L'architecture qui a révolutionné le NLP et propulsé ChatGPT. Les Transformers comprennent le contexte d'une phrase en regardant tous les mots en même temps.

Deep LearningNLPLLM

Techniques avancées

Uplift Modeling

Modélisation de l'effet incrémental d'une action sur chaque individu, pour cibler uniquement les clients qui agiront GRCE à l'intervention (ni ceux qui le feraient de toute façon, ni ceux que l'on ferait fuir).

UpliftMarketingCausalité

⚖️Intermédiaire

Évaluation ML

Validation croisée (Cross-validation)

Technique d'évaluation qui divise le dataset en plusieurs sous-ensembles pour entraîner et tester le modèle plusieurs fois, donnant une estimation plus fiable des performances réelles.

MLÉvaluationValidation

🚀Intermédiaire

XGBoost / Gradient Boosting

L'algorithme qui gagne la majorité des compétitions ML sur données tabulaires. Construit des arbres en séquence, chacun corrigeant les erreurs du précédent.

MLSuperviséEnsemble

RéglementationIAConformité

Zero-shot et Few-shot Learning

Capacité des grands modèles de langage à réaliser une tâche sans (zero-shot) ou avec très peu d'exemples (few-shot), sans réentraînement du modèle.

LLMZero-shotFew-shot

🏛️

Gouvernance & Qualité

28 concepts

⚖️Intermédiaire

Conformité

AI Act européen — Réglementation de l'IA

Premier cadre légal mondial sur l'intelligence artificielle, adopté par l'UE en 2024, qui classe les systèmes IA selon leur niveau de risque et impose des obligations proportionnées.

RéglementationBanqueRisque

BCBS 239 — Agrégation des données de risque bancaire

Norme réglementaire du Comité de Bâle qui exige que les banques systémiques puissent agréger leurs données de risque de façon précise, rapide et automatisée.

🏛️Intermédiaire

Éthique IA

Biais algorithmique et fairness

Erreurs systématiques dans les décisions d'un algorithme qui produisent des résultats injustes envers certains groupes, souvent hérités des données historiques biaisées.

BiaisFairnessÉthique

📋Intermédiaire

GouvernanceData MeshQualité

Data Contract

Accord formel entre le producteur de données et ses consommateurs qui définit le schéma, la qualité attendue, la fréquence de mise à jour et les responsabilités.

🏛️Intermédiaire

GouvernanceRGPDConformité

Data Gouvernance

L'ensemble des règles, processus et responsabilités qui garantissent que les données d'une organisation sont fiables, sécurisées et utilisées de façon éthique et conforme.

🔗Intermédiaire

GouvernanceAuditData Quality

Data Lineage (Lignage de données)

La capacité à tracer le parcours d'une donnée de sa source jusqu'à son utilisation finale, en passant par toutes les transformations intermédiaires.

🕸️Avancé

Architecture Data

Data Mesh

Paradigme architectural qui décentralise la propriété des données : chaque domaine métier est responsable de ses propres données et les expose comme des « produits données ».

ArchitectureGouvernanceOrganisation

✅Intermédiaire

Data Quality

Data Quality et Great Expectations

La qualité des données désigne leur aptitude à être utilisées. Great Expectations est le framework Python de référence pour définir, tester et documenter des règles de qualité comme des tests automatisés.

Data QualityTestsGouvernance

🗄️Débutant

Organisation data

Data Stewardship — Gardiens des données

Rôle organisationnel qui assure au quotidien la qualité, la définition et la conformité des données dans un domaine métier, faisant le lien entre les équipes techniques et les métiers.

GouvernanceOrganisationData Catalog

GouvernanceData EngineeringCI/CD

Organisation data

DataOps

Pratiques qui appliquent les principes DevOps (CI/CD, automatisation, collaboration) aux pipelines de données pour accélérer les livraisons et améliorer la qualité.

🌍Intermédiaire

Finance durable

Données ESG et reporting de durabilité

Collecte, traitement et reporting des données environnementales, sociales et de gouvernance pour répondre aux exigences réglementaires (CSRD, SFDR, Taxonomie UE) et aux attentes des investisseurs.

ESGCSRDCarbone

🌱Intermédiaire

Finance Durable

Données ESG et Taxonomie européenne

Cadre réglementaire européen qui définit quelles activités économiques sont 'durables' et impose aux entreprises et investisseurs de reporter leur performance environnementale, sociale et de gouvernance.

ESGFinance durableSFDR

🏛️Intermédiaire

Éthique IA

IA Responsable (Responsible AI)

Ensemble de principes, pratiques et techniques pour concevoir des systèmes IA qui sont équitables, transparents, explicables, robustes et respectueux de la vie privée.

GouvernanceÉthiqueIA

GouvernanceMDMQualité des données

Master Data Management (MDM)

Discipline qui consiste à créer et maintenir une version unique, fiable et partagée des données de référence d'une entreprise (clients, produits, fournisseurs, employés).

📡Avancé

Data Quality

Monte Carlo — Observabilité des données

Plateforme d'observabilité des données qui monitore automatiquement la fraîcheur, le volume, la distribution et le schéma des tables pour détecter les incidents data avant que les utilisateurs ne les signalent.

Data QualityObservabilitéMLOps

🏛️Avancé

RéglementationBanqueRisque

Pilier 3 — Reporting réglementaire bancaire

Volet du cadre de Bâle III qui impose aux banques de publier des informations détaillées sur leurs risques (crédit, marché, opérationnel) pour discipliner le marché par la transparence.

🛡️Intermédiaire

Conformité RGPD

Privacy by Design

Approche qui intègre la protection de la vie privée dès la conception des systèmes et des projets data, obligatoire sous le RGPD (Article 25) et préventive par essence.

RGPDPrivacyConfidentialité

🔒Intermédiaire

GouvernanceRGPDConformité

RGPD appliqué à la Data

Règlement Général sur la Protection des Données : cadre légal européen qui encadre la collecte, le traitement et la conservation des données personnelles, avec des impacts concrets sur l'architecture data.

🌱Avancé

Finance Durable

Taxonomie ESG et Finance Durable

La Taxonomie européenne est un système de classification officiel qui définit quelles activités économiques sont durables, imposant aux entreprises et investisseurs de mesurer et reporter leur alignement.

ESGFinance durableSFDR

🛡️Intermédiaire

RéglementationUEPlateformes

DSA — Digital Services Act

Règlement européen qui impose aux plateformes numériques des obligations de modération des contenus illicites, de transparence algorithmique et d'accès aux données pour les chercheurs.

⚡Intermédiaire

RéglementationUEGatekeeper

DMA — Digital Markets Act

Règlement européen qui impose aux gatekeepers (Google, Apple, Meta, Amazon, Microsoft, ByteDance) des obligations d'interopérabilité et d'accès aux données pour les concurrents.

🔐Intermédiaire

RéglementationUECybersécurité

NIS2 — Directive Cybersécurité UE

Directive européenne sur la sécurité des réseaux et systèmes d'information. Élargit le périmètre de NIS1 à 18 secteurs critiques et impose des obligations de signalement d'incidents sous 24h.

🏗️Avancé

RéglementationFinanceCybersécurité

DORA — Résilience opérationnelle numérique (finance)

Règlement européen en vigueur depuis janvier 2025 qui impose au secteur financier (banques, assurances, prestataires de services d'investissement) des exigences strictes de résilience numérique et de gestion des risques ICT tiers.

🔄Intermédiaire

Data Act UE — Partage des données connectées

Règlement européen (applicable sept. 2025) qui définit les droits d'accès et de partage des données générées par les objets connectés (IoT) et les services associés, avec des obligations de portabilité B2C, B2B et B2G.

RéglementationUEIoT

🌍Intermédiaire

RéglementationESGDurabilité

CSRD — Reporting de durabilité des entreprises

Directive européenne qui étend et standardise le reporting extra-financier (ESG) selon les normes ESRS. Remplace la NFRD et couvre toutes les grandes entreprises et PME cotées de l'UE dès 2025-2026.

🏥Avancé

RéglementationSantéFrance

HDS — Hébergement de Données de Santé (France)

Certification française obligatoire pour tout prestataire qui héberge des données de santé à caractère personnel pour le compte d'établissements ou professionnels de santé. Délivrée par l'ANS.

🩺Avancé

EHDS — Espace Européen des Données de Santé

Règlement européen (adopté 2025) qui crée un cadre pour l'accès et le partage des données de santé à l'échelle de l'UE, distinguant usage primaire (soins) et secondaire (recherche, IA médicale, politiques publiques).

RéglementationUESanté

🗽Intermédiaire

RéglementationUSACalifornie

CCPA / CPRA — Loi californienne sur la vie privée

California Consumer Privacy Act (CCPA, 2020) et son extension CPRA (2023) : droits étendus des résidents californiens sur leurs données personnelles. S'applique aux entreprises françaises qui traitent des données de clients californiens.

☁️

Cloud

17 concepts

☁️Avancé

AWS - Streaming

Amazon Kinesis Data Streams

Service de streaming AWS permettant d'ingérer et traiter des flux de données en temps réel à très haute échelle, compatible avec Flink et Spark Streaming.

AWSStreamingTemps réel

AWS - Data Warehouse

Amazon Redshift

Data Warehouse cloud d'AWS en architecture colonnaire, permettant des analyses SQL rapides sur des pétaoctets de données structurées.

AWSData WarehouseSQL

🔗Débutant

AWS - Stockage

Amazon S3 (Simple Storage Service)

Le stockage objet d'AWS. Infinite, durable (99.999999999%), peu coûteux. Le point de départ de presque toute architecture data sur AWS.

AWSCloudStockage

☁️Avancé

AWS - Machine Learning

Amazon SageMaker

La plateforme MLOps d'AWS. Couvre tout le cycle ML : exploration (Studio), entraînement distribué, tuning automatique, déploiement d'endpoints, monitoring et MLOps.

AWSMLMLOps

IA Générative Cloud

AWS Bedrock — IA Générative sur AWS

Service AWS fully managed qui donne accès à des dizaines de LLMs de fondation (Claude, Llama, Mistral, Titan) via une API unifiée avec les contrôles sécurité AWS.

AWSLLMCloud

AWS - Data Engineering

AWS Glue

Service ETL serverless d'AWS qui découvre, catalogue et transforme les données sans gérer de serveurs. Intégré nativement avec S3, Redshift, RDS et Athena.

AWSETLServerless

🔷Intermédiaire

Azure - Orchestration

Azure Data Factory (ADF)

Service d'orchestration et d'intégration de données Azure. Crée des pipelines ETL visuellement pour déplacer et transformer des données entre des centaines de sources.

AzureETLOrchestration

🔷Intermédiaire

Azure - Data Platform

Azure Synapse Analytics

La plateforme data analytics unifiée de Microsoft. Combine SQL serverless, Spark, Data Factory et Power BI dans un seul environnement.

AzureData WarehouseSpark

🔥Intermédiaire

Databricks — Unified Analytics Platform

Plateforme unifiée fondée sur Apache Spark qui combine data engineering, data science, ML et BI sur un lakehouse Delta Lake, disponible sur AWS, Azure et GCP.

LakehouseSparkCloud

PlateformeMLOpsCollaboration

Dataiku — Plateforme collaborative de Data Science

Plateforme end-to-end pour construire, déployer et gérer des projets data et ML en équipe, avec une interface visuelle pour les non-codeurs et une API pour les experts.

GCP - Data Warehouse

Google BigQuery

Le Data Warehouse serverless de Google. Fait du SQL sur des téraoctets de données en quelques secondes, sans gérer de serveurs. Facturation à la requête.

GCPData WarehouseSQL

🌐Avancé

GCP - Traitement

Google Cloud Dataflow

Service de traitement de données en flux et par batch entièrement géré sur GCP, basé sur Apache Beam. Unifie le traitement batch et streaming avec le même code.

GCPStreamingBatch

ML Platforms Cloud

Google Vertex AI — ML Platform sur GCP

Plateforme ML unifiée de Google Cloud qui couvre l'entraînement, le déploiement et le monitoring de modèles ML, avec accès à Gemini et aux modèles open source.

GCPMLCloud

Microsoft Fabric — Analytics tout-en-un Microsoft

Plateforme analytics unifiée Microsoft qui regroupe Power BI, Azure Synapse, Data Factory et Azure ML dans une interface unique sur OneLake.

MicrosoftCloudPower BI

SAS Viya — Analytics cloud enterprise

Plateforme analytics et ML de SAS Institute, leader historique de l'analytics enterprise, dans sa version cloud-native moderne utilisée dans les secteurs réglementés.

SASRéguléBanque

❄️Intermédiaire

Data Warehouses

Snowflake — Cloud Data Warehouse

Data warehouse cloud qui sépare le stockage du calcul, permettant de scaler indépendamment et de payer à l'usage, avec partage natif de données entre organisations.

CloudData WarehouseSQL

Data EngineeringLakehouseOpen Table Format

DevOps Data

Terraform pour l'infrastructure data

Outil d'Infrastructure as Code (IaC) HashiCorp qui permet de définir, provisionner et versionner toute l'infrastructure cloud data (Snowflake, Databricks, Kafka, S3) en code déclaratif.

IaCTerraformDevOps

⚙️

Data Engineering

18 concepts

⚡Avancé

Streaming

Apache Flink — Stream processing temps réel

Moteur de traitement de flux distribué qui traite chaque événement individuellement avec une latence de l'ordre de la milliseconde, contrairement au micro-batching de Spark.

StreamingTemps réelFlink

🧊Avancé

Lakehouse Architecture

Apache Iceberg

Format de table ouvert pour les Data Lakes qui apporte des transactions ACID, le time travel et l'évolution de schéma, compatible avec Spark, Trino, Flink et Hive.

🏠Intermédiaire

Architecture

Architecture Lakehouse

Architecture data qui combine la flexibilité et l'économie d'un Data Lake avec les performances ACID et les capacités analytiques d'un Data Warehouse.

LakehouseDelta LakeIceberg

🔍Intermédiaire

Architecture data

Architecture Medallion (Bronze / Silver / Gold)

Pattern d'architecture Lakehouse qui organise les données en 3 couches progressives : Bronze (brut), Silver (nettoyé) et Gold (agrégé pour la consommation).

Data EngineeringArchitectureLakehouse

🔧Intermédiaire

Ingestion de données

Change Data Capture (CDC)

Technique qui capture en temps quasi-réel tous les changements (INSERT, UPDATE, DELETE) dans une base de données source et les propage vers les systèmes cibles.

Data EngineeringStreamingETL

Data EngineeringModélisationData Warehouse

Data Governance

Data Contracts — Engagements sur les données

Convention formelle entre les producteurs et consommateurs de données qui définit le schéma, la qualité, la fraîcheur et les SLAs attendus, garantissant la fiabilité des pipelines.

Data ContractQualitéSLA

🔧Avancé

Modélisation data

Data Vault 2.0

Méthodologie de modélisation de Data Warehouse orientée audit, agilité et chargement parallèle, basée sur 3 types de tables : Hubs (entités), Links (relations) et Satellites (attributs).

Transformation de données

dbt (Data Build Tool)

Framework de transformation de données qui permet d'écrire des transformations SQL versionables, testées et documentées directement dans le Data Warehouse.

Data EngineeringSQLELT

Transformation

dbt Tests et Documentation

Fonctionnalités de dbt pour garantir la qualité des données en production via des tests automatisés et générer une documentation vivante du data warehouse.

dbtTestsDocumentation

Data EngineeringArchitectureDelta Lake

Query engines

DuckDB — Analytics sur laptop

Base de données analytique in-process qui tourne directement dans Python/R sans serveur, et lit nativement les fichiers Parquet sur S3 comme si c'était une table SQL.

AnalyticsSQLParquet

📥Débutant

Ingestion

Fivetran — Ingestion de données clé en main

Plateforme d'ingestion automatisée EL (Extract-Load) avec plus de 500 connecteurs vers des sources SaaS et bases de données, zéro maintenance du code d'ingestion.

IngestionELConnecteurs

🏠Intermédiaire

Lakehouse Architecture

Paradigme qui combine les avantages du Data Lake (stockage brut bas coût) et du Data Warehouse (ACID, performance SQL) dans une architecture unifiée.

🔧Débutant

Architecture data

OLAP vs OLTP

OLTP (Online Transaction Processing) optimise les transactions rapides et fréquentes. OLAP (Online Analytical Processing) optimise les requêtes analytiques complexes sur de grands volumes.

Data EngineeringArchitectureData Warehouse

🚂Intermédiaire

Architecture

Orchestration de pipelines data

Gestion des dépendances, de la planification et du monitoring des pipelines data pour garantir que toutes les étapes s'exécutent dans le bon ordre et en temps voulu.

OrchestrationPipelineDAG

🔄Intermédiaire

Intégration

Reverse ETL — Des données vers les outils métier

Le flux inverse de l'ETL classique : envoyer les insights calculés dans le data warehouse vers les outils opérationnels (CRM, marketing automation, support) pour activer les données.

Reverse ETLActivationCRM