Data Universe
Newsletter
AccueilOutilsApache Spark
Apache Spark logo

Apache Spark

Processing

Le moteur de traitement distribué Big Data

Tarif

Open source gratuit / Services managés payants

Open sourceFree tierAvancé

Apache Spark est le moteur de traitement distribué le plus utilisé pour le Big Data. Jusqu'à 100x plus rapide que Hadoop MapReduce grâce au traitement in-memory. Supporte batch, streaming, SQL (Spark SQL), ML (MLlib) et graph processing.

Traitement in-memory (RDD, DataFrame, Dataset)
Spark SQL
Structured Streaming
MLlib (ML distribué)
GraphX
PySpark (Python API)
Spark Connect
Delta Lake natif sur Databricks
1

Traitement batch de données massives

Spark traite des téraoctets de données structurées ou non-structurées en distribuant les calculs sur des clusters, pour des transformations ETL, des agrégations ou du feature engineering.

2

Machine Learning distribué avec MLlib

La bibliothèque MLlib de Spark permet d'entraîner des modèles de classification, régression et clustering sur des datasets trop volumineux pour tenir en mémoire sur une seule machine.

3

Analyse de graphes avec GraphX

Spark GraphX est utilisé pour analyser des réseaux sociaux, des graphes de transactions ou des recommandations de type item-based sur des millions de noeuds et d'arêtes.

4

Streaming structuré en quasi-temps réel

Spark Structured Streaming traite des flux Kafka ou Kinesis en micro-batches pour des agrégations en fenêtres glissantes, avec une API identique au batch pour réduire la complexité.

✓ Points forts

+Performances exceptionnelles sur les gros volumes
+Polyvalent (batch, streaming, ML, SQL)
+APIs Python/Scala/Java/R
+Écosystème très riche
+Standard Big Data mondial

✗ Limites

Complexe à configurer et optimiser
Coût infra élevé si mal dimensionné
Debugging des jobs distribués difficile
Overkill pour les petits volumes

✓ Fait pour vous si…

Traitement de données à grande échelle (>100 Go), pipelines ML distribués, transformations complexes.

✗ Pas fait pour vous si…

Petits datasets (Pandas suffit), latence ultra-faible, équipes sans expertise distributed computing.

🎓 Databricks Certified Associate Developer for Apache Spark

Associé

Databricks

Voir la certification →

🎓 Databricks Certified Apache Spark Developer – Professional

Professionnel

Databricks

Voir la certification →

Apache Spark with Python — PySpark

MOOC

Udemy

~15€

Introduction to PySpark

MOOC

DataCamp

~50€/mois

Big Data Analysis with Apache Spark

MOOC

Coursera / UC Berkeley

Gratuit (audit)
open-sourcebig-dataprocessingml