Apache Spark est le moteur de traitement distribué le plus utilisé pour le Big Data. Jusqu'à 100x plus rapide que Hadoop MapReduce grâce au traitement in-memory. Supporte batch, streaming, SQL (Spark SQL), ML (MLlib) et graph processing.
Traitement batch de données massives
Spark traite des téraoctets de données structurées ou non-structurées en distribuant les calculs sur des clusters, pour des transformations ETL, des agrégations ou du feature engineering.
Machine Learning distribué avec MLlib
La bibliothèque MLlib de Spark permet d'entraîner des modèles de classification, régression et clustering sur des datasets trop volumineux pour tenir en mémoire sur une seule machine.
Analyse de graphes avec GraphX
Spark GraphX est utilisé pour analyser des réseaux sociaux, des graphes de transactions ou des recommandations de type item-based sur des millions de noeuds et d'arêtes.
Streaming structuré en quasi-temps réel
Spark Structured Streaming traite des flux Kafka ou Kinesis en micro-batches pour des agrégations en fenêtres glissantes, avec une API identique au batch pour réduire la complexité.
✓ Points forts
✗ Limites
✓ Fait pour vous si…
Traitement de données à grande échelle (>100 Go), pipelines ML distribués, transformations complexes.
✗ Pas fait pour vous si…
Petits datasets (Pandas suffit), latence ultra-faible, équipes sans expertise distributed computing.
🎓 Databricks Certified Apache Spark Developer – Professional
ProfessionnelDatabricks
Voir la certification →Apache Spark with Python — PySpark
MOOCUdemy
Introduction to PySpark
MOOCDataCamp
Big Data Analysis with Apache Spark
MOOCCoursera / UC Berkeley