Framework de traitement distribué open source qui a révolutionné le big data en remplaçant Hadoop MapReduce grâce à son traitement en mémoire (in-memory computing), jusqu'à 100x plus rapide. Il supporte nativement le batch, le streaming (Structured Streaming), le SQL (Spark SQL), le ML (MLlib) et les graphes (GraphX) dans un seul cadre unifié. Son modèle de programmation basé sur les RDDs puis DataFrames/Datasets permet d'exprimer des transformations complexes de façon déclarative. Spark est le moteur sous-jacent de Databricks et est disponible via des services managés sur les trois grands clouds.