Apache Spark

Définition

Framework de traitement distribué open source qui a révolutionné le big data en remplaçant Hadoop MapReduce grâce à son traitement en mémoire (in-memory computing), jusqu'à 100x plus rapide. Il supporte nativement le batch, le streaming (Structured Streaming), le SQL (Spark SQL), le ML (MLlib) et les graphes (GraphX) dans un seul cadre unifié. Son modèle de programmation basé sur les RDDs puis DataFrames/Datasets permet d'exprimer des transformations complexes de façon déclarative. Spark est le moteur sous-jacent de Databricks et est disponible via des services managés sur les trois grands clouds.

Exemples concrets

DatabricksAWS EMRGoogle DataprocAzure HDInsight

← Retour au glossaire Termes en “A”

Fiche rapide

CatégorieProcessing

Exemples4 outils / technologies

Autres termes en Processing

Apache Flink →Apache Kafka →Batch Processing →Debezium →Exactly-once Semantics →