Data Engineering

Trino

Définition

Moteur de requête SQL distribué (anciennement PrestoSQL) optimisé pour les requêtes analytiques fédérées sur des sources hétérogènes sans déplacer les données. Un seul cluster Trino peut interroger simultanément Hive/HDFS, S3, PostgreSQL, MySQL, Elasticsearch, Kafka, et Iceberg en une seule requête JOIN. Son architecture MPP (Massively Parallel Processing) décompose la requête en stages exécutés en pipeline sur tous les workers. Trino ne stocke pas de données : il les lit à la volée depuis chaque connecteur. Contrairement à Spark, Trino est pensé pour l'interactivité (résultats en secondes) plutôt que les traitements batch longs. Starburst Enterprise en est la distribution commerciale, AWS Athena est fondé sur Trino.

Exemples concrets

Starburst EnterpriseAWS AthenaTrino sur KubernetesRequête fédérée Iceberg + PostgreSQL

← Retour au glossaire Termes en “T”

Fiche rapide

CatégorieData Engineering

Exemples4 outils / technologies

Autres termes en Data Engineering

Apache Hudi →Backfill →Data Skew →DuckDB →Fact Table →