Data Universe
Newsletter
GlossaireOORC (Optimized Row Columnar)
Infrastructure

ORC (Optimized Row Columnar)

Définition

Format de stockage colonnaire open source créé par Hortonworks pour l'écosystème Hadoop/Hive. ORC stocke les données colonne par colonne avec compression intégrée (ZLIB, Snappy, LZO) et des statistiques légères par stripe (min, max, sum, count) qui permettent au moteur de requête de sauter les stripes non pertinentes (predicate pushdown). Chaque fichier ORC contient un index de colonne, les données, et un footer avec les métadonnées. ORC offre de meilleures performances que Parquet pour les workloads Hive et est le format natif de Hive ACID. En dehors de l'écosystème Hive, Parquet est généralement préféré pour sa meilleure interopérabilité avec Spark, DuckDB, Arrow et Iceberg.

Exemples concrets

Hive ACID avec ORCORC sur HDFSPresto/Trino lecture ORCCompression ZLIB ORC
← Retour au glossaireTermes en “O

Fiche rapide

CatégorieInfrastructure
Exemples4 outils / technologies