ORC (Optimized Row Columnar)

Définition

Format de stockage colonnaire open source créé par Hortonworks pour l'écosystème Hadoop/Hive. ORC stocke les données colonne par colonne avec compression intégrée (ZLIB, Snappy, LZO) et des statistiques légères par stripe (min, max, sum, count) qui permettent au moteur de requête de sauter les stripes non pertinentes (predicate pushdown). Chaque fichier ORC contient un index de colonne, les données, et un footer avec les métadonnées. ORC offre de meilleures performances que Parquet pour les workloads Hive et est le format natif de Hive ACID. En dehors de l'écosystème Hive, Parquet est généralement préféré pour sa meilleure interopérabilité avec Spark, DuckDB, Arrow et Iceberg.

Exemples concrets

Hive ACID avec ORCORC sur HDFSPresto/Trino lecture ORCCompression ZLIB ORC

← Retour au glossaire Termes en “O”

Fiche rapide

CatégorieInfrastructure

Exemples4 outils / technologies

Autres termes en Infrastructure

Apache Iceberg →BigQuery →Data Lake →Data Lakehouse →Data Mart →