数智融合计算服务 DATAARTSFABRIC-Iceberg简介:文件组织方式

时间:2025-06-17 08:50:20

文件组织方式

如下图所示,Iceberg将数据分为元数据管理层、数据存储层。

  • 元数据层:
    • metadata文件为json格式。存储当前版本的元数据信息,所有快照信息。
    • manifest list文件,即snapshot文件或清单列表文件,为avro格式。一次commit生成一个快照文件,每行存储一个manifest file的路径、其存储的数据文件的分区范围,增加删除了几个数据文件等信息,在查询时提供过滤信息,加快速度。
    • manifest文件,为avro格式。存储多个数据文件的信息列表,每行是一个数据文件的详细描述,包括状态、路径、分区信息、列级别的统计信息(最大最小值、空值数等)、文件大小以及文件里数据行数等。其中列级别的统计信息在扫描表数据时可过滤掉不必要的文件。
  • 数据存储层:支持不同的文件格式,包括parquet、orc、avro。
support.huaweicloud.com/devg-fabric/dataartsfabric_sql_04_0030.html