MAPREDUCE服务 MRS-Hudi数据表Compaction规范:规则

时间:2024-05-28 11:40:41

规则

  • 有数据持续写入的表,24小时内至少执行一次compaction。

    对于MOR表,不管是流式写入还是批量写入,需要保证每天至少完成1次Compaction操作。如果长时间不做compaction,Hudi表的log将会越来越大,这必将会出现以下问题:

    • Hudi表读取很慢,且需要很大的资源。 这是由于读MOR表涉及到log合并,大log合并需要消耗大量的资源并且速度很慢。
    • 长时间进行一次Compaction需要耗费很多资源才能完成,且容易出现OOM。
    • 阻塞Clean,如果没有Compaction操作来产生新版本的Parquet文件,那旧版本的文件就不能被Clean清理,增加存储压力。
  • CPU与内存比例为1:4~1:8。

    Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并,需要消耗较高的内存资源,按照之前的表设计规范以及实际流量的波动结合考虑,建议Compaction作业CPU与内存的比例按照1:4~1:8配置,保证Compaction作业稳定运行。当Compaction出现OOM问题,可以通过调大内存占比解决。

    【建议】通过增加并发数提升Compaction性能。

support.huaweicloud.com/devg-rule-mrs/mrs_07_450115.html