MAPREDUCE服务 MRS-Hudi应用开发建议
Hudi应用开发建议
目前Hudi主要适用在实时入湖和增量数据ETL的场景,针对存量的历史数据可以批量导入Hudi表。
针对增量数据基本都是新增数据,侧重于读取数据的性能场景,更适合适用COW表。
针对对入湖性能有较高要求且增量数据中含有大量新增更新数据的场景,更适合用MOR表。
对于分区键的设置,根据业务建议使用日期字段来进行分区。
Hudi实时入湖时资源配置与Kafka的partition有一定关系,在消费kafka时一个partition只能被一个executor-core消费,因此过多配置executor-core会造成一定程度的资源浪费。
Spark streaming实时入湖的消费批次参数设置需要根据实际情况,满足每批次的间隔时间稍小于消费一批次消息写入Hudi表的时间。
Hudi写入的并行度设置不宜过大,适当缩小并行度可以缩短处理时间。
- MapReduce服务_什么是MapReduce服务_什么是HBase
- 如何搭建基因测序平台_基因数据怎么存储_基因测序数据上云
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- MapReduce服务_什么是Hue_如何使用Hue
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_什么是Kafka_如何使用Kafka
- 数据备份归档在哪里_数据分析存储系统_大数据存储管理
- 零代码开发平台_托拉拽开发应用_华为云Astro-华为云
- Astro轻应用_零代码平台_开发无忧加速创新
- MapReduce服务_什么是HDFS_HDFS特性