Hudi-华为云

MAPREDUCE服务 MRS-Flink流式写Hudi表规则:Flink流式写Hudi表参数规范

Flink流式写Hudi表参数规范 Flink流式写Hudi表参数规范如下表所示。表1 Flink流式写Hudi表参数规范参数名称是否必填参数描述建议值 Connector 必填读取表类型。 hudi Path 必填表存储的路径。根据实际填写 hoodie.datasource.write.recordkey.field 必填表的主键。根据实际填写 write.precombine.field 必填数据合并字段。根据实际填写 write.tasks 选填写Hudi表task并行度，默认值为4。 4 index.bootstrap.enabled 选填 Flink采用的是内存索引，需要将数据的主键缓存到内存中，保证目标表的数据唯一，因此需要配置该值，否则会导致数据重复。默认值为FALSE。Bueckt索引时不配置该参数。 TRUE write.index_bootstrap.tasks 选填 index.bootstrap.enabled开启后有效，增加任务数提升启动速度。 4 index.state.ttl 选填索引数据保存时长，默认值为0，表示永久不失效，可根据业务调整。 0 compaction.delta_commits 选填 MOR表Compaction计划触发条件。 200 compaction.async.enabled 必填是否开启在线压缩。将compaction操作转移到sparksql运行，提升写性能。 FALSE hive_sync.enable 选填是否向Hive同步表信息。 True hive_sync.metastore.uris 选填 Hivemeta uri信息。根据实际填写 hive_sync.jdbc_url 选填 Hive jdbc链接。根据实际填写 hive_sync.table 选填 Hive的表名。根据实际填写 hive_sync.db 选填 Hive的数据库名，默认为default。根据实际填写 hive_sync.support_timestamp 选填是否支持时间戳。 True changelog.enabled 选填是否写入changelog消息。默认值为false，CDC场景填写为true。 false

MAPREDUCE服务 MRS Flink流式写Hudi表规范

MAPREDUCE服务 MRS-Flink流式读Hudi表规则

Flink流式读Hudi表规则 Flink流式读Hudi表参数规范如下所示。表1 Flink流式读Hudi表参数规范参数名称是否必填参数描述示例 Connector 必填读取表类型。 hudi Path 必填表存储的路径。根据实际情况填写 table.type 必填 Hudi表类型，默认值为COPY_ON_WRITE。 MERGE_ON_READ hoodie.datasource.write.recordkey.field 必填表的主键。根据实际填写 write.precombine.field 必填数据合并字段。根据实际填写 read.tasks 选填读Hudi表task并行度，默认值为4。 4 read.streaming.enabled 必填 true：开启流式增量模式。 false：批量读。根据实际填写，流读场景下为true read.streaming.start-commit 选填指定 ‘yyyyMMddHHmmss’ 格式的起始commit（闭区间），默认从最新commit。 - hoodie.datasource.write.keygenerator.type 选填上游表主键生成类型。 COMPLEX read.streaming.check-interval 选填流读检测上游新提交的周期，默认值为1分钟。 5（流量大建议使用默认值） read.end-commit 选填 Stream增量消费，通过参数read.streaming.start-commit指定起始消费位置； Batch增量消费，通过参数read.streaming.start-commit指定起始消费位置，通过参数read.end-commit指定结束消费位置（闭区间），即包含起始、结束的commit。默认到最新commit。 - changelog.enabled 选填是否写入changelog消息。默认值为false，CDC场景填写为true。 false 父主题： Flink流式读Hudi表规范

MAPREDUCE服务 MRS Flink流式读Hudi表规范

MAPREDUCE服务 MRS-Spark On Hudi性能调优:初始化Hudi表时，可以使用BulkInsert方式快速写入数据

初始化Hudi表时，可以使用BulkInsert方式快速写入数据示例： set hoodie.combine.before.insert=true; // 入库前去重，如果数据没有重复该参数无需设置 set hoodie.datasource.write.operation = bulk_insert; // 指定写入方式为bulk insert方式。 set hoodie.bulkinsert.shuffle.parallelism = 4; // 指定bulk_insert写入时的并行度，等于写入完成后保存的分区parquet文件数 insert into dsrTable select * from srcTabble