云服务器内容精选

华为云首页用户手册

Flink流式写Hudi表规范

MAPREDUCE服务 MRS-Flink流式写Hudi表规则:Flink流式写Hudi表参数规范

Flink流式写Hudi表参数规范 Flink流式写Hudi表参数规范如下表所示。表1 Flink流式写Hudi表参数规范参数名称是否必填参数描述建议值 Connector 必填读取表类型。 hudi Path 必填表存储的路径。根据实际填写 hoodie.datasource.write.recordkey.field 必填表的主键。根据实际填写 write.precombine.field 必填数据合并字段。根据实际填写 write.tasks 选填写Hudi表task并行度，默认值为4。 4 index.bootstrap.enabled 选填 Flink采用的是内存索引，需要将数据的主键缓存到内存中，保证目标表的数据唯一，因此需要配置该值，否则会导致数据重复。默认值为FALSE。Bueckt索引时不配置该参数。 TRUE write.index_bootstrap.tasks 选填 index.bootstrap.enabled开启后有效，增加任务数提升启动速度。 4 index.state.ttl 选填索引数据保存时长，默认值为0，表示永久不失效，可根据业务调整。 0 compaction.delta_commits 选填 MOR表Compaction计划触发条件。 200 compaction.async.enabled 必填是否开启在线压缩。将compaction操作转移到sparksql运行，提升写性能。 FALSE hive_sync.enable 选填是否向Hive同步表信息。 True hive_sync.metastore.uris 选填 Hivemeta uri信息。根据实际填写 hive_sync.jdbc_url 选填 Hive jdbc链接。根据实际填写 hive_sync.table 选填 Hive的表名。根据实际填写 hive_sync.db 选填 Hive的数据库名，默认为default。根据实际填写 hive_sync.support_timestamp 选填是否支持时间戳。 True changelog.enabled 选填是否写入changelog消息。默认值为false，CDC场景填写为true。 false

MAPREDUCE服务 MRS Flink流式写Hudi表规范