MAPREDUCE服务 MRS-配置同步任务的心跳和数据判齐:操作场景
操作场景
心跳和数据判齐功能用于统计CDL同步任务的全链路信息, 包括从数据库管理系统RDBMS到Kafka的数据耗时、从Kafka消费数据写入到Hudi的数据耗时和数据条数等一系列信息,并将其写入到特定的Topic(cdl_snapshot_topic)中,用户可自行消费Topic中的数据并写入到某个特定Hudi表作数据判齐使用。心跳判齐数据不仅可以用来判断心跳时间之前的数据已经同步到数据湖,还可以根据事务时间,写Kafka的时间,数据开始入湖时间和数据入湖结束时间来判断数据时延问题。
同时对于PgSQL任务,配置心跳表可以定期向前推进PgSQL中Slot记录的LSN的信息,避免由于某个任务配置了某部分变化很小的表导致数据库日志积压。
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce服务_什么是Yarn_如何使用Yarn
- 什么是Manager_Manager的功能_MRS运维管理
- mysql数据库的特点_mysql数据库同步_安装mysql数据库
- MRS备份恢复_MapReduce备份_数据备份
- MapReduce服务_什么是MapReduce服务_什么是HBase
- MapReduce服务_什么是Kafka_如何使用Kafka
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离