数据管理与分析-分析来源并接入

时间:2023-12-04 10:19:34

分析来源并接入

分析人口库中所需数据,得出数据来源,例:户籍人口信息 rk_baseinfo、民政局 婚姻状况 rk_marriage、人社局 社保信息 Insuarance、教育局 教育信息 Education。将这些部门资源库配置入系统,并配置接入作业

首先要根据需求将不同部门的人口信息实体表 t_rk_baseinfo 从部门资源库采集到数仓贴源层中。

选择部门资源库(来源库)、来源表,根据选择的来源表判断表的类型是实体还是明细,比如如果设定好调度周期和调度时间,保存成功后点击【推送并启用】,等待作业跑成功,可以先关闭页面,任务跑结束后会发送一个是否跑成功的系统提醒。在数仓的贴源层会生成一个贴源层表,如果是实体表格式为 O_ST_{@dept}_{@table},明细表格式为O_SS_{@dept}_{@table}({@dept}与{@table} 分别代表部门简称及原表名)。

如人口信息实体表t_rk_baseinfo接入成功后贴源层生成O_ST_XTGLB_t_rk_baseinfo表。

图1 分析来源并接入1

人口婚姻表 t_rk_marriage 资源表类型选择明细,接入成功后贴源层生成 O_SS_XTGLB_t_rk_marriage 表

图2 分析来源并接入2

采集方式说明

全量模式接入:推荐 1000w 以下数据量使用,平均 100ws 数据只需 60s 即可接入至数仓中

时间戳接入:只支持数据是增量插入的,存在删除、修改数据的情况不建议使用,数据会不准确

时间戳+触发器接入:推荐 1000w 数据量以上使用,但贴源层表数据不能直接使用,需数据清洗至标准层,hive 中数据处理存在临时表,处理数据时间比前两种方式长

support.huaweicloud.com/egdes-dma/egdes_36.html