Haydn解决方案工厂-项目实施开发:实施质量检查作业
实施质量检查作业
实施质量检查包含数据实例实施过程中的工具,用户可以根据检查结果进行相应作业的优化,旨在帮助客户在进行数据治理过程中,能够更好地监控实施过程中的质量。
功能模块 |
子模块 |
说明 |
---|---|---|
数据模型设计检测 |
|
数据治理时,数据会分层建设,数据集成方式(增量,全量)、集成周期都不一样,按照这些对每张表按其统一规范命名。扩展字段是为了对其每条数据做更好的运维统计,例如加了版本批次号、经过哪个ETL脚本而来的、数据入仓更新时间、软删除等等。 |
源系统和SDI层数据一致性检测 |
|
在数据集成时,最重要的是数据不丢失、不失真、不乱码、源表数据结构不变化,否则会造成数据指标计算不准确。而数据集成服务的网络往往非常复杂,依赖于源系统和网络,因此在监控检测源系统和数据湖的SDI层的数据一致性,可以快速给问题定界定位。 |
DGC命名规范检测 |
|
DGC是数据治理中心,尤其是数据开发模块,数据的ETL脚本的逻辑和任务调度编排均在DGC上。因此,一个规范统一的命名规范显得尤为重要,统一而规整,加强数据治理的专业性。 |
脚本规范检测 |
|
脚本承载着数据ETL的逻辑,定期运行。增强脚本的可读性,有助于数据开发阶段的人员定位问题、交流以及后期的运维。 |
DGC作业监控 |
|
作业运行时长的影响因素包含计算资源的影响和处理数据的影响,因此,当作业运行时间波动很大时,表明计算资源或者表数据有问题。例如,临时表没有清理,表数据发散等等,到最后都会造成重大问题。本功能模块可以在这些bug产生较小的影响情况下发现并及时修改。 |
- 表命名规范检查
- 在“作业管理”下选择“实施质量检查作业”页签,点击左侧的【表命名规范】检查,添加监控对象。如,本实践需要检查目标端MRS Hudi的表命名是否符合规范,则可选择该数据连接。
图19 添加监控对象
Haydn为每类实施质量检查作业预置通用的检查规则,如上图中表命名规范检查作业,Haydn预置了部分规范标准,用户可根据需要修改或新增标准,Haydn将会根据对应的标准进行检查。
- 添加采集信息,对需要进行规范检查的DB、Schema进行配置,配置规则名根据需要选择Haydn预置的或新增的规范标准。
图20 添加采集信息
- 预览监控对象配置信息,并将该信息复制到数据探源中的配置文件application.properties内,运行探源工具,获取监控信息。
图21 预览监控对象配置信息
- 查看检查结果。
若运行探源工具的服务器可访问公网,则检查结果将会自动上报,点击“监控对象检查结果”右侧的刷新按钮即可查看;若运行探源工具的服务器仅能在内网运行,可通过【导入】的方式将探源工具获取的结果进行导入。本实践通过导入的方式进行离线导入。
图22 探源工具运行结果
图23 查看检查结果
- 在“作业管理”下选择“实施质量检查作业”页签,点击左侧的【表命名规范】检查,添加监控对象。如,本实践需要检查目标端MRS Hudi的表命名是否符合规范,则可选择该数据连接。
- 附加字段规范检查
与表命名规范检查一样,可以添加需要监控的对象后配置需要采集信息的数据库、表,用户可根据需要修改/新增附加字段规范。同样,本功能模块需要运行探源工具获取检查结果。
图24 探源工具运行结果
图25 查看检查结果
- 源系统和SDI层数据一致性检查
若在完成CDM作业一键生成后开启了同步生成质量检查作业,则此处会同步生成检查作业;用户也可以根据需要自己添加监控对象。同样,本功能模块需要运行探源工具获取检查结果。
图26 源系统和SDI层数据一致性检查作业
图27 探源工具检查结果
图28 检查结果
- DataArts Studio作业命名检查
检查DataArts Studio作业是否符合项目定义的规范。
- 编辑作业命名规范。Haydn预置了批处理作业和实时检查作业的检查规范,用户可以根据需要修改。
- 新建监控对象。选择本账号下要检查的DataArts Studio实例。
图29 添加监控对象
- 点击刷新按钮,查看结果结果。
图30 查看检查结果
- DataArts Studio作业节点命名检查
检查DataArts Studio作业中的作业节点(CDM JOB、MRS Kafka等)命名是否符合项目定义的规范。同样,用户可根据需要修改Haydn预置的节点命名检查规范后,添加指定的监控对象进行检查。
图31 作业节点命名检查
- DataArts Studio脚本命名检查
检查DataArts Studio脚本命名是否符合项目定义的规范。
图32 脚本命名检查
- DataArts Studio环境变量命名检查
图33 环境变量命名检查
- DataArts Studio数据连接命名检查
检查DataArts Studio数据连接(Oracle、MRS Hudi、Hive、DWS等)命名是否符合项目定义的规范。
图34 数据连接命名检查 - DataArts Studio脚本规范检测
检查DataArts Studio环境变量命名是否符合项目定义的规范。主要用于对脚本中的环境变量进行检查。
图35 添加脚本检测规范
图36 查看检查结果
- DataArts Studio作业监控
图37 作业监控配置
图38 作业监控结果