Haydn解决方案工厂-项目实施开发:实施质量检查作业

时间:2023-11-01 16:24:59

实施质量检查作业

实施质量检查包含数据实例实施过程中的工具,用户可以根据检查结果进行相应作业的优化,旨在帮助客户在进行数据治理过程中,能够更好地监控实施过程中的质量。

功能模块

子模块

说明

数据模型设计检测

  1. 表命名规范检查
  2. 附加字段规范检查

数据治理时,数据会分层建设,数据集成方式(增量,全量)、集成周期都不一样,按照这些对每张表按其统一规范命名。扩展字段是为了对其每条数据做更好的运维统计,例如加了版本批次号、经过哪个ETL脚本而来的、数据入仓更新时间、软删除等等。

源系统和SDI层数据一致性检测

  1. 表数量对比
  2. 表内容对比
  3. 源系统表结构监控

在数据集成时,最重要的是数据不丢失、不失真、不乱码、源表数据结构不变化,否则会造成数据指标计算不准确。而数据集成服务的网络往往非常复杂,依赖于源系统和网络,因此在监控检测源系统和数据湖的SDI层的数据一致性,可以快速给问题定界定位。

DGC命名规范检测

  1. 作业命名
  2. 节点命名
  3. 脚本命名
  4. 环境变量命名
  5. 数据连接命名

DGC是数据治理中心,尤其是数据开发模块,数据的ETL脚本的逻辑和任务调度编排均在DGC上。因此,一个规范统一的命名规范显得尤为重要,统一而规整,加强数据治理的专业性。

脚本规范检测

  1. 脚本注释
  2. 排版规范
  3. 语句规范

脚本承载着数据ETL的逻辑,定期运行。增强脚本的可读性,有助于数据开发阶段的人员定位问题、交流以及后期的运维。

DGC作业监控

  1. 作业运行时间监控
  2. 节点运行时间监控

作业运行时长的影响因素包含计算资源的影响和处理数据的影响,因此,当作业运行时间波动很大时,表明计算资源或者表数据有问题。例如,临时表没有清理,表数据发散等等,到最后都会造成重大问题。本功能模块可以在这些bug产生较小的影响情况下发现并及时修改。

  • 表命名规范检查
    1. 在“作业管理”下选择“实施质量检查作业”页签,点击左侧的【表命名规范】检查,添加监控对象。如,本实践需要检查目标端MRS Hudi的表命名是否符合规范,则可选择该数据连接。
      图19 添加监控对象

      Haydn为每类实施质量检查作业预置通用的检查规则,如上图中表命名规范检查作业,Haydn预置了部分规范标准,用户可根据需要修改或新增标准,Haydn将会根据对应的标准进行检查。

    2. 添加采集信息,对需要进行规范检查的DB、Schema进行配置,配置规则名根据需要选择Haydn预置的或新增的规范标准。
      图20 添加采集信息
    3. 预览监控对象配置信息,并将该信息复制到数据探源中的配置文件application.properties内,运行探源工具,获取监控信息。
      图21 预览监控对象配置信息
    4. 查看检查结果。

      若运行探源工具的服务器可访问公网,则检查结果将会自动上报,点击“监控对象检查结果”右侧的刷新按钮即可查看;若运行探源工具的服务器仅能在内网运行,可通过【导入】的方式将探源工具获取的结果进行导入。本实践通过导入的方式进行离线导入。

      图22 探源工具运行结果
      图23 查看检查结果
  • 附加字段规范检查

    与表命名规范检查一样,可以添加需要监控的对象后配置需要采集信息的数据库、表,用户可根据需要修改/新增附加字段规范。同样,本功能模块需要运行探源工具获取检查结果。

    图24 探源工具运行结果
    图25 查看检查结果
  • 源系统和SDI层数据一致性检查

    若在完成CDM作业一键生成后开启了同步生成质量检查作业,则此处会同步生成检查作业;用户也可以根据需要自己添加监控对象。同样,本功能模块需要运行探源工具获取检查结果。

    图26 源系统和SDI层数据一致性检查作业
    图27 探源工具检查结果
    图28 检查结果
  • DataArts Studio作业命名检查

    检查DataArts Studio作业是否符合项目定义的规范。

    1. 编辑作业命名规范。Haydn预置了批处理作业和实时检查作业的检查规范,用户可以根据需要修改。
    2. 新建监控对象。选择本账号下要检查的DataArts Studio实例。
      图29 添加监控对象
    3. 点击刷新按钮,查看结果结果。
      图30 查看检查结果
  • DataArts Studio作业节点命名检查

    检查DataArts Studio作业中的作业节点(CDM JOB、MRS Kafka等)命名是否符合项目定义的规范。同样,用户可根据需要修改Haydn预置的节点命名检查规范后,添加指定的监控对象进行检查。

    图31 作业节点命名检查
  • DataArts Studio脚本命名检查

    检查DataArts Studio脚本命名是否符合项目定义的规范。

    图32 脚本命名检查
  • DataArts Studio环境变量命名检查
    图33 环境变量命名检查
  • DataArts Studio数据连接命名检查

    检查DataArts Studio数据连接(Oracle、MRS Hudi、Hive、DWS等)命名是否符合项目定义的规范。

    图34 数据连接命名检查

  • DataArts Studio脚本规范检测

    检查DataArts Studio环境变量命名是否符合项目定义的规范。主要用于对脚本中的环境变量进行检查。

    图35 添加脚本检测规范
    图36 查看检查结果
  • DataArts Studio作业监控
    图37 作业监控配置
    图38 作业监控结果
support.huaweicloud.com/bestpractice-haydncsf/haydncsf_06_0033.html