云服务器内容精选

  • 实施质量检查作业 实施质量检查包含数据实例实施过程中的工具,用户可以根据检查结果进行相应作业的优化,旨在帮助客户在进行数据治理过程中,能够更好地监控实施过程中的质量。 功能模块 子模块 说明 数据模型设计检测 表命名规范检查 附加字段规范检查 数据治理时,数据会分层建设,数据集成方式(增量,全量)、集成周期都不一样,按照这些对每张表按其统一规范命名。扩展字段是为了对其每条数据做更好的运维统计,例如加了版本批次号、经过哪个ETL脚本而来的、数据入仓更新时间、软删除等等。 源系统和SDI层数据一致性检测 表数量对比 表内容对比 源系统表结构监控 在数据集成时,最重要的是数据不丢失、不失真、不乱码、源表数据结构不变化,否则会造成数据指标计算不准确。而数据集成服务的网络往往非常复杂,依赖于源系统和网络,因此在监控检测源系统和数据湖的SDI层的数据一致性,可以快速给问题定界定位。 DGC命名规范检测 作业命名 节点命名 脚本命名 环境变量命名 数据连接命名 DGC是数据治理中心,尤其是数据开发模块,数据的ETL脚本的逻辑和任务调度编排均在DGC上。因此,一个规范统一的命名规范显得尤为重要,统一而规整,加强数据治理的专业性。 脚本规范检测 脚本注释 排版规范 语句规范 脚本承载着数据ETL的逻辑,定期运行。增强脚本的可读性,有助于数据开发阶段的人员定位问题、交流以及后期的运维。 DGC作业监控 作业运行时间监控 节点运行时间监控 作业运行时长的影响因素包含计算资源的影响和处理数据的影响,因此,当作业运行时间波动很大时,表明计算资源或者表数据有问题。例如,临时表没有清理,表数据发散等等,到最后都会造成重大问题。本功能模块可以在这些bug产生较小的影响情况下发现并及时修改。 表命名规范检查 在“作业管理”下选择“实施质量检查作业”页签,点击左侧的【表命名规范】检查,添加监控对象。如,本实践需要检查目标端MRS Hudi的表命名是否符合规范,则可选择该数据连接。 图19 添加监控对象 Haydn为每类实施质量检查作业预置通用的检查规则,如上图中表命名规范检查作业,Haydn预置了部分规范标准,用户可根据需要修改或新增标准,Haydn将会根据对应的标准进行检查。 添加采集信息,对需要进行规范检查的DB、Schema进行配置,配置规则名根据需要选择Haydn预置的或新增的规范标准。 图20 添加采集信息 预览监控对象配置信息,并将该信息复制到数据探源中的配置文件application.properties内,运行探源工具,获取监控信息。 图21 预览监控对象配置信息 查看检查结果。 若运行探源工具的服务器可访问公网,则检查结果将会自动上报,点击“监控对象检查结果”右侧的刷新按钮即可查看;若运行探源工具的服务器仅能在内网运行,可通过【导入】的方式将探源工具获取的结果进行导入。本实践通过导入的方式进行离线导入。 图22 探源工具运行结果 图23 查看检查结果 附加字段规范检查 与表命名规范检查一样,可以添加需要监控的对象后配置需要采集信息的数据库、表,用户可根据需要修改/新增附加字段规范。同样,本功能模块需要运行探源工具获取检查结果。 图24 探源工具运行结果 图25 查看检查结果 源系统和SDI层数据一致性检查 若在完成CDM作业一键生成后开启了同步生成质量检查作业,则此处会同步生成检查作业;用户也可以根据需要自己添加监控对象。同样,本功能模块需要运行探源工具获取检查结果。 图26 源系统和SDI层数据一致性检查作业 图27 探源工具检查结果 图28 检查结果 DataArts Studio作业命名检查 检查DataArts Studio作业是否符合项目定义的规范。 编辑作业命名规范。Haydn预置了批处理作业和实时检查作业的检查规范,用户可以根据需要修改。 新建监控对象。选择本账号下要检查的DataArts Studio实例。 图29 添加监控对象 点击刷新按钮,查看结果结果。 图30 查看检查结果 DataArts Studio作业节点命名检查 检查DataArts Studio作业中的作业节点(CDM JOB、MRS Kafka等)命名是否符合项目定义的规范。同样,用户可根据需要修改Haydn预置的节点命名检查规范后,添加指定的监控对象进行检查。 图31 作业节点命名检查 DataArts Studio脚本命名检查 检查DataArts Studio脚本命名是否符合项目定义的规范。 图32 脚本命名检查 DataArts Studio环境变量命名检查 图33 环境变量命名检查 DataArts Studio数据连接命名检查 检查DataArts Studio数据连接(Oracle、MRS Hudi、Hive、DWS等)命名是否符合项目定义的规范。 图34 数据连接命名检查 DataArts Studio脚本规范检测 检查DataArts Studio环境变量命名是否符合项目定义的规范。主要用于对脚本中的环境变量进行检查。 图35 添加脚本检测规范 图36 查看检查结果 DataArts Studio作业监控 图37 作业监控配置 图38 作业监控结果
  • 实施进度及附件管理 实施责任人“HaydnTrial_TE”对实施进度进行管理,支持将需求实施的交付件上传到对应的需求记录上。 图39 更新进度 针对不通需求的实施进度,更新记录后可提交审核,由实施审核责任人“HaydnTrial_TD”进行审核。 实施审核责任人收到审核待办,可对需求进行审核。 图40 实施管理审核 支持多个实施责任人并行进行交付作业实施,各责任人按实际情况更新实施进度并提交审核; 支持空间内成员下载实施详情中的附件。
  • 自动发送周报 在项目进行过程中,可通过Haydn配置周报自动发送,通知项目组相关成员项目进展和风险。 项目负责人(如项目经理“HaydnTrial_PM”)在“实施管理”中选择“周报管理”功能。 图41 周报管理入口 配置周报发送信息。 表1 周报发送配置 参数 说明 是否自动发送 必选项。开关打开代表自动发送,提交之后会立即发送一次,之后按照设定的频率定期发送;关闭代表手动发送,提交之后只会立即发送一次,不会定期发送。 发送频次 打开自动发送之后必选项。包含每周和每月。 发送时间 选择发送频次后必选项。发送频次为每周,则发送时间为周一至周天的整点;发送频次为每月,则发送时间为每月1日至31日的整点。 邮件接收人 必填。只有已经在Haydn空间订阅了邮件的账号才能够接收到周报邮件,没有订阅则不会接收到邮件。 邮件抄送人 必填。只有已经在Haydn空间订阅了邮件的账号才能够接收到周报邮件,没有订阅则不会接收到邮件。 项目背景 选填。 本周工作进度 必填。总结本周工作进度。 下周工作计划 必填。输入下周计划。 添加自定义工作项 选填。自定义添加的工作项。 图42 配置周报信息 相应人员接收到邮件通知。 图43 邮件通知
  • CDM作业一键生成 云数据迁移CDM,是一种高效、易用的数据集成服务。Haydn集成CDM,支持批量生成CDM作业并在指定的CDM实例中运行。 前提: 已在实施责任人“HaydnTrial_TE”所属账号下创建CDM集群。 已在该CDM服务中创建数据连接,用户把在Haydn上生成的CDM作业同步至创建好的CDM集群中并执行作业。本实践中涉及两个源端MySQL数据库、一个目标端MRS Hudi,则需要先把这三个数据连接创建完成,参考新建CDM数据连接。 图10 CDM数据连接 步骤: 在“作业管理”下选择“CDM作业”页签,添加CDM实例。 图11 添加CDM实例 点击【更多】按钮下的【一键生成作业】,进入作业配置详情页。 图12 一键生成作业 配置作业详情。可手工添加或批量增加,若已在数据探源中生成入湖清单,则支持从入湖清单导入。 源连接名称:选择源端系统连接,即,在数据探源中创建两个源端MySQL数据连接; 目的连接名称:选择在数据探源中MRS-Hudi数据连接。 图13 从入湖清单导入 配置完成后点击【提交】。可选择是否同步生成质量检查作业,若选择,则将会在实施质量检查作业中生成检查作业。 图14 提交作业配置 图15 作业信息 要运行CDM作业,请确保有相应的数据连接以及连接的数据库存在,如,目标端MRS Hudi数据库要存在。 一键同步作业:将配置好的CDM作业同步至CDM集群中,以便后续可在CDM集群中执行作业。 图16 一键同步作业 点击【同步历史】,查看同步历史。 图17 查看同步历史 您也可以进入CDM集群中查看作业并运行作业。 图18 查看CDM集群作业
  • 基础资源开通 基础设施部署作业支持对方案设计中涉及的云服务资源进行手工部署/在线化部署。本次方案中的部署架构设计为手工部署,因此需要手工开通资源。 在“作业管理”下选择“基础设施部署作业”页签,新建部署作业,新建时可与需求关联起来。本实践中的基础资源开通与交付需求创建中的“构建智慧门店数据中台”需求关联。 图2 新建部署作业 开通资源。 图3 资源开通 填写资源部署详情,支持上传附件。 图4 资源部署详情 完成后点击【确定】即可。
  • ETL 一键同步 数据治理中心DataArts Studio是针对企业数字化运营诉求提供的具有数据全生命周期管理和智能数据管理能力的一站式治理运营平台,Haydn集成DataArts Studio,支持将方案设计中“ETL映射设计”部分形成的ETL脚本同步到DataArts Studio作业指定的目录。 前提: 已在实施责任人“HaydnTrial_TE”所属账号下开通DataArts Studio服务。 已在该DataArts Studio服务中创建MRS Hudi数据连接(spark_hudi_proxy_cnt),以便基于数据连接同步作业以及后续在DataArts Studio中执行脚本。为了后续能正确执行脚本,请创建与ETL映射中需要用到的数据库类型相同的连接,如,本实践中的ETL映射需要同步的数据来源与目标端均为MRS Hudi,则在DataArts Studio服务中需要创建MRS Hudi连接。 步骤: 在“作业管理”下选择“DataArts Studio作业”页签,添加数据治理实例。选择本账号下的数据治理(DataArts Studio)所属region、实例以及空间。 图5 添加数据治理实例 同步ETL Mapping。 图6 同步ETL Mapping 配置ETL Mapping。本实践中,需要将ETL映射配置好的ETL映射同步至DataArts Studio中。 实施作业名称:自定义; 关联需求:可选,可与交付需求创建的相关需求关联起来(本实践与需求“数据治理”下的“构建智慧门店数据资产”关联),关联后该ETL作业将会自动在实施进度管理中展示; ETL Mapping名称:选择ETL映射中配置好的ETL映射; DataArts Studio目录:选填需要将该ETL映射同步至DataArts Studio的具体目录; 连接名称:选择在DataArts Studio中创建好的MRS Hudi连接。 图7 配置ETL Mapping 点击【同步历史】,查看同步结果。 图8 查看同步结果 您也可以进入该DataArts Studio实例中查看同步结果并执行脚本。 图9 查看同步结果