数据管理与分析-数据使能方案设计:数据质量设计

时间:2024-04-24 11:34:31

数据质量设计

随着数据类型、数据来源的不断丰富以及数据量的飞速增长,企业面临数据质量问题的概率显著增加。数据质量是一个复杂问题,往往是多种因素综合作用的结果,解决数据质量问题要从机制、制度、流程、工具、管理等多个方面发力。

ISO8000定义:从语法、语义、语用三个方面去定义和衡量数据质量

图6 数据质量设计

企业数据来源于多个不同的业务系统,数据流转、处理环节多,用“Garbage in Garbage out”原则保证数据质量已成为数字化转型企业的共识。企业数据质量管理是一个系统性的工程,华为数据质量从数据质量领导力、数据质量持续改进、数据质量能力保障三方面展开,有机结合形成联动。华为数据质量指“数据满足应用的可信程度”,从以下六个维度对数据质量进行描述。

  • 完整性:指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量最基础的一项,例如员工工号不可为空。
  • 及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时。数据交付时间过长可能导致分析结论失去参考意义。
  • 准确性:指真实、准确地记录原始数据,无虚假数据集信息。数据要准确反映其所建模的“真实世界”实体。例如员工的身份信息必须与身份证件上的信息一致。
  • 一致性:指遵循同一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑。例如同一工号对应的不同系统中的员工姓名需一致。
  • 唯一性:指同一数据智能有位移的标识符。体现在一个数据集中,一个实体只出现一次,并且每个唯一实体有一个键值且该键值只指向该实体。例如员工有且仅有一个有效工号。
  • 有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。例如员工的国籍必须是国家基础数据中定义的允许值。

support.huaweicloud.com/gpdes-dma/gpdes_09.html