华为云用户手册

  • 添加审核人 审核人必须是当前工作空间下具有审核权限的成员,需要先在“ DataArts Studio 首页-空间管理”的工作空间内编辑并添加空间成员。 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后,选择“审核人管理”页签。 在“审核人管理”页面,单击“添加”按钮。 在弹出的添加对话框中,选择审核人,输入正确的手机号码和电子邮箱,单击“确定”完成审核人添加。 审核人必须是当前工作空间下具有审核权限的成员,只有管理员和开发者才具有审核权限。 审核人不支持手工添加,需要先在“DataArts Studio首页-空间管理”的工作空间内编辑并添加空间成员,以便添加审核人时进行选择。 勾选短信通知或邮件通知,并添加审核人后,DataArts Studio将自动在 消息通知 服务( SMN )中创建对应的主题。 主题的显示名格式为:DataArts_主题_审核人_项目名称_项目ID-dlg_ds_审核人名称。 图1 添加审核人 根据需要,可以添加多个审核人。
  • 编码规则 在数据架构控制台,单击左侧导航树中的“配置中心”,然后再选择“编码规则”页签。 管理编码规则。 添加编码规则 如果需要自定义编码规则,在“编码规则”列表上方,单击“添加”,在弹出对话框中,配置如下参数,然后单击“确定”。 图8 添加编码规则 表2 添加编码规则说明 参数名称 说明 类型 选择编码规则的类型,当前支持如下六种: 业务指标,逻辑实体,逻辑属性, 数据标准、码表、业务对象。 生效范围 生效范围默认是全局。可以选择 主题、流程、码表、数据标准下一级路径。 系统规则 是否为系统规则。自定义的编码规则系统预置为否,不能修改。 编码规则 采用前缀+数字码的方式,不能修改。 前缀 可以是“英文字符”+“数字”的方式,但不能以数字结尾。支持修改。 数字码 支持顺序码和随机码两种方式。 起始码 数字码范围的起始值。 结束码 数字码范围的终止值。 编码示例 根据前缀动态修改后,可以更新展示。 删除编码规则 如果需要删除自定义编码规则,在“编码规则”列表勾选待删除的编码规则,单击列表上方的“删除”,在弹出对话框中,单击“是”即可删除。 系统预置的六个编码规则(逻辑实体、 数据标准、逻辑属性、业务指标、码表、业务对象),不可以删除。 编辑编码规则 如果需要修改自定义编码规则,单击“编码规则”列表中待修改编码规则的“编辑”,弹出“修改编码规则”对话框,修改完成后,单击“确定”。
  • 指标配置 在数据架构控制台,单击左侧导航树中的“配置中心”,然后再选择“指标配置”页签。 管理业务指标 新建指标 单击业务指标自定义项旁的新建按钮,或在已有指标的情况下,单击操作列的图标新增指标。完成后配置如下参数,然后单击“保存”。 图9 新建指标 表3 新建指标参数说明 参数名称 说明 选项名称 自定义指标名称。不超过100字符。 选项名称(英文) 自定义指标英文名称。不超过100字符。 可选值 设置自定义指标在创建业务指标时的可选值。 是否必填 设置自定义指标在创建业务指标时是否为必填项 描述 自定义指标的描述。不超过200字符。 调整指标排序 在有多个指标的情况下,可以通过操作列调整指标的排序。单击图标可进行指标的上移或者下移,双击图标可以输入序号将当前行移动到指定位置。 图10 调整指标排序 图11 移动到指定位置 删除指标 如果需要删除自定义指标,单击操作列的图标就可删除该指标。 图12 删除指标 完成自定义指标的设置后,在新建业务指标界面和完成发布的业务指标的基本信息界面,会显示已保存的自定义指标。 图13 新建业务指标 图14 基本信息界面
  • DDL模板管理 在DataArts Studio数据架构中,支持修改各种类型(例如 DLI 、POSTGRESQL、DWS、Hive、SPARK、DORIS)的表或DLI视图的DDL模板。如果您需要将已创建的某一类型的表生成其他数据源的DDL语句,您就可以根据目标数据源的DDL语法,修改该类型的表的DDL模板。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“DDL模板管理”。 在“DDL模板管理”页面,您可以配置各种类型的表或DLI视图的DDL模板,您可以参考该页面中的“填写说明”修改DDL模板,修改完成后单击“确定”。如果单击“重置”可恢复默认设置。 如图7所示,说明如下: 新建:可查看或编辑新建表或DLI视图的DDL模板。 更新:可查看或编辑更新表或DLI视图的DDL模板。 删除:可查看或编辑删除表或DLI视图的DDL模板。 衍生指标:可以查看或编辑衍生指标的SQL模板。 复合指标:可以查看或编辑复合指标的SQL模板。 汇总表:可以查看或编辑汇总表的SQL模板。 “参考数据”区域:显示了一个表详情的示例,示例中的变量定义了表的详细信息。 “模板代码编辑”区域:可以编辑DDL模板。如果您需要将所选类型的表,生成其他类型的数据库的DDL语句,您可以根据目标数据源的DDL语法,修改DDL模板。 “预览结果”区域:编辑DDL模板后,可以预览按模板生成的DDL语句。 图7 DDL模板管理
  • 模型配置 当您在主题设计、模型设计等过程中,如果需要进行如下操作,您可以通过本页面进行配置: 增加主题别名、表模型别名、字段别名。 启用密级。 设置长度。 增加表的自定义字段。 增加属性的自定义字段。 图4 模型配置 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“模型配置”页签。 启用别名。在“模型配置”页面,您可以增加别名。 选项说明如下: 主题设计:选择之后,在新建、编辑主题时,必须输入别名。 表模型:选择之后,在新建、编辑表时,必须输入别名。会影响业务表、维度(维度表)、事实表和汇总表等。 字段:选择之后,在新建、编辑表字段时,必须输入别名。 启用密级。默认开启该字段。 名称长度:设置表名称和属性名称的长度。 表自定义项。在新建、编辑表时,可以在表的基本设置中设置自定义的字段。会影响业务表、维度(维度表)、事实表和汇总表等。 属性自定义项。在新建、编辑表字段时,可以在表字段中设置自定义的属性。会影响业务表、维度(维度表)、事实表和汇总表等。
  • 字段类型 当您执行新建表、逆向数据库或模型转换等操作时,如果系统默认的数据类型或不同数据源之间的数据类型映射关系无法满足需求,您可以增加、删除或修改数据类型。系统默认的数据类型不支持删除。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“字段类型”页签。 在“字段类型”页面,您可以查看数据类型及不同数据源之间的数据类型映射关系,其中“创建人”为SYSTEM的类型为系统默认的字段类型。 类型分组说明如下: DEFAULT:通用数据类型,未指定数据源类型时建表所用的字段类型。例如,新建逻辑模型的表时,就是使用DEFAULT分组中的数据类型。 DLI:DLI连接类型的表的数据类型。 DWS:DWS连接类型的表的数据类型。 MRS _HIVE:MRS_HIVE连接类型的表的数据类型。 MRS_SPARK:MRS_SPARK连接类型Hudi表的数据类型。 POSTGRESQL:POSTGRESQL连接类型的表的数据类型。 CLICKHOUSE:CLICKHOUSE连接类型的表的数据类型。 MYSQL:MYSQL连接类型的表的数据类型。 ORACLE:ORACLE连接类型的表的数据类型。 DORIS:DORIS连接类型的表的数据类型。 图5 字段类型 管理字段类型。 新建类型 如果要增加数据类型,单击“新建”按钮。在弹出对话框中,配置如下参数,然后单击“确定”。 图6 新建类型 表1 基本配置 参数名称 说明 类型分组 选择新建类型所属的类型分组。 名称 数据类型的名称。只能包含中文、英文字母、数字、左右括号、空格和下划线,且以中文或英文字母开头。 编码 数据类型的编码,必须为数仓支持的类型。只能包含大写字母,下划线,数字,且以大写字母或下划线开头。 所属域 选择新建类型所属的域。 是否有拓展 对于某些数据类型,需要设定数据的长度范围时,可以打开“是否有拓展”开关,并配置对应的拓展。 例如高精度数据类型DECIMAL(p,s),需要分别指定小数的最大位数(p)和小数位的数量(s),则数据类型DECIMAL的默认拓展可填写为“(10,2)”,指的是小数点左侧的位数为2,小数点右侧的最大位数为10-2=8;又如数据类型VACHAR也需要指定位数,当默认拓展填写为“10”,指的是最大长度为10字符。 数仓对应类型 选择新建类型所映射连接的数据类型。 DEFAULT 选择新建类型所映射的DEFAULT连接的数据类型。 CLICKHOUSE 选择新建类型所映射的CLICKHOUSE连接的数据类型。 DLI 选择新建类型所映射的DLI连接的数据类型。 DWS 选择新建类型所映射的DWS连接的数据类型。 MRS_HIVE 选择新建类型所映射的MRS_HIVE连接的数据类型。 MRS_SPARK 选择新建类型所映射的MRS_SPARK连接的数据类型。 MYSQL 选择新建类型所映射的MYSQL连接的数据类型。 ORACLE 选择新建类型所映射的ORACLE连接的数据类型。 POSTGRESQL 选择新建类型所映射的POSTGRESQL连接的数据类型。 DORIS 选择新建类型所映射的DORIS连接的数据类型。 编辑类型 在字段类型列表中,找到需要编辑的字段类型,然后单击按钮进行编辑,参数说明请参见表1。 删除类型 仅支持对于用户新建的数据类型进行删除操作。“创建人”为SYSTEM的类型为系统默认的字段类型,不支持删除操作。 在字段类型列表中,找到需要删除的字段类型,单击按钮,然后在弹出对话框中单击“确定”完成删除。 重置 单击“字段类型”页面底部的“重置”按钮,可恢复系统默认配置。
  • 功能配置 功能配置用于自定义数据架构中的各项功能。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“功能配置”。 在功能配置页面,可根据用户具体的功能需求配置参数,然后单击“确定”。如果单击“重置”可恢复默认设置。 图2 功能配置 模型设计业务流程步骤:此处勾选的流程,在关系建模或维度建模的对象发布上线时,系统会依次自动执行。一般建议全部勾选。 创建表:当数据架构中的表发布并通过审核后,系统将自动在对应的数据源中创建相应的物理表。在表删除时,系统也会自动删除物理表。 同步技术资产:关系建模或维度建模中的表发布后,同步表到数据目录模块作为技术资产,同时同步标签到对应技术资产。 若开启“同步技术资产”功能,您必须预先在DataArts Studio数据目录模块中对表所属的数据库创建数据目录采集任务并采集成功,否则同步技术资产将会执行失败。 同步业务资产:同步逻辑模型到数据目录,作为业务资产,同时同步标签到对应业务资产。 资产关联:实现业务资产与技术资产的关联。业务资产与技术资产同步完成后,在数据目录模块中查看对应的业务资产或技术资产详情时,可以看到相关联的技术资产或业务资产。该功能要求表信息中含有数据源信息。 创建质量作业:当关系建模或维度建模中的表发布并通过审核后,对于关联数据标准(包含数据长度或允许值)或关联质量规则的表,系统将自动在DataArts Studio数据质量模块中创建一个质量作业。 创建数据开发作业:汇总表发布后,自动生成端到端的全流程数据开发作业。 发布数据服务API:汇总表发布后,自动生成数据服务API,此功能仅当数据服务支持汇总表的数据连接时生效。 数据落库:码表维度发布后,会自动将码表的数值填入维度表中。 模型下线流程:选择当模型下线时,是否同步删除技术资产、业务资产、质量作业、数据开发作业。 数据表更新方式:当数据架构中的表在发布后进行了修改,是否同时更新数据库中的表。默认为“不更新”,但在配置中心可以依据自己的需求设置更新动作。依据DDL模板, 在模板里面配置对应的更新语句即可。 不更新:不更新数据库中的表。 依据DDL更新模板:依据DDL模板管理中配置的DDL更新模板,更新数据库中的表,但能否更新成功是由底层数仓引擎的支持情况决定的。由于不同类型的数仓支持的更新表的能力不同,在数据架构中所做的表更新操作,如果数仓不支持,则无法确保数据库中的表和数据架构中的表是一致的。例如,DLI类型的表更新操作不支持删除表字段,如果在数据架构的表中删除了表字段,则无法在数据库中相应的删除表字段。 如果线下数据库支持更新表结构语法,可以在DDL模板配置对应语法, 之后更新操作就可以通过DataArts Studio管控;如果线下数据库不支持更新, 那只有通过重建这种方式更新。 重建数据表:先删除数据库中已有的表,再重新创建表。选择该选项可以确保数据库中的表和数据架构中的表是一致的,但是由于会先删除表,因此一般建议只在开发设计阶段或测试阶段使用该选项,产品上线后不推荐使用该选项。 数据表不区分大小写:对于选中的连接类型,在发布相应类型的表时,同步技术资产时名称将不区分大小写,找到相同的即认为已存在。 物理表同步业务资产:在开启了“同步业务资产”且没有创建逻辑实体的前提下,为了避免物理表发布会覆盖同名逻辑表的情况发生,可主动关闭该选项,物理表发布后不会同步业务资产,只会进行资产关联。数据资产关联前会进行业务资产查找,如没有查找到相应的业务资产则会报错并结束资产关联。 业务表映射使用新版本:系统默认为新版本映射。新版本映射功能支持join等操作,推荐使用新版本映射。 汇总表自动汇聚:发布衍生指标或复合指标时,系统支持自动生成汇总表,一个统计维度对应一个汇总表。自动生成的汇总表可在汇总表页面下选择“自动汇聚”页签查看。 数据标准是否重名:默认关闭,打开后数据标准可以重名。 导入数据标准时自动创建目录:默认开启,打开后导入数据标准时可以自动创建目录。 自动关联数据标准依据:支持“按名称”和“按英文名称”两种方式自动关联数据标准。 是否启用公共层:开关打开后,可将当前空间转化为公共层空间。公共层空间的码表和数据标准会共享给所有普通空间;普通空间可以查询、引用公共层空间的码表和数据标准,但无法进行新增、修改和删除的操作。 当前空间转换为公共层空间后,不支持回退为普通空间,其他普通空间也不能再转换为公共层空间。请谨慎选择您的公共层空间。 公共层空间无法反向查询、引用或操作普通空间的数据。 时间限定生成使用动态表达式:开关打开后,则使用动态时间表达式;如开关关闭,则默认使用原有的静态时间表达式。例如时间限定设置为最近30天:如果使用静态表达式,如果当前为9月,生成的最近30天的数据就是8月,即使当前到了10月,生成的数据还是8月,不能自动更新;如果使用动态表达式,当前到了10月,最近30天自动更新为9月。动态表达式时间函数举例如下所示: 图3 动态表达式 如果第一次打开开关,需重置DDL模板中的衍生指标。如之前有修改过DDL模板,请先做好模板备份。重置模板会将原来修改过的模板覆盖,重置后需要将原来修改的内容重新编辑一次。 信息架构页面表查询时,主题支持并列查询个数:默认为1个,暂不支持设置。 码表数据落库并行行数:码表维度发布后,设置将码表的数值填入维度表中时的并行操作行数。当码表数值较多时,会导致落库失败,可以适当调小该参数。 码表生成质量规则:下拉选择即可。当码表的数据量较小时,选择“枚举值校验”即可;否则选择“字段一致性校验”。 选择“字段一致性校验”的前提是码表在数据库中存在,通过以下方式生成的码表会在数据库中存在: 逆向数据库生成的码表。 新建维度时,通过码表维度发布的码表。 汇总表引用维度字段命名规则:设置汇总表在新建、编辑、导入和生成时的命名规则,可选“维度表名_维度属性名”和“维度属性名”。 导出文件类型:数据架构导出功能支持“xlsx”和“et”两种格式。逻辑模型、物理模型、维度(表)、事实表、汇总表以及其他导出均支持两种格式。 生成数据服务API:包含“按汇总表整表生成单个API”和“按汇总表指标生成数个API”两种生成数据服务API的方式。
  • 主题流程配置 主题流程配置用于自定义主题设计中的主题层级和自定义属性。系统默认有三个层级,从上到下分别命名为主题域分组(L1)、主题域(L2)、业务对象(L3)。您可以自定义的主题层级限制在最大7层,最少2层。自定义属性最多可以配置10个。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“主题流程配置”页签。 在主题层级区域,可对主题层级进行增加、删除和编辑操作。 在“操作”栏中单击按钮可以添加自定义主题层级项,完成后单击“确定”。 在“操作”栏中单击按钮可以删除主题层级项,完成后单击“确定”。 除最后一层业务对象外,其它层级均可以通过单击对应的层级名称实现“编辑”操作。 在主题自定义项区域,可对属性进行增加、删除和编辑操作。 在“主题自定义项”右侧,单击“新建”可新增一条自定义属性。主题自定义项属性的可选值支持一次性可输入多个值,可选值不可重复。 在“操作”栏中单击按钮可以删除一条自定义属性。 单击对应的属性名称(中文)、属性名称(英文)、可选值,是否必填,描述,实现“编辑”操作。 在流程层级数区域,可设置流程设计的层数,层级最小3级,最大7级。
  • 标准模板管理 标准模板管理用于自定义数据标准的默认选项。首次进入数据架构的数据标准页面,也会显示制定数据标准模板的页面。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“标准模板管理”。 如下图所示,在“可选项”中勾选所需要的选项,单击“新建”按钮可以添加自定义项,完成后单击“确定”。 标准模板支持“是否可搜索”、“是否必填”、“可选值”。 保存模板后,在新建数据标准时需要设置此处模板中所选中选项的参数值。 首次进入数据架构的数据标准页面,可选项默认选取“数据长度”和“描述”,其他选项请按需求勾选。 添加自定义项时,支持同时添加中文与英文的自定义项。 图1 标准模板管理
  • 查看已审核、待审核、我的申请 待我审核 在DataArts Studio数据架构的左侧导航树中,单击“审核中心”,选择“待我审核”页签,可以查看待审核的对象。 已审核 在DataArts Studio数据架构的左侧导航树中,单击“审核中心”,选择“已审核”页签,可以查看已通过审核的对象。 我的申请 在DataArts Studio数据架构的左侧导航树中,单击“审核中心”,选择“我的申请”页签,可以查看自己提交审核的对象。
  • 审核人员审核对象 如果您是审核人员,请使用审核人员的账号参考以下步骤审核对象。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在左侧导航树中,单击“审核中心”,选择“待我审核”页签,在列表中找到需要审核的对象,然后在该对象所在行单击“审核”。 您也可以勾选多个待审核的对象,然后单击“批量审核”按钮进行批量审核。 图1 审核 在审核的详情页面,确认信息无误后,单击“通过”,然后在弹出对话框中输入审核意见并单击“确定”完成审核。 如果信息有误,请单击“驳回”,然后在弹出对话框中输入审核意见并单击“确定”完成审核。 图2 审核信息
  • 消息通知 在数据架构控制台,单击“审核中心”,进入审核中心页面。 单击“消息通知”,进入消息通知页面,如下图所示。 图5 消息通知页面 您可以进行如下操作: 通过操作列“确认”,已确认知晓所选消息的相关变化。系统支持批量确认操作。当数据标准发生变化后,关联数据标准的对象(逻辑模型、物理模型、维度表、事实表、汇总表)所对应负责人会收到数据标准变化信息通知。 查询:支持通过属性筛选或者关键字模糊搜索消息通知信息。
  • 待我审核 在DataArts Studio数据架构控制台的左侧导航栏中,单击“审核中心”,进入审核中心页面,系统默认显示待审核页面,如下图所示。 图3 待审核页面 功能区域 说明 1 批量审核: 勾选多个待审核信息。 单击,弹出“批量审核”对话框。 输入有效的审核意见。 单击“批量通过”,所选审核信息通过审核;单击“批量驳回”,所选审核信息被驳回。 2 单个审核: 单击操作列“审核”,进入指定待审核信息的审核页面。 根据实际情况选择审核结果(通过或驳回),并输入有效的审核的意见。 单击“确定”,完成审核。 3 :通过该按钮过滤出修改时间段内的待审核信息。 :通过该按钮查询对象和创建人的待审核信息。 :通过该按钮设置待审核表的表列项。 :刷新按钮。
  • 新建衍生指标并发布 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“技术指标”,选择“衍生指标”页签进入衍生指标页面。 在左侧的主题目录中选中一个主题,然后单击“新建”按钮,开始新建衍生指标。 在新建衍生指标页面,根据页面提示配置参数。 图1 新建衍生指标 表1 新建衍生指标参数说明 参数名称 说明 *数据表 在下拉列表中选择即可。 *所属主题 显示所属的主题信息。 *原子指标 选择原子指标。 统计维度 在下拉列表中,选择一个或多个维度。此处只能选择原子指标所关联的事实表中的属性。 时间限定 在下拉框中选择所需要的时间限定,并选择关联的字段。系统预置了一些时间限定,如果不能满足需求,请参考新建时间限定进行创建。 通用限定 如需设置通用限定,可以单击“新建”按钮新建一个或多个通用限定。只能包含中文、英文字母、数字和下划线,且只能以中文或英文字母开头。 如图2所示,在新建通用限定区域,通过以下配置新建一个通用限定。 限定名称:指定通用限定的名称。 添加条件(且):单击该下拉框,选择“且条件”或者“或条件”可以添加相应的条件,然后在字段下拉框中选择一个字段,并根据页面提示设置条件。您可以添加多个条件。 当选择的字段是字符串类型(例如string、varchar)时,并且条件选择“属于”或“不属于”时,支持从码表中导入数据。单击“从码表导入”,在码表配置页面,选择“码表”和“码表字段”,单击“确定”。导入的码表值数量不能超过50。 在某个条件后面单击删除按钮,可以将该条件删除。 添加公式(且):单击该下拉框,选择“且公式”或者“或公式”可以添加相应的公式,然后再单击“编辑公式”按钮,在弹出对话框中选择所需要的“函数”和“字段”,并设置“表达式”。 在某个公式后面单击删除按钮,可以将该公式删除。 图2 通用限定 告警配置 由衍生指标和表达式组成,表达式由告警参数和逻辑运算符组成。在指标运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。 参数配置完成后,单击“预览”,可以查看该衍生指标的相关信息,并定义名称、编码、数据类型、告警条件和描述等信息。 表2 预览衍生指标参数说明 参数名称 说明 名称 系统已根据原子指标、统计维度、时间限定等参数自动生成,您也可以自定义。 编码 系统已根据原子指标、统计维度、时间限定等参数编码自动生成,您也可以自定义。 数据类型 系统已根据原子指标的数据类型自动生成,您也可以自定义。 告警条件 告警条件表达式由告警参数和逻辑运算符组成。在指标运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。 描述 描述信息。支持的长度为0~600个字符。 在页面下方,单击“试运行”按钮,然后在弹出框中单击“试运行”按钮,测试所设置的衍生指标是否可以正常运行。 如果试运行失败,请根据错误提示定位错误原因,将配置修改正确后,再单击“试运行”按钮进行重试。 如果试运行成功,单击“发布”,提交发布审核。 在弹出框中,选择审核人,单击“确认提交”,提交审核。 如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已发布”。 选择审核人时,系统支持选择多个审核人,全部审批通过后,状态才会显示为已发布。如果有任意一个人驳回,则状态为已驳回。 (可选)参考步骤2~步骤8,完成其他衍生指标的发布。 等待审核人员审核。 审核通过后,衍生指标创建完成。 衍生指标创建完成后,单击指标名称,可以查看该衍生指标的详情、关系图、发布历史和审核历史。 通过关系图,可以查看该衍生指标的血缘图。 通过发布历史,可以查看该衍生指标的发布历史和不同发布版本之间的差异对比。
  • 背景信息 原子指标来源于事实表和维度表: 原子指标是为了构建应用统计分析所需的衍生指标而定义的数据组件,因此可以基于事实逻辑表明细数据表来创建,也可以基于维度表来创建。 衍生指标无来源表,它归属于每个组合成它的原始的原子指标的来源表。 原子指标与衍生指标的关系: 原子指标的计算逻辑修改生效后,会直接更新应用于相关的衍生指标。 原子指标删除英文名,需要校验下游是否有衍生指标使用,如果有,则无法删除。 目前原子指标在被下游使用的情况下,支持变更英文名。 原子指标的更改会影响下游衍生指标。
  • 函数说明 新建原子指标时,需要按照函数设定表达式。以聚合函数的部分函数为例,函数说明如表3所示: 表3 聚合函数说明 函数名 表达式 函数说明 avg(col) avg() 求平均值。 corr(col1, col2) corr() 返回两列数值的相关系数。 count(*) count() 返回记录条数。 covar_pop(col1, col2) covar_pop() 返回两列数值协方差。 covar_samp(col1, col2) covar_samp() 返回两列数值样本协方差。 max(col) max() 返回最大值。 min(col) min() 返回最小值。 stddev_pop(col) stddev_pop() 返回指定列的偏差。 stddev_samp(col) stddev_samp() 返回指定列的样本偏差。 sum(col) sum() 求和。 var_samp(col) var_samp() 返回指定列的样本方差。 如果想要查询更多函数的功能及说明,可以在新建原子指标页面的基本信息中的设定表达式项,单击对应函数,在页面右侧的函数说明框中会显示对应的函数说明。 图4 函数说明
  • 编辑复合指标 在数据架构控制台,单击左侧导航树的“技术指标”,然后选择“复合指标”页签,进入复合指标页面。 图2 复合指标 在复合指标列表中,找到需要编辑的复合指标,单击“编辑”,进入“编辑复合指标”页面。 根据实际需要修改配置参数。参数说明请参见表1。 在页面下方,单击“试运行”按钮,然后在弹出框中单击“试运行”按钮,测试所设置的复合指标是否可以正常运行。 如果试运行失败,请根据错误提示定位错误原因,将配置修改正确后,再单击“试运行”按钮进行重试。 如果试运行成功,单击“发布”,提交发布审核。 在弹出框中单击“确认提交”,提交审核。
  • 通过逆向数据库导入事实表 通过逆向数据库,您可以从其他数据源中将一个或多个已创建的数据库表导入到事实表目录中,使其变成事实表。 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。 在事实表的列表上方,单击“逆向数据库”。 在“逆向数据库”对话框中,配置如下参数,然后单击“确定”。 表4 逆向数据库配置 参数名称 说明 *所属主题 在下拉列表中选择所属主题。 *数据连接类型 在下拉列表中将显示逆向数据库支持的数据连接类型,请选择所需要的数据连接类型。 *数据连接 选择数据连接。 如需从其他数据源逆向数据库到事实表目录中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见配置DataArts Studio数据连接参数。 *数据库 选择数据库。 *Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。 队列 DLI队列。仅当“数据连接类型”选择“DLI”时,该参数有效。 更新已有表 如果从其他数据源逆向过来的表,在事实表中已存在同名的表,选择是否更新已有的事实表。 名称来源 逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。 来自描述 来自英文名称 说明: 进行逆向数据库配置时,如果逆向后表中文名称/字段中文名称的来源选择“来自描述”,则用中文名在进行描述时,表的字段注释不能重复。 *数据表 选择全部或部分需导入的数据表。 选择部分搜索时,支持通过多个表进行筛选,多表之间用英文分号进行分隔。搜索名称最大不超过2000字符。每次最多返回20条数据。 图15 逆向配置 逆向数据库的结果会在“上次逆向”页面中显示。如果逆向成功,单击“关闭”。如果逆向失败,您可以查看失败原因,问题解决后,选中失败的表,然后单击“重新逆向”进行重试。 图16 逆向结果
  • 逆向数据库导入表到维度模型中 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在DataArts Studio数据架构控制台,单击左侧导航栏的“维度建模”进入维度建模页面。 打开需要逆向数据库导入的维度或表的页签,从下拉列表选择需要逆向数据库的维度或表,然后单击列表上方的“逆向数据库”。 图1 选中对象 在“逆向数据库”对话框中配置参数。 表1 逆向数据库 参数名称 说明 所属主题 单击“选择主题”按钮选择所属的主题信息。 数据连接类型 选择维度建模的逆向数据库。 数据连接 选择所需要的数据连接。 如需从其他数据源逆向数据库到关系模型中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见配置DataArts Studio数据连接参数。 数据库 选择数据库。 队列 仅限DLI连接类型,需选择DLI队列。 Schema DWS或POSTGRESQL的模式。该参数在DWS或POSTGRESQL连接类型有效。 更新已有表 在导入时,只有创建或更新操作,不会删除已有的表。 不更新:如果表已存在,将直接跳过,不更新。 更新:如果表已存在,更新已有的表信息。如果表处于“已发布”状态,表更新后,您需要重新发布表,才能使更新后的表生效。 名称来源 逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。 来自描述 来自英文名称 说明: 进行逆向数据库配置时,如果逆向后表中文名称/字段中文名称的来源选择“来自描述”,则用中文名在进行描述时,表的字段注释不能重复。 数据表 选择“全部”时,将数据库中的所有的表都导入。 选择“部分”时,请选择需要导入的表。 单击“确定”开始执行逆向数据库操作。等待操作执行完成,即可在“上次逆向”中查看结果或者执行重新逆向操作。
  • 删除维度 如果您已不再需要某个维度,可以删除该维度。如果待删除的维度已发布,则无法执行删除操作,您必须先将该维度下线后,才能执行删除操作,具体操作请参见下线维度。 在数据架构控制台,单击左侧导航树中的“维度建模”,进入相应页面后,选择“维度”页签。 在维度列表中找到需要删除的维度,勾选该维度,然后单击维度列表上方“更多”中的“删除”按钮。 在系统弹出的“删除”对话框中,确认无误后,单击“确定”将维度删除。 删除弹框中的“删除物理表”勾选后,删除时将同步删除数据库里的物理表。
  • 发布维度 如果新建了维度但并未发布,可以执行以下步骤发布维度: 在数据架构控制台,单击左侧导航树中的“维度建模”,进入相应页面后,选择“维度”页签。 在维度列表中找到需要发布的维度,单击“发布”。 在弹出对话框中,选择审核人,单击“确认提交”,审批完成后,完成维度的发布。 企业模式下,进行发布时,可以选择发布到生产环境或开发环境。默认发布到生产环境,不勾选则无法发布。 您也可以执行以下步骤批量发布维度: 在数据架构控制台,单击左侧导航树中的“维度建模”,进入相应页面后,选择“维度”页签。 在维度列表中勾选需要发布的维度,单击列表上方的“发布”。 在弹出对话框中,选择审核人和作业调度时间,单击“确认提交”,审批完成后,完成维度的发布。 企业模式下,进行发布时,可以选择发布到生产环境或开发环境。默认发布到生产环境,不勾选则无法发布。 注意,此处“数据质量作业调度时间”指的是维度发布后,自动创建质量作业的调度时间。 图6 批量发布维度
  • 通过逆向数据库导入维度 通过逆向数据库,您可以从其他数据源中将一个或多个已创建的数据库表导入到维度目录中,使其变成维度。 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。 在维度列表上方,单击“逆向数据库”。 在“逆向数据库”对话框中,配置如下参数,然后单击“确定”。 表5 逆向数据库配置 参数名称 说明 *所属主题 在下拉列表中选择所属主题。 *数据连接类型 在下拉列表中将显示逆向数据库支持的数据连接类型,请选择所需要的数据连接类型。 *数据连接 选择数据连接。 如需从其他数据源逆向数据库到维度目录中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见配置DataArts Studio数据连接参数。 *数据库 选择数据库。 *Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。 队列 DLI队列。仅当“数据连接类型”选择“DLI”时,该参数有效。 更新已有表 如果从其他数据源逆向过来的表,在维度中已存在同名的表,选择是否更新已有的维度。 名称来源 逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。 来自描述 来自英文名称 说明: 进行逆向数据库配置时,如果逆向后表中文名称/字段中文名称的来源选择“来自描述”,则用中文名在进行描述时,表的字段注释不能重复。 *数据表 选择全部或部分需导入的数据表。 选择部分搜索时,支持通过多个表进行筛选,多表之间用英文分号进行分隔。搜索名称最大不超过2000字符。每次最多返回20条数据。 图7 逆向配置 逆向数据库的结果会在“上次逆向”页面中显示。如果逆向成功,单击“关闭”。如果逆向失败,您可以查看失败原因,问题解决后,选中失败的表,然后单击“重新逆向”进行重试。 图8 逆向结果
  • 管理码表 建立好码表后,可以对码表进行查找、编辑、下线或发布等操作。 在数据架构控制台,单击左侧导航树中的“码表管理”,进入码表管理页面。您可以对码表进行管理。 普通空间均可查询到“公共层空间”目录下创建的码表,“公共层空间”无法反向查询到普通空间目录下创建的码表。 普通空间仅对本空间内创建的码表和目录有编辑权限,不支持对“公共层空间”的码表和其所属的目录进行操作,仅能查看引用。 图13 码表管理 编辑 在码表列表中,找到所需要的码表,单击其所在行的“编辑”,即可编辑指定的码表。 发布 在码表列表中,对于状态为“草稿”或“已驳回”的码表,单击其所在行的“发布”,并在弹出框中选择审核人并单击“确认提交”,即可发布该码表提交审核。等待审核人员审核通过后,码表就发布成功了。如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,码表状态显示为“已发布”。 下线 在码表列表中,对于状态为“已发布”的码表,单击其所在行的“更多-下线”,并在弹出框中选择审核人并单击“确认提交”,即可提交下线申请。等待审核人员审核通过后,码表就下线成功了。 填写数值 在码表列表中,找到所需要的码表,单击其所在行的“更多-填写数值”,可以快速设置各字段的值。 发布历史 在码表列表中,找到所需要的码表,单击其所在行的“更多-发布历史”,可以查看码表的发布历史和变更详情,并支持进行版本对比。
  • 通过逆向数据库导入码表 通过逆向数据库,您可以从其他数据源中将一个或多个已创建的数据库表导入到码表目录中,使其变成码表。 在数据架构控制台,单击左侧导航树中的“码表管理”,进入码表管理页面。 在左侧的码表目录树中,选中一个目录,然后在码表列表上方,单击“逆向数据库”。 在“逆向数据库”对话框中,配置如下参数,然后单击“确定”。 表5 逆向数据库配置 参数名称 说明 *数据连接类型 在下拉列表中将显示逆向数据库支持的数据连接类型,请选择所需要的数据连接类型。 *数据连接 选择数据连接。 如需从其他数据源逆向数据库到码表目录中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见配置DataArts Studio数据连接参数。 *数据库 选择数据库。 *Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。 队列 DLI队列。仅当“数据连接类型”选择“DLI”时,该参数有效。 更新已有表 如果从其他数据源逆向过来的表,在码表中已存在同名的表,选择是否更新已有的码表。 名称来源 逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。 来自描述 来自英文名称 说明: 进行逆向数据库配置时,如果逆向后表中文名称/字段中文名称的来源选择“来自描述”,则用中文名在进行描述时,表的字段注释不能重复。 逆向表数据 不逆向:逆向数据库时,将表导入到码表目录中,但是不导入表数据。您可以在完成逆向数据库后,参考填写数值到码表中添加记录到码表中。 覆盖:逆向数据库时,将表导入到码表目录中,同时将表数据导入到该码表中。 *数据表 选择一个或多个需导入的数据表。 选择部分搜索时,支持通过多个表进行筛选,多表之间用英文分号进行分隔。搜索名称最大不超过2000字符。每次最多返回20条数据。 图8 逆向配置 逆向数据库的结果会在“上次逆向”页面中显示。如果逆向成功,单击“关闭”。如果逆向失败,您可以查看失败原因,问题解决后,选中失败的表,然后单击“重新逆向”进行重试。 图9 逆向结果
  • 数据架构总览 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面,查看“总览”,如图1所示。 图1 数据架构总览 我的待办 显示“我的申请”和“待我审核”的数量。 单击每一项上面统计数量将分别跳转到“我的申请”和“待我审核”页面。 资产概览 显示数据架构中所有对象的总量。 单击每个对象名称后的统计数量将跳转到该对象的管理页面。 快捷入口 显示数据架构 数据治理 方法的整体流程。单击流程下的具体操作,可以跳转到对应的界面。 数据架构流程 显示数据架构流程以及与DataArts Studio其他模块间的交互关系。关于数据架构流程的详细描述,请参见数据架构使用流程。 将鼠标移至流程图上的对象名称之上,页面上将显示对象的描述信息。 对于DataArts Studio已支持的对象,单击对象名称,可跳转至该对象的管理页面。
  • 模型设计方法概述 根据业务需求抽取信息的主要特征,模拟和抽象出一个能够反映业务信息(对象)之间关联关系的模型,即数据模型。数据模型也是可视化的展现企业内部信息如何组织的蓝图。数据模型应满足三方面要求:能比较真实地模拟业务(场景);容易被人所理解;便于在IT系统中实现。 在DataArts Studio数据架构的数据建模过程中,用到的建模方法主要有以下三种: 关系建模 关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。 用户在关系建模过程中,可以从数仓规划去设计物理模型。 物理模型:是在逻辑数据模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放,例如:所选的 数据仓库 是DWS或MRS_Hive。 维度建模 维度建模是从分析决策的需求出发构建模型,它主要是为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。 多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。典型的维度模型有星形模型,以及在一些特殊场景下使用的雪花模型。 数据集市 又称为DM(Data Mart),DM面向展现层,数据有多级汇总,由一个特定的分析对象及其相关的统计指标组成的,向用户提供了以统计粒度为主题的所有统计数据。 在DataArts Studio数据架构中,维度建模是以维度建模理论为基础,抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,通过数据集市构建出汇总模型。
  • Apache server日志 日志样例: [Mon Jan 08 20:43:51.854334 2018] [mpm_event:notice] [pid 36465:tid 140557517657856] AH00489: Apache/2.4.12 (Unix) OpenSSL/1.0.1t configured -- resuming normal operations 正则表达式为: ^\[(.*)\] \[(.*)\] \[(.*)\] (.*).* 解析结果如下: 表5 Apache server日志解析结果 列号 样值 1 Mon Jan 08 20:43:51.854334 2018 2 mpm_event:notice 3 pid 36465:tid 140557517657856 4 AH00489: Apache/2.4.12 (Unix) OpenSSL/1.0.1t configured -- resuming normal operations
  • Log4J日志 日志样例: 2018-01-11 08:50:59,001 INFO [org.apache.sqoop.core.SqoopConfiguration.configureClassLoader(SqoopConfiguration.java:251)] Adding jars to current classloader from property: org.apache.sqoop.classpath.extra 正则表达式为: ^(\d.*\d) (\w*) \[(.*)\] (\w.*).* 解析出的结果如下: 表1 Log4J日志解析结果 列号 样值 1 2018-01-11 08:50:59,001 2 INFO 3 org.apache.sqoop.core.SqoopConfiguration.configureClassLoader(SqoopConfiguration.java:251) 4 Adding jars to current classloader from property: org.apache.sqoop.classpath.extra
  • Log4J审计日志 日志样例: 2018-01-11 08:51:06,156 INFO [org.apache.sqoop.audit.FileAuditLogger.logAuditEvent(FileAuditLogger.java:61)] user=sqoop.anonymous.user ip=189.xxx.xxx.75 op=show obj=version objId=x 正则表达式为: ^(\d.*\d) (\w*) \[(.*)\] user=(\w.*) ip=(\w.*) op=(\w.*) obj=(\w.*) objId=(.*).* 解析结果如下: 表2 Log4J审计日志解析结果 列号 样值 1 2018-01-11 08:51:06,156 2 INFO 3 org.apache.sqoop.audit.FileAuditLogger.logAuditEvent(FileAuditLogger.java:61) 4 sqoop.anonymous.user 5 189.xxx.xxx.75 6 show 7 version 8 x
  • Django日志 日志样例: [08/Jan/2018 20:59:07 ] settings INFO Welcome to Hue 3.9.0 正则表达式为: ^\[(.*)\] (\w*) (\w*) (.*).* 解析结果如下: 表4 Django日志解析结果 列号 样值 1 08/Jan/2018 20:59:07 2 settings 3 INFO 4 Welcome to Hue 3.9.0
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全