检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置元数据采集任务 本章主要介绍如何通过配置元数据采集策略新建采集任务,不同类型的数据源对应的采集策略不尽相同。元数据管理依据采集任务的配置策略,采集对应的技术元数据信息。 约束与限制 当元数据采集任务未指定采集范围时,默认采集该数据连接下的所有数据表/文件。采集任务运行完成后,如果该数据连接下有新增数据表
新建数据对账作业 数据对账对于数据开发和数据迁移流程中的数据一致性至关重要,而跨源数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。 数据质量监控中的对账作业支持跨源数据对账能力,可将创建的规则应用到两张表中进行质量监控,并输出对账结果。 创建作业 在DataArts
数据开发调用数据质量算子并且作业运行的时候需要传入质量参数 由于数据质量作业在执行SQL语句时不支持传参,通过数据开发调用数据质量算子,运行的时候可以把数据质量作业的参数传递给数据质量算子作业,实现数据质量的参数传递。 使用场景 数据质量需要传递参数到数据质量算子作业里面并且能够正常运行
配置DWS目的端参数 作业中目的连接为DWS连接时,目的端作业参数如表1所示。 表1 目的端为DWS时的作业参数 参数名 说明 取值样例 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 自动创表 只有当源端为关系数据库时
新建数据质量作业 质量作业可将创建的规则应用到建好的表中进行质量监控。 配置流程 在DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。 (可选)选择“数据质量监控 > 质量作业”,新建目录。如果已存在可用的目录,可以不用新建目录。注意,
查看任务监控 监控元数据采集任务运行情况,查看采集日志,支持重跑采集任务。 在数据目录页面,选择“元数据采集 > 任务监控”。在任务监控页面,对采集任务进行监控,参考表1。 表1 监控采集任务 参数名 说明 任务名称 采集任务的名称。 实例状态 实例(即采集任务)的状态。 成功 部分成功
获取质量报告规则评分 功能介绍 获取质量报告规则评分。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/quality/report/rules 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目
MySQL数据迁移到MRS Hive分区表 MapReduce服务(MapReduce Service,简称MRS)提供企业级大数据集群云服务,里面包含HDFS、Hive、Spark等组件,适用于企业海量数据分析。 其中Hive提供类SQL查询语言,帮助用户对大规模的数据进行提取、
获取质量报告子规则字段评分 功能介绍 获取质量报告子规则字段评分。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/quality/report/sub-rule/results 表1 路径参数 参数 是否必选 参数类型 描述 project_id
步骤3:服务退订 本开发场景中,DataArts Studio、OBS和DLI服务均会产生相关费用。在使用过程中,如果您额外进行了通知配置,可能还会产生以下相关服务的费用: SMN服务:如果您在使用DataArts Studio各组件过程中开启了消息通知功能,则会产生消息通知服务费用
MySQL迁移时报错“JDBC连接超时”怎么办? 问题描述 MySQL迁移时报错:Unable to connect to the database server. Cause: connect timed out。 原因分析 这种情况是由于表数据量较大,并且源端通过where语句过滤
如何查看表行数和库大小 在数据治理流程中,我们常常需要统计数据表行数或数据库的大小。其中,数据表的行数可以通过SQL命令或数据质量作业获取;数据库大小可以直接在数据目录组件中查看,详情请参考如下操作指导: 统计数据表行数 统计数据库大小 统计数据表行数 对于不同类型的数据源,DataArts
发现敏感数据 完成了敏感数据识别规则组定义后,就可以根据定义的规则来创建敏感数据识别任务,发现敏感数据,并将敏感数据同步到数据地图组件。 敏感数据发现任务运行后,为使该识别规则在静态脱敏任务中生效,必须在“敏感数据分布>手工修正”页面对任务中的识别规则进行“确认”,使规则状态变更为
更新管理 更新漏洞 DataArts Studio云服务通过华为云安全公告密切跟踪漏洞,如Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)、Fastjson存在反序列化漏洞(CNVD-2022-40233)等,如发现服务模块涉及漏洞影响,会迅速通过官方解决方案升级现网更新漏洞
在PaaS、SaaS场景下,华为云也会基于控制原则承担所提供服务或组件的安全配置、漏洞修复、安全防护和入侵检测等职责。 客户:无论在任何云服务类别下,客户数据资产的所有权和控制权都不会转移。
PostgreSQL到MRS Hudi参数调优 源端优化 PostgreSQL抽取优化。 暂无优化配置项。 目的端优化 Hudi写入优化。 Hudi表写入性能慢,优先审视表设计是否合理,建议使用Hudi Bucket索引的MOR表,并根据实际数据量配置Bucket桶数,以达到Migration
SQLServer到MRS Hudi参数调优 源端优化 SQLServer抽取优化。 可通过在作业任务配置参数单击中“添加自定义属性”来新增SQLServer同步参数。 图1 添加自定义属性 可使用的调优参数具体如下: 表1 全量阶段优化参数 参数名 类型 默认值 说明 scan.incremental.snapshot.backfill.skip
MySQL到MRS Hudi参数调优 源端优化 MySQL抽取优化。 可通过在作业任务配置参数单击中“添加自定义属性”来新增MySQL同步参数。 图1 添加自定义属性 可使用的调优参数具体如下: 表1 全量阶段优化参数 参数名 类型 默认值 说明 scan.incremental.snapshot.backfill.skip
Oracle到MRS Hudi参数调优 源端优化 Oracle抽取优化。 暂无优化配置项。 目的端优化 Hudi写入优化。 Hudi表写入性能慢,优先审视表设计是否合理,建议使用Hudi Bucket索引的MOR表,并根据实际数据量配置Bucket桶数,以达到Migration写入性能最佳
诊断数据安全风险 数据安全诊断能够对数据安全能力进行全面诊断,并根据诊断结果,给出修复建议及解决方案。帮助您快速建立起基本数据安全体系,保障数据使用过程的安全可靠。 约束与限制 当前仅支持MRS数据源的安全诊断能力。 安全诊断的扫描任务超时时间为1小时。 数据权限控制诊断项,空间管理员与安全管理员仅统计用户