华为云用户手册

  • 建立主机数据连接 开发Python脚本前,我们需要建立一个到弹性 云服务器ECS 的连接。 在 DataArts Studio 控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。 图1 选择管理中心 在管理中心页面,单击“数据连接”,进入数据连接页面。 图2 创建数据连接 单击“创建数据连接”,进入“创建数据连接”页面中。 图3 创建数据连接 参见表1配置相关参数,创建主机连接名称为“ecs”的数据连接,如图4所示。 表1 主机连接 参数 是否必选 说明 数据连接类型 是 主机连接固定选择为主机连接。 数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和中划线,且长度为1~50个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头。且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 默认全选。全选适用组件后,在支持该数据源的组件内都可以使用本连接。各组件支持的数据源请参考DataArts Studio支持的数据源。 基础与网络连通配置 主机地址 是 Linux操作系统主机的IP地址。 请参考“查看云服务器详细信息”获取。 绑定Agent 是 选择 CDM 集群,CDM集群提供Agent。 说明: CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 在调度Shell、Python脚本时,Agent会访问E CS 主机,如果Shell、Python脚本的调度频率很高,ECS主机会将Agent的内网IP加入黑名单。为了保障作业的正常调度,强烈建议您使用ECS主机的root用户将绑定Agent(即CDM集群)的内网IP加到/etc/hosts.allow文件里面。 CDM集群的内网IP获取方式请参见查看集群基本信息/修改集群配置。 端口 是 主机的SSH端口号。 Linux操作系统主机的默认登录端口为22,如有修改可通过主机路径“/etc/ssh/sshd_config”文件中的port字段确认端口号。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中已创建的密钥。 数据源认证及其他功能配置 用户名 是 主机的登录用户名。 登录方式 是 选择主机的登录方式: 密钥对 密码 密钥对 是 “登录方式”为“密钥对”时,显示该配置项。 主机的登录方式为密钥对时,您需要获取并上传其私钥文件至OBS,在此处选择对应的OBS路径。 说明: 此处上传的私钥文件应和主机上配置的公钥是一个密钥对,详情请参见密钥对使用场景介绍。 密钥对密码 是 如果密钥对未设置密码,则不需要填写该配置项。 密码 是 “登录方式”为“密码”时,显示该配置项。 主机的登录方式为密码时,填写主机的登录密码。 主机连接描述 否 主机连接的描述信息。 图4 新建主机连接 关键参数说明: 主机地址:已开通ECS主机中开通的ECS主机的IP地址。 绑定Agent:已开通批量数据迁移增量包中开通的CDM集群。 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。 测试通过后,单击“确定”,完成数据连接的创建。
  • 环境准备 已开通弹性云服务器,并创建ECS,ECS主机名为“ecs-dgc”。 本示例主机选择“CentOS 8.0 64bit with ARM(40GB)”的公共镜像,并且使用ECS自带的Python环境,您可登录主机后使用python命令确认服务器的Python环境。 已开通数据集成增量包,CDM集群名为“cdm-dlfpyhthon”,提供数据开发模块与ECS主机通信的代理。 请确保ECS主机与CDM集群网络互通,互通需满足如下条件: CDM集群与ECS主机同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。 CDM集群与ECS主机处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 此外,您还必须确保该ECS主机与CDM集群所属的企业项目必须相同,如果不同,需要修改工作空间的企业项目。
  • 操作场景 当您确认不再使用当前集群后,可以删除当前CDM集群。 删除CDM集群后集群以及数据都销毁且无法恢复,请您谨慎操作! 删除集群前,请您确认如下注意事项: 待删除集群确认已不再使用,且其中的连接和作业数据您已通过批量管理作业中的导出作业功能进行备份。 对于购买DataArts Studio服务时系统赠送的CDM集群,非常不建议您进行删除操作。该集群删除后无法再次赠送,只能另外购买。 删除集群后,CDM集群不再按需计费或扣除套餐时长。如果您为删除的CDM集群购买了CDM折扣套餐或包年包月形式的DataArts Studio数据集成增量包,则请参考云服务退订章节进行套餐包退订。
  • 创建CDM集群并绑定EIP 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为DataArts Studio服务CDM组件使用,参考创建集群创建CDM集群。 关键配置如下: CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群所在VPC、子网、安全组,选择与 MRS 集群所在的网络一致。 CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MRS HDFS。 图1 集群列表 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。
  • 创建表/文件迁移作业 在创建表/文件迁移作业时,选择已创建的源端连接器、目的端连接器。 图1 配置作业 单击“下一步”,进入“字段映射”配置页面后,单击源字段图标。 图2 配置字段映射 选择“自定义字段”页签,填写字段名称及字段值后单击“确认”按钮,例如: 名称:InputTime。 值:${timestamp()},更多时间宏变量请参见表1。 图3 添加字段 表1 时间变量宏定义具体展示 宏变量 含义 实际显示效果 ${dateformat(yyyy-MM-dd)} 以yyyy-MM-dd格式返回当前时间。 2017-10-16 ${dateformat(yyyy/MM/dd)} 以yyyy/MM/dd格式返回当前时间。 2017/10/16 ${dateformat(yyyy_MM_dd HH:mm:ss)} 以yyyy_MM_dd HH:mm:ss格式返回当前时间。 2017_10_16 09:00:00 ${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)} 以yyyy-MM-dd HH:mm:ss格式返回时间,时间为当前时间的前一天。 2017-10-15 09:00:00 ${timestamp()} 返回当前时间的时间戳,即1970年1月1日(00:00:00 GMT)到当前时间的毫秒数。 1508115600000 ${timestamp(-10, MINUTE)} 返回当前时间点10分钟前的时间戳。 1508115000000 ${timestamp(dateformat(yyyyMMdd))} 返回今天0点的时间戳。 1508083200000 ${timestamp(dateformat(yyyyMMdd,-1,DAY))} 返回昨天0点的时间戳。 1507996800000 ${timestamp(dateformat(yyyyMMddHH))} 返回当前整小时的时间戳。 1508115600000 添加完字段后,新增的字段在界面不显示样值,不会影响字段值的传输,CDM会将字段值直接写入目的端。 这里“添加字段”中“自定义字段”的功能,要求源端连接器为JDBC连接器、HBase连接器、MongoDB连接器、ElasticSearch连接器、Kafka连接器,或者目的端为HBase连接器。 添加完字段后,请确保自定义入库时间字段与目的端表字段类型相匹配。 单击“下一步”配置任务参数,一般情况下全部保持默认即可。 单击“保存并运行”,回到作业管理的表/文件迁移界面,在作业管理界面可查看作业执行进度和结果。 作业执行成功后,单击作业操作列的“历史记录”,可查看该作业的历史执行记录、读取和写入的统计数据。 在历史记录界面单击“日志”,可查看作业的日志信息。 前往目的端数据源查看数据迁移的入库时间。
  • 数据架构使用流程 DataArts Studio数据架构的流程如下: 图1 数据架构流程 准备工作: 添加审核人:在数据架构中,业务流程中的步骤都需要经过审批,因此,需要先添加审核人。只有工作空间管理员角色的用户才具有添加审核人的权限。 管理配置中心:数据架构中提供了丰富的自定义选项,统一通过配置中心提供,您需要根据自己的业务需要进行自定义配置。 数据调研:基于现有业务数据、行业现状进行数据调查、需求梳理、业务调研,输出企业业务流程以及数据主题划分。 主题设计:通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。 主题域分组:基于业务场景对主题域进行分组。 主题域:互不重叠数据的高层面的数据分类,用于管理其下一级的业务对象。 业务对象:指企业运作和管理中不可缺少的重要人、事、物信息。 流程设计:针对流程的一个结构化的整体框架,描述了企业流程的分类、层级以及边界、范围、输入/输出关系等,反映了企业的商业模式及业务特点。 标准设计:新建码表&数据标准。 新建码表:通常只包括一系列允许的值和附加文本描述,与数据标准关联用于生成值域校验质量监控。 新建数据标准:用于描述公司层面需共同遵守的属性层数据含义和业务规则。其描述了公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。 模型设计:应用关系建模和维度建模的方法,进行分层建模。 关系建模:基于关系建模,新建SDI层和DWI层两个模型。 SDI:Source Data Integration,又称贴源数据层。SDI是源系统数据的简单落地。 DWI:Data Warehouse Integration,又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。 维度建模:基于维度建模,新建DWR层模型并发布维度和事实表。 DWR:Data Warehouse Report,又称数据报告层。DWR基于多维模型,和DWI层数据粒度保持一致。 维度:维度是用于观察和分析业务数据的视角,支撑对数据进行汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。 事实表:归属于某个业务过程的事实逻辑表,可以丰富具体业务过程所对应事务的详细信息。 指标设计:新建业务指标和技术指标,技术指标又分为原子指标、衍生指标和复合指标。 指标:指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。 业务指标用于指导技术指标,而技术指标是对业务指标的具体实现。 原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一致,与多维模型中的最细数据粒度保持一致。 原子指标中仅含有唯一度量,所含其它所有与该度量、该业务对象相关的属性,旨在用于支撑指标的敏捷自助消费。 衍生指标:是原子指标通过添加限定、维度卷积而成,限定、维度均来源于原子指标关联表的属性。 复合指标:由一个或多个衍生指标叠加计算而成,其中的维度、限定均继承于衍生指标。 注意,不能脱离衍生指标、维度和限定的范围,去产生新的维度和限定。 数据集市建设:新建DM层并发布汇总表。 DM (Data Mart):又称数据集市。DM面向展现层,数据有多级汇总。 汇总表:汇总表是由一个特定的分析对象(如会员)及其相关的统计指标组成的。组成一个汇总逻辑表的统计指标都具有相同的统计粒度(如会员),汇总逻辑表面向用户提供了以统计粒度(如会员)为主题的所有统计数据(如会员主题集市)。 父主题: 数据架构组件
  • 性能影响因素 根据迁移模型,可以看出CDM数据迁移的速率受源端读取速度、网络带宽、目的端写入性能、CDM集群和作业配置等因素影响。 表1 性能影响因素 影响因素 说明 业务相关因素 作业抽取并发数配置 创建CDM迁移作业时,支持设置该作业的抽取并发数。 该参数设置为适当的值可以有效提升迁移速度,过小则会限制迁移速度,过大则会导致任务过载、迁移失败。 迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。 表中每行数据大小为1MB以下的可以设置多并发抽取,超过1MB的建议单线程抽取数据。 集群最大抽取并发数规格 该参数设置为适当的值可以有效提升迁移速度,过小则会限制迁移速度,过大则会导致源端负载过高、影响系统稳定性。 不同规格的CDM集群支持的的最大抽取并发数规格不同,并发数上限建议设置为vCPU核数*2。 cdm.large:16 cdm.xlarge:32 cdm.4xlarge:128 业务模型 如果大量CDM作业同时执行,当超过当前CDM集群的并发执行作业数时,会导致作业排队,耗时提升。 建议您将迁移作业的运行时间错开,平摊在业务周期内,避免资源紧张导致迁移时间过长。 数据模型 数据迁移时,对于不同的数据结构,迁移速度也会受到一定影响。例如: 对于表迁移,宽表的迁移速度较慢,字符串类型越多(字段大小)迁移速度越慢。 对于文件而言,总大小相同时,大文件迁移较快,多个小文件迁移较慢。 对于消息而言,消息内容越多,所占带宽越高,每秒事务(TPS)越低。 源端读取速度 取决于源端数据源的性能。 如需优化,请参见源端数据源的相关说明文档。 网络带宽 CDM集群与数据源之间可以通过内网、公网VPN、NAT或专线等方式互通。 通过内网互通时,网络带宽是根据不同的CDM实例规格的带宽限制的。 cdm.large实例规格CDM集群网卡的基准/最大带宽为0.8/3 Gbps。 cdm.xlarge实例规格CDM集群网卡的基准/最大带宽为4/10 Gbps。 cdm.4xlarge实例规格CDM集群网卡的基准/最大带宽为36/40 Gbps。 通过公网互通时,网络带宽受到公网带宽的限制。CDM侧公网带宽规格受限于CDM集群所绑定的弹性公网IP,数据源侧受限于其所访问的公网带宽规格。 通过VPN、NAT或专线互通时,网络带宽受到VPN、NAT或专线带宽的限制。 目的端写入性能 取决于目的端数据源的性能。 如需优化,请参见目的端数据源的相关说明文档。
  • 数据迁移模型 CDM数据迁移时,简化的迁移模型如图1所示。 图1 CDM数据迁移模型 CDM通过数据迁移作业,将源端数据迁移到目的端数据源中。其中,主要运行逻辑如下: 数据迁移作业提交运行后,CDM会根据作业配置中的“抽取并发数”参数,将每个作业拆分为多个Task,即作业分片。 不同源端数据源的作业分片维度有所不同,因此某些作业可能出现未严格按作业“抽取并发数”参数分片的情况。 CDM依次将Task提交给运行池运行。根据集群配置管理中的“最大抽取并发数”参数,超出规格的Task排队等待运行。
  • 逆向数据库导入表到模型中 在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 在模型总览中找到所需要执行逆向数据库导入的模型,单击卡片进入模型,单击上方的“逆向数据库”。 图1 逆向数据库 在“逆向数据库”对话框中配置如下参数。 图2 配置逆向数据库参数 表1 逆向数据库 参数名称 说明 所属主题 单击“选择主题”按钮选择所属的主题信息。 数据连接类型 如果逆向到逻辑模型,请在下拉列表中选择所需要的连接类型。 如果逆向到物理模型,将显示当前模型的连接类型。 数据连接 选择所需要的数据连接。 如需从其他数据源逆向数据库到关系模型中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见管理数据连接。 数据库 选择数据库。 队列 仅限 DLI 连接类型,需选择DLI队列。 Schema 仅限DWS连接类型,需设置DWS模式。 更新已有表 在导入时,如果所要导入的表在关系模型中已存在,是否更新已有的表。在导入时,系统将按表编码进行判断将要导入的表在当前的关系模型中是否已存在。在导入时,只有创建或更新操作,不会删除已有的表。 不更新:如果表已存在,将直接跳过,不更新。 更新:如果表已存在,更新已有的表信息。如果表处于“已发布”状态,表更新后,您需要重新发布表,才能使更新后的表生效。 数据表 选择“全部”时,将数据库中的所有的表都导入关系模型中。 选择“部分”时,请选择需要导入关系模型的表。 起始页 当数据表选择“全部”时,需要配置。 单击“确定”开始执行逆向数据库操作。
  • 配置API参数 配置API基本信息后,即可配置API参数。这里将配置API的后端服务和请求参数。 表2 API参数配置说明 配置 说明 协议 用于传输请求的协议,支持HTTP和HTTPS协议。 用于数据服务模块向待注册 API服务 传输请求。 请求方式 HTTP请求方法(也称为操作或动词),它告诉服务你正在请求什么类型的操作。用于数据服务模块向待注册API服务传输请求。 GET:请求服务器返回指定资源。 POST:请求服务器新增资源或执行特殊操作。 后端服务HOST 待注册API服务所在的Host,不能以http://或https://开头,并且不包含Path。 后端服务PATH 待注册API服务所在的Path,Path中支持参数,参数要放在{}中,如/user/{userid}。 后端超时(ms) 设置后端超时时间。 后端服务参数 请求参数位置支持Path、Header、Query,不同的请求方式所支持的可选参数位置不一样,请根据产品上提供的可选项按需选择。 常量参数 常量参数即参数值是固定的参数,对调用者不可见,API调用时不需传入常量参数,但后台服务始终接收这里定义好的常量参数及参数值。适用于当您希望把API的某个参数的取值固定为某个值以及要对调用者隐藏参数的场景。
  • 开发Hive SQL作业 Hive SQL脚本开发完成后,我们为Hive SQL脚本构建一个周期执行的作业,使得该脚本能定期执行。 创建一个数据开发模块空作业,作业名称为“job_hive_sql”。 图2 创建job_hive_sql作业 然后进入到作业开发页面,拖动MRS Hive SQL节点到画布中并单击,配置节点的属性。 图3 配置MRS Hive SQL节点属性 关键属性说明: SQL脚本:关联开发Hive SQL脚本中开发完成的Hive SQL脚本“hive_sql”。 数据连接:默认选择SQL脚本“hive_sql”中设置的数据连接,支持修改。 数据库:默认选择SQL脚本“hive_sql”中设置的数据库,支持修改。 节点名称:默认显示为SQL脚本“hive_sql”的名称,支持修改。 作业编排完成后,单击,测试运行作业。 如果运行成功,单击画布空白处,在右侧的“调度配置”页面,配置作业的调度策略。 图4 配置调度方式 该作业调度时间在2021/01/01至2021/01/25,每天2点调度一次作业。 最后我们需要提交版本,执行调度作业,实现作业每天自动运行。
  • 场景描述 在配置作业配置调度时,可以选择每个月的最后一天执行。如果您需要配置作业的调度时间为每月最后一天,请参考下面两种方法。 表1 配置每月最后一天进行调度 配置方法 优势 如何配置 调度周期配置为天,通过条件表达式进行判断是否为每月最后一天 可以灵活适用多种场景。只需要编写条件表达式就可以灵活调度作业去运行。例如,每月最后一天,每月七号等。 方法1 调度周期配置为月,勾选每月最后一天 通过配置调度周期来执行任务调度。不用编写开发语句,通过勾选需要调度的时间去执行任务。 方法2
  • 删除API 在DataArts Studio控制台首页,选择实例,点击“进入控制台”,选择对应工作空间的“数据服务”模块,进入数据服务页面。 图2 选择数据服务 在左侧导航栏选择服务版本(例如:专享版),进入总览页。 在左侧选择“API目录”,进入API列表页,勾选需要删除的API,单击“删除”。 只有未发布状态(如已创建、已下线)的API可以删除,已停用或发布状态不可删除。 批量删除API最多同时删除1000个API。 单击“确定”,完成API删除。
  • 新建脱敏算法 在DataArts Studio控制台首页,选择实例,点击“进入控制台”,选择对应工作空间的“数据安全”模块,进入数据安全页面。 图1 选择数据安全 在数据安全控制台左侧的导航树中单击“脱敏算法”,进入脱敏算法页面。 单击“新建”,新建脱敏算法。 图2 新建脱敏算法 新建脱敏算法参数配置请参考表3,参数配置完成单击“确定”即可。 图3 算法配置 脱敏算法参数说明表: 表3 配置脱敏算法参数说明 配置 说明 *算法名称 即规则所属分类,支持按模板添加内置规则和自定义规则。 描述 对当前算法进行简单描述。 *算法模板 算法模板基于已有内置算法模板,对算法进行自定义。可选的算法类型和算法请参考内置脱敏算法介绍。
  • 相关操作 编辑算法:在脱敏算法页面,单击对应算法操作栏中的“编辑”,即可修改算法参数。 不同算法是否支持编辑和支持修改的参数因实际算法不同有所差异,请以操作界面为准。 测试算法:在脱敏算法页面,单击对应算法操作栏中的“测试”,即可测试该算法。 建议您在使用算法之前,使用算法测试功能,以保证自己选择了合适的算法。 不同算法是否支持测试因实际算法不同有所差异,请以操作界面为准。 删除算法:在脱敏算法页面,单击对应算法操作栏中的“删除”,即可删除算法。当需要批量删除时,可以在勾选算法后,在列表上方单击“批量删除”。 注意,内置算法不支持删除,已在脱敏策略或指定列脱敏中引用的自定义算法无法删除。若要删除已引用的自定义算法,需要先修改引用关系,再进行删除操作。 删除操作无法撤销,请谨慎操作。
  • 内置脱敏算法介绍 隐私保护管理脱敏算法模块提供了如下算法类型。 表1 算法类型介绍 算法类型 算法简述 典型应用场景 应用举例 原始数据 脱敏后数据 哈希 使用加盐、密钥等哈希函数对数据进行转换。 结构化、非结构化数据的匿名化均适用。 HMAC-SHA256哈希 460031234567890 A34329AE133C48C 截断 舍弃属性值的后几位信息来保证数据的模糊性。 结构化、非结构化数据的匿名化均适用。 针对标识符、准标识符的匿名化。 截断后4位 18012345678 1801234 掩码 将属性值的部分字符替换为固定的特殊字符。(例如*) 结构化、非结构化数据的匿名化均适用针对标识符、准标识符的匿名化。 掩码后4位 18012345678 1801234**** 加密 调用DWS和Hive内置的解密算法对 数据加密 。 对加密的目标源有严格限制 AES加密 98 2bd806c97f0e00af1a1fc3328fa763a9269723c8db8fac4f93af71db186d6e 隐私保护管理脱敏算法模块提供了如下内置脱敏算法供您选择使用。建议您在选择算法之前,可以使用预先提供的内置算法配置和测试功能,以保证自己选择了合适的算法。 表2 内置算法介绍 算法类型 内置算法名称 算法描述 是否支持配置 哈希 HMAC-SHA256哈希 使用HMAC-SHA256算法进行哈希处理 支持配置盐值和密钥 说明: 算法使用前必须先配置密钥,此算法才能正常使用。 算法盐值由您自行配置,而非系统给出的安全随机数,请关注相应使用风险。 SHA-256哈希 使用SHA-256算法进行哈希处理 支持配置盐值 说明: 算法盐值由您自行配置,而非系统给出的安全随机数,请关注相应使用风险。 截断 数值类型截断 保留小数点前x位,将小数点前第1到x-1位、小数点后的位数全部截断并填补为0。 例如x=3时,1234截断为1200,999.999截断为900,10.7截断为0。 支持配置保留小数点前几位 日期类型截断 截断日期指定位置 支持配置日期格式和掩盖范围 掩码 dws指定列全掩码 dws指定数据列全脱敏 仅当静态脱敏任务中源端、目标端数据源同为DWS,且执行引擎为DWS时才可以选择此算法。 不支持 dws字符型掩码 从start到end的位置脱敏成指定的字符 仅当静态脱敏任务中源端、目标端数据源同为DWS,且执行引擎为DWS时才可以选择此算法。 支持配置开始位置、结束位置和掩码标志 dws数值型掩码 从start到end的位置脱敏成指定的数字 仅当静态脱敏任务中源端、目标端数据源同为DWS,且执行引擎为DWS时才可以选择此算法。 支持配置开始位置、结束位置和掩码标志 身份证号码掩码 掩码身份证号 不支持 银行卡号掩码 掩码银行卡号 不支持 Email掩码 掩码Email信息 不支持 移动设备标识掩码 对设备码进行掩码,支持IMEI、MEDI、ESN 支持配置类型 IPv6掩码 掩码IPv6地址 不支持 IPv4掩码 掩码IPv4地址 不支持 MAC地址掩码 掩码MAC地址 不支持 电话号码掩码 掩码电话号码 不支持 日期类型掩码 对指定日期格式进行掩码,支持ISO、EUR、USA格式 支持配置日期格式和掩盖范围 掩码自x至y 掩码字符串第x至y位字符 支持配置x和y 保留自x至y 保留字符串第x至y位字符 支持配置x和y 掩码前n后m 掩码字符串前n后m位字符 支持配置n和m 保留前n后m 保留字符串前n后m位字符 支持配置n和m 加密 dws列加密 调用 GaussDB (DWS)提供的对称密码算法gs_encrypt_aes128(encryptstr,keystr)实现对DWS数据列的加密,此算法以keystr为密钥对encryptstr字符串进行加密,返回加密后的字符串。 算法注意事项如下: 仅当脱敏任务的目标源为DWS时,此算法才能正确生效。 加密后执行SQL解密时,必须当所有的数据都解密成功时,才能正确返回解密结果,否则解密失败。 支持配置密钥,长度范围为1~16字节。 说明: 算法使用前必须先配置密钥,此算法才能正常使用。 hive列加密 调用MRS提供的Hive列加密功能来实现对Hive数据列的加解密,支持AES和 SMS 4两种加密算法。 算法注意事项如下: 仅当脱敏任务的目标源为Hive时,此算法才能正确生效。 列加密只支持存储在HDFS上的TextFile和SequenceFile文件格式的表。 Hive列加密不支持视图以及Hive over HBase场景。 支持配置加密类型
  • 操作步骤 登录管理控制台,在服务列表中选择“ 云审计 服务 CTS ”,进入云审计服务控制台。 在云审计服务控制台,默认展示事件列表,您可以通过筛选来查询对应的操作事件。 其中,DataArts Studio的相关事件在“事件来源”中包含如下分类: CDM:数据集成组件的事件。 DLF:数据开发组件的事件。 DLG:管理中心、数据架构、数据质量、数据目录和数据服务组件的事件。 图1 CDM操作事件 在需要查看的事件左侧,单击事件名称左侧箭头,展开该记录的详细信息。 在需要查看的记录右侧,单击“查看事件”,弹窗中显示了该操作事件结构的详细信息。 更多关于云审计的信息,请参见云审计服务用户指南。
  • 开发DWS SQL作业 DWS SQL脚本开发完成后,我们为DWS SQL脚本构建一个周期执行的作业,使得该脚本能定期执行。 创建一个数据开发模块空作业,作业名称为“job_dws_sql”。 图2 创建job_dws_sql作业 然后进入到作业开发页面,拖动DWS SQL节点到画布中并单击,配置节点的属性。 图3 配置DWS SQL节点属性 关键属性说明: SQL脚本:关联开发DWS SQL脚本中开发完成的DWS SQL脚本“dws_sql”。 数据连接:默认选择SQL脚本“dws_sql”中设置的数据连接,支持修改。 数据库:默认选择SQL脚本“dws_sql”中设置的数据库,支持修改。 脚本参数:通过EL表达式获取"yesterday"的值,EL表达式如下: #{Job.getYesterday("yyyy-MM-dd")} 节点名称:默认显示为SQL脚本“dws_sql”的名称,支持修改。 作业编排完成后,单击,测试运行作业。 如果运行成功,单击画布空白处,在右侧的“调度配置”页面,配置作业的调度策略。 图4 配置调度方式 说明: 2021/08/06至2021/08/31,每天2点执行一次作业。 单击“提交”,执行调度作业,实现作业每天自动运行。
  • 新建流程 根据业务需求设计流程,流程支持三层至七层,如需要修改,请参考流程层级数。 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据架构”模块,进入数据架构页面。 图1 选择数据架构 单击左侧导航栏中“流程设计”,进入流程设计页面,在流程树中选中一个流程,单击按钮在所选流程下新建流程。首次新建流程时,可选择在流程的根节点下新建流程。 图2 流程设计 在弹出对话框中配置如下参数,然后单击“确定”完成流程的创建。 图3 新建流程 表1 新建流程参数说明 参数名 说明 流程名称 流程名称,只能包含中文、英文字母、数字和下划线。 责任人 流程的责任人,可以手动输入名字或直接选择已有的责任人。 上级流程 选择所属的上级流程。 描述 流程的描述信息。 依次新建更多的流程或子流程。一般需要设计L1~L3三层流程。第一层标识为L1层,第二层标识为L2层,第三层标识为L3。 示例如下: 图4 流程设计示例
  • 导入流程 在数据架构控制台,单击左侧导航树中的“流程设计”,进入流程设计页面。 单击流程列表上方的“导入”按钮导入流程。 在“导入流程”对话框中,根据页面提示配置如下参数,然后先单击“添加文件”后,再单击“上传文件”。 图5 导入流程 表2 导入配置参数说明 参数名 说明 更新已有数据 如果所要导入的流程,在DataArts Studio数据架构中已经存在,是否更新已有的流程。支持以下选项: 不更新:当流程已存在时,将直接跳过,不处理。 更新:当流程已存在时,更新已有的流程信息。 在导入流程时,只有创建或更新操作,不会删除已有的流程。 上传模板 选择所需导入的流程设计文件。 所需导入的流程设计文件,可以通过以下两种方式获得。 下载流程模板并填写模板 在“导入配置”页签内,单击“下载流程模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存后,先添加再上传,完成模板上传。模板参数的详细描述请参见表3。 导出的流程 您可以将某个DataArts Studio实例的数据架构中已建立的流程设计信息导出到Excel文件中。导出后的文件可用于导入。导出流程的操作请参见导出流程。 下载的流程模板参数如表3所示,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。一个流程需要填写一条记录。 表3 流程导入参数说明 参数名 说明 上级流程 第一层的流程,其上级流程为空,不用填。 非第一层的流程,其上级流程不能为空。上级流程为多级流程时,流程之间以“/”分隔。例如“集成产品开发/开发生命周期”。 *名称 流程名称。 *责任人 流程的责任人,可以手动输入名字或直接选择已有的责任人。 描述 流程的描述信息。 导入结果会在“导入流程”对话框的“上次导入”中显示。如果导入结果为“成功”,单击“关闭”完成导入。如果导入失败,您可以在“备注”列查看失败原因,将模板文件修改正确后,再重新上传。
  • 场景二:更新数据目录中的元数据,添加新元数据 用户的数据库中新增了数据表,采集数据源中指定的所有表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table1,table2,table3,table4 按照如下配置,采集任务会采集default下所有的表(table1-table4)。 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”。 单击“新建”。 配置任务信息,如下图所示。 单击“下一步”,配置调度属性如下图所示。 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 场景一:仅添加新元数据 用户的数据库中新增的数据表,采集任务仅采集新增的表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table1,table2,table3,table4 按照下面的配置,采集任务仅会采集table4。(前提:table1-table3已经在数据目录中) 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”。 单击“新建”。 配置任务信息,如下图所示。 单击“下一步”,配置调度属性如下图所示。 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 场景四:更新数据目录中的元数据,添加新元数据 ,并从数据目录中删除元数据 用户的数据库中数据表有删除的情况,采集任务能够删除数据目录中对应的数据表。 例如数据库删除table1的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table2,table3 按照如下配置,采集任务会删除数据目录中的table1。 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”。 单击“新建”。 配置任务信息,如下图所示。 单击“下一步”,配置调度属性如下图所示。 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 场景三:仅更新数据目录中的元数据 用户的数据库中数据表有新增的情况,采集任务仅采集数据目录中已经存在的表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table1,table2,table3 按照如下配置,采集任务仅采集table1,table2和table3。 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”。 单击“新建”。 配置任务信息,如下图所示。 单击“下一步”,配置调度属性如下图所示。 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 通过“响应消息体解析为传递参数定义”获取返回值 如图1所示,第一个Rest Client调用了MRS服务查询集群列表的API,图2为API返回值的JSON消息体。 使用场景:需要获取集群列表中第一个集群的cluster Id,然后作为参数传递给后面的节点使用。 关键配置:在第一个Rest Client的“响应消息体解析为传递参数定义”配置中,配置clusterId=clusters[0].clusterId,后续的Rest Client节点就可以用${clusterId}的方式引用到集群列表中的第一个集群的cluster Id。 响应消息体解析为参数传递定义时,传递的参数名(例如clusterId)在该作业的所有节点参数中需要保持唯一性,避免和其他参数同名。 图1 Rest Clien作业样例1 图2 JSON消息体
  • 通过EL表达式获取返回值 Rest Client算子可与EL表达式相配合,根据具体的场景选择不同的EL表达式来实现更丰富的用法。您可以参考本教程,根据您的实际业务需要,开发您自己的作业。EL表达式用法可参考EL表达式。 如图3所示,Rest Client调用了MRS服务查询集群列表的API,然后执行Kafka Client发送消息。 使用场景:Kafka Client发送字符串消息,消息内容为集群列表中第一个集群的cluster Id。 关键配置:在Kafka Client中使用如下EL表达式获取Rest API返回消息体中的特定字段:#{JSONUtil.toString(JSONUtil.path(Job.getNodeOutput("Rest_Client_4901"),"clusters[0].clusterId"))} 图3 Rest Client作业样例2
  • 查看模型视图 当您在关系模型中完成表的新建后,就可以通过列表视图和模型视图两种形式查看表模型。关系模型页面默认显示为列表视图,您可以切换为模型视图进行查看。 在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 在关系模型树中选择所需要模型,展开模型树,选择一个对象。 关系模型页面默认显示为列表视图,单击列表右上方的“模型视图”按钮,切换为模型视图,如下图所示。单击“列表视图”则可以重新切换回列表视图。 图1 模型视图 在模型视图中支持以下功能: 双击表名,可显示表的详情信息。 单击左上角的“导出图片”按钮,可以将模型视图导出成图片。 在右上角的搜索框中输入表名,可以快速找到的所要查看的表。 功能依次为放大、缩小、全屏、物理模型/逻辑模型切换、刷新、显示画布。
  • 新建复合指标 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据架构”模块,进入数据架构页面。 图1 选择数据架构 在数据架构控制台,单击左侧导航树中的“技术指标”,选择“复合指标”页签。 在“复合指标”页面,在左侧的主题目录中选中一个主题,然后单击“新建”按钮。 在新建复合指标页面,根据页面提示配置以下参数。 图2 新建复合指标 表1 新建复合指标参数说明 参数名称 说明 *复合指标名称 只能包含中文、英文字母、数字和下划线,且必须以中文或英文字母开头。 *复合指标英文名称 只能包含英文字母、数字和下划线,且必须以英文字母开头。 *所属主题 显示所属的主题信息。您也可以单击“选择主题”进行选择。 *统计维度 选择来源于衍生指标的统计维度。 *数据类型 选择复合指标的数据类型。 *复合指标类型 当前支持如下几种类型。 表达式 同比增长率 环比增长率 描述 描述信息。支持的长度为0~600个字符。 表达式 *设定表达式 选择所需要的衍生指标或复合指标,并根据实际需求在“表达式”中设置表达式。 同比增长率 *同比配置 选择年同比、月同比或者周同比。 *设定衍生指标 选择所需要的衍生指标,此处仅展示有时间限定衍生指标。系统会根据同比配置,利用时间限定自动计算同比增长率。 环比增长率 *设定衍生指标 选择所需要的衍生指标,此处仅展示有时间限定衍生指标。系统会利用时间限定自动计算环比增长率。 在页面下方,单击“试运行”按钮,然后在弹出框中单击“试运行”按钮,测试所设置的复合指标是否可以正常运行。 如果试运行失败,请根据错误提示定位错误原因,将配置修改正确后,再单击“试运行”按钮进行重试。 如果试运行成功,单击“发布”,提交发布审核。 在弹出框中单击“确认提交”,提交审核。 等待审核人员审核。 审核通过后,复合指标创建完成。 复合指标创建完成后,单击指标名称,可以查看该复合指标的详情、关系图、发布历史和审核历史。 通过关系图,可以查看该复合指标的血缘图。 通过发布历史,可以查看该复合指标的发布历史和不同发布版本之间的差异对比。
  • 编辑复合指标 在数据架构控制台,单击左侧导航树的“技术指标”,然后选择“复合指标”页签,进入复合指标页面。 图3 复合指标 在复合指标列表中,找到需要编辑的复合指标,单击“编辑”,进入“编辑复合指标”页面。 根据实际需要修改配置参数。参数说明请参见表1。 在页面下方,单击“试运行”按钮,然后在弹出框中单击“试运行”按钮,测试所设置的复合指标是否可以正常运行。 如果试运行失败,请根据错误提示定位错误原因,将配置修改正确后,再单击“试运行”按钮进行重试。 如果试运行成功,单击“发布”,提交发布审核。 在弹出框中单击“确认提交”,提交审核。
  • 产品功能 表/文件/整库迁移 支持批量迁移表或者文件,还支持同构/异构数据库之间整库迁移,一个作业即可迁移几百张表。 增量数据迁移 支持文件增量迁移、关系型数据库增量迁移、HBase/CloudTable增量迁移,以及使用Where条件配合时间变量函数实现增量数据迁移。 事务模式迁移 支持当CDM作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。 字段转换 支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。 文件加密 在迁移文件到文件系统时,CDM支持对写入云端的文件进行加密。 MD5校验一致性 支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。 脏数据归档 支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据单独归档到脏数据日志中,便于用户查看。并支持设置脏数据比例阈值,来决定任务是否成功。
共100000条