华为云用户手册

  • 导入流程 在数据指标控制台,单击左侧导航树中的“流程设计”,进入流程设计页面。 单击流程列表上方的“导入”按钮导入流程。 在“导入流程”对话框中,根据页面提示配置如下参数,然后先单击“添加文件”后,再单击“上传文件”。 图5 导入流程 表2 导入配置参数说明 参数名 说明 更新已有数据 如果所要导入的流程,在 DataArts Studio 数据指标中已经存在,是否更新已有的流程。支持以下选项: 不更新:当流程已存在时,将直接跳过,不处理。 更新:当流程已存在时,更新已有的流程信息。 在导入流程时,只有创建或更新操作,不会删除已有的流程。 上传模板 选择所需导入的流程设计文件。 所需导入的流程设计文件,可以通过以下两种方式获得。 下载流程模板并填写模板 在“导入配置”页签内,单击“下载流程模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存后,先添加再上传,完成模板上传。模板参数的详细描述请参见表3。 导出的流程 您可以将某个DataArts Studio实例的数据指标中已建立的流程设计信息导出到Excel文件中。导出后的文件可用于导入。导出流程的操作请参见导出流程。 下载的流程模板参数如表3所示,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。一个流程需要填写一条记录。 表3 流程导入参数说明 参数名 说明 上级流程 第一层的流程,其上级流程为空,不用填。 非第一层的流程,其上级流程不能为空。上级流程为多级流程时,流程之间以“/”分隔。例如“集成产品开发/开发生命周期”。 *名称 流程名称。 *责任人 流程的责任人。 描述 流程的描述信息。 导入结果会在“导入流程”对话框的“上次导入”中显示。如果导入结果为“成功”,单击“关闭”完成导入。如果导入失败,您可以在“备注”列查看失败原因,将模板文件修改正确后,再重新上传。
  • 新建流程 根据业务需求设计流程,流程支持三层至七层,如需要修改,请参考流程层级数。流程设计最小三层,最大可支持七层。一般从L1顶层开始设计。 一般而言,L1表示流程分类/流程组,回答why to do;L2表示流程,回答what to do;L3表示活动和任务,回答how to do,最小的粒度。用户可根据自己的实际业务需要进行流程的划分和创建。 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据指标”模块,进入数据指标页面。 图1 选择数据指标 单击左侧导航栏中“流程设计”,进入流程设计页面,在流程树中选中一个流程,单击按钮在所选流程下新建流程。首次新建流程时,可选择在流程的根节点下新建流程。 图2 流程设计 在弹出对话框中配置如下参数,然后单击“确定”完成流程的创建。 图3 新建流程 表1 新建流程参数说明 参数名 说明 *流程名称 流程名称,只能包含中文、英文字母、数字和下划线。 *责任人 流程的责任人,可以手动输入名字或直接选择已有的责任人。 上级流程 选择所属的上级流程。 描述 流程的描述信息。 依次新建更多的流程或子流程。一般需要设计L1~L3三层流程。第一层标识为L1层,第二层标识为L2层,第三层标识为L3。流程设计最小三层,最大可支持七层。一般从L1顶层开始设计。 示例如下,L1表示运营,L2表示门店运营,L3表示进销存管理。 图4 流程设计示例
  • 实时集成作业监控:查看作业详细信息 单击作业名称,可以查看该作业的详细信息。 选择“基本信息”,查看该作业的基本信息。 选择“监控信息”,查看该作业的监控信息。 单击“查看监控指标”,进入 云监控服务 界面查看该作业的相关监控指标。 单击“创建告警规则”,进入 云监控 服务的创建告警规则界面,创建该作业的告警规则。 查看已创建的告警规则,包含“名称/ID”、“告警策略”。 查看作业同步进度信息。 选择“日志信息”,查看该作业的详细日志信息,对日志进行下载。
  • 配置作业参数 单击编辑器右侧的“参数”,展开配置页面,配置如表4所示的参数。 表4 作业参数配置 功能 说明 变量 新增 单击“新增”,在文本框中填写作业参数的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1。 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为${参数名称}。 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改。 掩码显示 在参数值为密钥等情况下,从安全角度,请单击将参数值掩码显示。 删除 在参数值文本框后方,单击,删除作业参数。 常量 新增 单击“新增”,在文本框中填写作业常量的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1。 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为${参数名称}。 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改,修改完成后,请保存。 删除 在参数值文本框后方,单击,删除作业常量。 工作空间环境变量 查看工作空间已配置的变量和常量。 单击“作业参数预览”页签,展开预览页面,配置如表5所示的参数。 表5 作业参数预览 功能 说明 当前时间 仅单次调度才显示。系统默认为当前时间。 事件触发时间 仅事件驱动调度才显示。系统默认为事件触发时间。 周期调度 仅周期调度才显示。系统默认为调度周期。 具体时间 仅周期调度才显示。周期调度配置的具体运行时间。 起始日期 仅周期调度才显示。周期调度的生效时间。 后N个实例 作业运行调度的实例个数。 单次调度场景默认为1。 事件驱动调度场景默认为1。 周期调度场景 当实例数大于10时,系统最多展示10个日期实例,系统会自动提示“当前参数预览最多支持查看10个实例”。 在作业参数预览中,如果作业参数配置存在语法异常情况系统会给出提示信息。 如果参数配置了依赖作业实际运行时产生的数据,参数预览功能中无法模拟此类数据,则该数据不展示。
  • 配置作业参数 单击编辑器右侧的“参数”,展开配置页面,配置如表4所示的参数。 表4 作业参数配置 功能 说明 变量 新增 单击“新增”,在文本框中填写作业参数的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为:${参数名称} 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改。 掩码显示 在参数值为密钥等情况下,从安全角度,请单击将参数值掩码显示。 删除 在参数值文本框后方,单击,删除作业参数。 常量 新增 单击“新增”,在文本框中填写作业常量的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为:${参数名称} 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改,修改完成后,请保存。 删除 在参数值文本框后方,单击,删除作业常量。 工作空间环境变量 查看工作空间已配置的变量和常量。 单击“作业参数预览”页签,展开预览页面,配置如表5所示的参数。 表5 作业参数预览 功能 说明 当前时间 仅单次调度才显示。系统默认为当前时间。 事件触发时间 仅事件驱动调度才显示。系统默认为事件触发时间。 周期调度 仅周期调度才显示。系统默认为调度周期。 具体时间 仅周期调度才显示。周期调度配置的具体运行时间。 起始日期 仅周期调度才显示。周期调度的生效时间。 后N个实例 作业运行调度的实例个数。 单次调度场景默认为1。 事件驱动调度场景默认为1。 周期调度场景 当实例数大于10时,系统最多展示10个日期实例,系统会自动提示“当前参数预览最多支持查看10个实例”。 在作业参数预览中,如果作业参数配置存在语法异常情况系统会给出提示信息。 如果参数配置了依赖作业实际运行时产生的数据,参数预览功能中无法模拟此类数据,则该数据不展示。
  • 配置 MRS Flink Jar作业 表1 配置MRS Flink Jar作业属性参数 参数 是否必选 说明 Flink作业名称 是 输入Flink作业名称。 系统支持Flink作业名称按照工作空间-作业名称格式自动填入。 作业名称只能包含英文字母、数字、中划线和下划线,且长度为1~64个字符,不能包含中文字符。 MRS集群名 是 选择MRS集群名称。 说明: 单任务Flink Jar目前支持的MRS集群版本是MRS 3.2.0-LTS.1及以上版本。 运行程序参数 否 配置作业运行参数。当选择了MRS集群名后,该参数才显示。 该参数为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 注意: 系统支持Flink Jar作业运行前能够查询历史checkpoint,并选择从指定checkpoint启动。要使Flink Checkpoin生效,需要配置两个运行参数: 用来控制checkpoint间隔 -yD:execution.checkpointing.interval=1000 用来控制保留的checkpoint数量 -yD:state.checkpoints.num-retained=10 查询checkpoint列表时,配置-s参数,鼠标单击参数值输入框,checkpoint列表参数值会自动弹出。 说明: 若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。 单击“选择模板”,选择已创建好的脚本模板,系统支持可以引用多个模板。创建模板的详细操作请参见配置模板。 MRS Flink作业的运行程序参数,请参见《MapReduce用户指南》中的运行Flink作业。 Flink作业执行参数 否 配置Flink作业执行参数。 Flink程序执行的关键参数,该参数由用户程序内的函数指定。多个参数间使用空格隔开。 MRS资源队列 否 选择已创建好的MRS资源队列。 需要先在数据安全服务队列权限功能中,配置对应的队列后,才能在此处选择到已配置的队列。当有多处同时配置了资源队列时,此处配置的资源队列为最高优先级。 Flink作业资源包 是 选择Jar包。在选择Jar包之前,您需要先将Jar包上传至OBS桶中,并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中,具体操作请参考新建资源。 重跑策略 否 从上一个检查点重跑 重新启动 输入数据路径 否 设置输入数据路径,系统支持从HDFS或OBS的目录路径进行配置。 输出数据路径 否 设置输出数据路径,系统支持从HDFS或OBS的目录路径进行配置。 表2 配置高级参数 参数 是否必选 说明 作业状态轮询时间(秒) 是 设置轮询时间(30~60秒、120秒、180秒、240秒、300秒),每隔x秒查询一次作业是否执行完成。 作业运行过程中,根据设置的作业状态轮询时间查询作业运行状态。 最长等待时间 是 设置作业执行的超时时间,如果作业配置了重试,在超时时间内未执行完成,该作业将会再次重试。 说明: 如果作业一直处于启动中状态,没有成功开始运行,超时后作业会被置为失败。 失败重试 否 节点执行失败后,是否重新执行节点。 是:重新执行节点,请配置以下参数。 超时重试 最大重试次数 重试间隔时间(秒) 否:默认值,不重新执行节点。 说明: 如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。 当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。 当“失败重试”配置为“是”才显示“超时重试”。 参数设置完成后,单击“保存”,并提交该作业。 单击“启动”,运行该作业。
  • 保存作业 作业配置完成后,请执行以下操作: 单击画布上方的“启动”,运行作业。运行完成后,查看执行结果时,双击任意一行的一个字段,可以查看该行的结果详情,支持复制字段名称。 执行结果最多显示1000条数据;执行结果的大小不超过3MB,若超过3MB结果会被截断。 运行完成后,单击画布上方的保存按钮,保存作业的配置信息。 保存后,在右侧的版本里面,会自动生成一个保存版本,支持版本回滚。保存版本时,一分钟内多次保存只记录一次版本。对于中间数据比较重要时,可以通过“新增版本”按钮手动增加保存版本。
  • 配置作业参数 单击编辑器右侧的“参数”,展开配置页面,配置如表4所示的参数。 表4 作业参数配置 功能 说明 变量 新增 单击“新增”,在文本框中填写作业参数的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为:${参数名称} 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改。 掩码显示 在参数值为密钥等情况下,从安全角度,请单击将参数值掩码显示。 删除 在参数值文本框后方,单击,删除作业参数。 常量 新增 单击“新增”,在文本框中填写作业常量的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为:${参数名称} 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改,修改完成后,请保存。 删除 在参数值文本框后方,单击,删除作业常量。 工作空间环境变量 查看工作空间已配置的变量和常量。 单击“作业参数预览”页签,展开预览页面,配置如表5所示的参数。 表5 作业参数预览 功能 说明 当前时间 仅单次调度才显示。系统默认为当前时间。 事件触发时间 仅事件驱动调度才显示。系统默认为事件触发时间。 周期调度 仅周期调度才显示。系统默认为调度周期。 具体时间 仅周期调度才显示。周期调度配置的具体运行时间。 起始日期 仅周期调度才显示。周期调度的生效时间。 后N个实例 作业运行调度的实例个数。 单次调度场景默认为1。 事件驱动调度场景默认为1。 周期调度场景 当实例数大于10时,系统最多展示10个日期实例,系统会自动提示“当前参数预览最多支持查看10个实例”。 在作业参数预览中,如果作业参数配置存在语法异常情况系统会给出提示信息。 如果参数配置了依赖作业实际运行时产生的数据,参数预览功能中无法模拟此类数据,则该数据不展示。
  • 约束与限制 仅当前工作空间的管理员或者拥有DAYU Administrator、Tenant Administrator权限的用户,可新建、修改和删除审批人。 审批人必须为当前工作空间管理员或者拥有DAYU Administrator、Tenant Administrator权限的用户。 当前工作空间为企业模式时,通过任务发布方式进行单据的审批操作,不支持提交脚本或者作业进行审批。 开启审批功能时,相关API的请求体需要增加审批人属性,具体见作业开发API。 审批开关的配置、作业和脚本的审批只能在前台界面进行操作。 有实时Pipeline作业的情况下,不允许打开审批开关。 审批开关打开后,审批中心功能对审批人和单据提交人都可见。审批开关关闭时,仅当前工作空间的管理员或者拥有DAYU Administrator、Tenant Administrator权限的用户可以看到审批中心功能,其他用户不可见。 当前工作空间的管理员或者拥有DAYU Administrator、Tenant Administrator权限的用户不允许审批自己的单据。
  • 未合理配置基线承诺时间和预警余量的场景示例 如果基线承诺时间和预警余量设置不合理,可能会造成基线破线,进而导致基线预警不符合预期。 场景一:当基线承诺时间与基线上任务最晚完成时间相同,且基线未设置预警余量。 任务出现异常时,因为没有预留异常处理时间,容易造成基线破线,基线报警频繁。 场景二:当预警余量设置不合理,即基线预警时间(基线承诺时间-余量)在基线上任务最晚完成时间段内。 任务出现异常时,因为预留的异常处理时间不够,容易造成基线破线,基线报警频繁。 场景三:当基线承诺时间设置不合理,即基线承诺时间设置在基线上任务最晚完成时间之前。 任务将无法在基线承诺时间内完成,基线预警功能会在当天零点进行提前预警。
  • 告警类型 基线预警 基线监控的链路上,首个没有在预警时间(任务节点粒度)完成的任务节点。 基线破线 基线破线报警需满足以下两个条件: 任务节点的上游(包含直接和间接上游)没有出现过破线 该任务没有在承诺时间节点完成 破线加剧 执行变慢导致破线加剧报警触发需满足以下两个条件: 任务所在链路已发送首次“基线破线”报警 任务运行耗时相较于预测运行耗时有所增加 保障任务预警时间未完成 基线预警时间到达(承诺时间-预警余量),检查基线所有保障任务是否完成运行,若有保障任务未运行完成,则触发报警。相同保障任务只报一次。 保障任务承诺时间未完成 基线承诺时间到达,检查基线所有保障任务是否完成运行,若有保障任务未运行完成,则触发报警。相同保障任务只报一次。 任务失败事件 基线监控链路上,任意任务失败或因为错误配置停止调度,则触发失败事件。
  • 配置YASHAN源端参数 作业中源连接从YASHAN导出的数据时,源端作业参数如表1所示。 表1 YASHAN作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句, CDM 将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。 不支持注释 ,比如 "--" ,“/*”。 不支持增删改操作,包括但不限于以下操作: load data delete from alter table create table drop table into outfile 如果SQL语句过长,会导致请求过长下发失败,继续创建作业系统会报错“错误请求”,此时您需要简化或清空SQL语句,再次尝试继续创建作业。 select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 说明: 该参数支持配置通配符(*),实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如: SCHEMA*表示导出所有以“SCHEMA”开头的数据库。 *SCHEMA表示导出所有以“SCHEMA”结尾的数据库。 *SCHEMA*表示数据库名称中只要有“SCHEMA”字符串,就全部导出。 SCHEMA_E 表名 “使用SQL语句”选择“否”时,显示该参数,表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。例如:表名配置为user_[0-9]{1,2},会匹配 user_0 到 user_9,user_00 到 user_99 的表。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 table 高级属性 Where子句 “使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' date类型值是否保留一位精度 date类型值是否保留一位精度。 否 抽取分区字段 “使用SQL语句”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分区字段。 单击输入框后面的按钮可进入字段选择界面,用户也可以直接输入抽取分区字段名。 说明: 抽取分区字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型,建议该字段带有索引。 id 分区字段含有空值 是否允许分区字段包含空值。 多并发抽取时,若确定分区字段不含Null,将该值设为“否”可提升性能,若不确定,请设为“是”,否则可能会丢数据。 否 拆分作业 选择“是”,会根据“作业拆分字段”值,将作业拆分为多个子作业并发执行。 说明: 仅支持目的端为 DLI 和Hive时配置该参数及作业拆分字段、拆分字段最小值、拆分字段最大值、子作业个数参数。 否 作业拆分字段 “拆分作业”选择“是”时,显示该参数,使用该字段将作业拆分为多个子作业并发执行。 - 拆分字段最小值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最小值。 - 拆分字段最大值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最大值。 - 子作业个数 “拆分作业”选择“是”时,显示该参数,根据“作业拆分字段”的最小值和最大值限定的数据范围,将作业拆分为多少个子作业执行。 - 父主题: 配置CDM作业源端参数
  • YASHAN连接参数说明 连接YASHAN时,相关参数如表1 YASHAN连接参数所示。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 表1 YASHAN连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 yashan_link 数据库服务器 配置为要连接的数据库的IP地址或 域名 。 单击输入框后的“选择”,可获取用户的实例列表。 192.168.0.1 端口 配置为要连接的数据库的端口。 1688 数据库名称 配置为要连接的数据库名称。 dbname 用户名 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 cdm 密码 用户名密码。 - 使用Agent Agent功能待下线,无需配置。 - Agent Agent功能待下线,无需配置。 - 引用符号 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 " 驱动版本 不同类型的关系数据库,需要适配不同的驱动,更多详情请参见如何获取驱动。 - 单次请求行数 可选参数,单击“显示高级属性”后显示。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 1000 SSL加密 可选参数,单击“显示高级属性”后显示。 支持启用SSL加密传输。 是 连接属性 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: socketTimeout:配置JDBC连接超时时间,单位为毫秒。 mysql.bool.type.transform:配置mysql读取时,是否将tinyint(1)解析成boolean类型,默认为true。 socketTimeout=300 连接私密属性 自定义私密连接属性。 xxx=xxx 父主题: 配置连接参数
  • 配置LTS源端参数 表1 LTS作为源端时的作业参数 参数名 说明 取值样例 源连接名称 对应关系数据库的表名。 TABLENAME 单次查询数据条数 一次从日志服务查询的数据条数。 128 日志分组 日志组是 云日志 服务进行日志管理的基本单位。 _ 日志流 日志流是日志读写的基本单位。 - 数据消费开始时间 数据消费的开始时间位点,即日志数据到达LogHub(LTS)的时间,该参数为时间范围(左闭右开)的左边界。 20240701235959 数据消费结束时间 数据消费的结束时间位点,为时间范围(左闭右开)的右边界。 20240702235959 父主题: 配置作业源端参数
  • LTS数据连接参数说明(内测) 表1 LTS数据连接 参数 是否必选 说明 数据连接类型 是 LTS连接固定选择为LTS。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 项目ID 是 适用组件勾选数据集成后,呈现此参数。 DLI服务所在区域的项目ID。 项目ID表示租户的资源,账号ID对应当前账号, IAM 用户ID对应当前用户。用户可在对应页面下查看不同Region对应的项目ID、账号ID和用户ID。 注册并登录管理控制台。 在用户名的下拉列表中单击“我的凭证”。 在“API凭证”页面,查看账号名和账号ID、IAM用户名和IAM用户ID,在项目列表中查看项目和项目ID。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建LTS数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 数据集成配置 域名 是 表示通过内部网络访问集群数据库的访问地址,可填写域名。内网访问域名地址在创建集群时自动生成,您可以通过管理控制台获取访问地址: 根据注册的账号登录DWS云服务管理控制台。 从左侧列表选择实例管理。 单击某一个实例名称,进入实例基本信息页面。在连接信息标签中可以获取到域名和端口等信息。 数据源认证及其他功能配置 访问标识(AK) 是 OBS服务访问标识(AK)。 例如:HCXUET8G37MWF。 密钥(SK) 否 OBS服务访问标识对应的密钥(SK)。 父主题: 配置DataArts Studio数据连接参数
  • 支持的监控指标 实时处理集成作业支持的监控指标如表1所示。 表1 实时处理集成作业支持的监控指标 指标ID 指标名称 指标含义 取值范围 单位 进制 测量对象(维度) 监控周期(原始指标) extract_latency 源库WAL抽取时延 该指标用于统计当前从源库抽取WAL的时延。 ≥ 0 ms ms 不涉及 实时处理集成作业 1分钟 flink_read_records_per_second 作业数据输入速率 展示用户Flink作业的数据输入速率,供监控和调试使用。 ≥ 0 record/s record/s 不涉及 实时处理集成作业 1分钟 flink_write_records_per_second 作业数据输出速率 展示用户Flink作业的数据输出速率,供监控和调试使用。 ≥ 0 record/s record/s 不涉及 实时处理集成作业 1分钟 flink_read_records_total 作业数据输入总数 展示用户Flink作业的数据输入总数,供监控和调试使用。 ≥ 0 record/s record/s 不涉及 实时处理集成作业 1分钟 flink_write_records_total 作业数据输出总数 展示用户Flink作业的数据输出总数,供监控和调试使用。 ≥ 0 record/s record/s 不涉及 实时处理集成作业 1分钟 flink_read_bytes_per_second 作业字节输入速率 展示用户Flink作业每秒输入的字节数。 ≥ 0 Byte/s Byte/s 1024(IEC) 实时处理集成作业 1分钟 flink_write_bytes_per_second 作业字节输出速率 展示用户Flink作业每秒输出的字节数。 ≥ 0 Byte/s Byte/s 1024(IEC) 实时处理集成作业 1分钟 flink_read_bytes_total 作业字节输入总数 展示用户Flink作业字节的输入总数。 ≥ 0 Byte Byte 1024(IEC) 实时处理集成作业 1分钟 flink_write_bytes_total 作业字节输出总数 展示用户Flink作业字节的输出总数。 ≥ 0 Byte Byte 1024(IEC) 实时处理集成作业 1分钟 flink_cpu_usage 作业CPU使用率 展示用户Flink作业的CPU使用率。 0%~100% % 不涉及 实时处理集成作业 1分钟 flink_mem_usage 作业内存使用率 展示用户Flink作业的内存使用率。 0%~100% % 不涉及 实时处理集成作业 1分钟 flink_max_op_latency 作业最大算子时延 展示用户Flink作业的最大算子时延时间。 ≥ 0 ms ms 不涉及 实时处理集成作业 1分钟 flink_max_op_backpressure_level 作业最大算子反压 展示用户Flink作业的最大算子反压值,数值从0-1,数值越大,反压越严重。 0~1 - 不涉及 实时处理集成作业 1分钟 binlog_file_read_per_second 每秒binlog文件数 该指标用于统计每秒binlog读取的文件数。 ≥ 0 count/s count/s 不涉及 实时处理集成作业 1分钟 binlog_file_read_total binlog文件总量 该指标用于统计binlog读取的文件总量。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 binlog_bytes_per_second 每秒binlog字节量 该指标用于统计每秒binlog读取的字节量。 ≥ 0 byte/s bytes/s 1024(IEC) 实时处理集成作业 1分钟 binlog_bytes_total binlog字节总量 该指标用于统计binlog读取的字节总量。 ≥ 0 bytes bytes 1024(IEC) 实时处理集成作业 1分钟 insert_sink_num 插入目的端的总数 该指标用于统计插入目的端的总条数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 update_sink_num 更新目的端的总数 该指标用于统计更新目的端的总条数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 delete_sink_num 删除目的端的总数 该指标用于统计删除目的端的总条数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 dirty_records_out 脏数据条数 脏数据条数。 ≥ 0 count records 不涉及 实时处理集成作业 1分钟 dirty_bytes_out 脏数据字节数 脏数据字节。 ≥ 0 bytes bytes 1024(IEC) 实时处理集成作业 1分钟 unsupport_ddls_num 不支持的DDL总数 不支持的DDL总数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 ignored_ddls_num 忽略的DDL总数 忽略的DDL总数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 job_retry_times 任务重试次数 任务重试次数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 queue_job_launching_num 提交中作业数 该指标用于统计队列的提交中作业数。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 queue_job_running_num 运行中作业数 该指标用于统计队列的运行中作业数。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 queue_job_succeed_num 已完成作业数 该指标用于统计队列的已完成作业数。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 queue_job_failed_num 已失败作业数 该指标用于统计队列的已失败作业数。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 queue_job_cancelled_num 已取消作业数 该指标用于统计队列的已取消作业数。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_cpu_usage 资源组CPU使用率 该指标用于统计资源组已使用核心数占总核心数的百分比。 0% ~ 100% % 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_mem_usage 资源组内存使用率 该指标用于统计资源组已使用内存占申请内存总量的百分比。 0% ~ 100% % 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_disk_usage 资源组磁盘使用率 该指标用于统计资源组磁盘已使用磁盘占申请磁盘总量的百分比。 0% ~ 100% % 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_disk_max_usage 资源组磁盘使用率最大值 该指标用于统计资源组磁盘使用率最大值。 0% ~ 100% % 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_cu_num 资源组CU使用量 该指标用于统计资源组CU使用量。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_min_cu_num 资源组最小CU 该指标用于统计资源组最小CU。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_max_cu_num 资源组最大CU 该指标用于统计资源组最大CU。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_alloc_cu_num 资源组CU分配量 该指标用于统计资源组分配给每个队列的CU数量之和。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 apply_ddls_number DDL总数 该指标用于统计向目标库写入的DDL事务总数。 ≥ 0 count Count 不涉及 实时处理集成作业 1分钟 network_incoming_bytes_rate 网络输入吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输入的流量。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 network_outgoing_bytes_rate 网络输出吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输出的流量。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 disk_read_bytes_rate 磁盘读吞吐量 该指标用于统计每秒从磁盘读取的字节数。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 disk_write_bytes_rate 磁盘写吞吐量 该指标用于统计每秒从磁盘写入的字节数。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 disk_util 磁盘利用率 该指标用于统计测量对象的磁盘利用率。 0% ~ 100% % 不涉及 实时处理集成作业 1分钟 extract_bytes_rate 读源库吞吐量 该指标用于统计每秒从源库读取表数据或者WAL的字节数。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 extract_rows_rate 读源库频率 该指标用于统计每秒从源库读取表数据或者WAL的行数。 ≥ 0 row/s row/s 不涉及 实时处理集成作业 1分钟 apply_bytes_rate 写目标库吞吐量 该指标用于统计每秒向目标库写入数据的字节数。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 apply_rows_rate 写目标库频率 该指标用于统计每秒向目标库写入数据的行数。 ≥ 0 row/s row/s 不涉及 实时处理集成作业 1分钟 lag_records 数据堆积 未消费的数据量。 ≥ 0 records records 不涉及 实时处理集成作业 1分钟 insert_num 插入次数 数据插入次数。 ≥ 0 count Count 不涉及 实时处理集成作业 1分钟 update_num 更新次数 数据更新次数。 ≥ 0 count Count 不涉及 实时处理集成作业 1分钟 delete_num 删除次数 数据删除次数。 ≥ 0 count Count 不涉及 实时处理集成作业 1分钟 apply_transactions_rate DML TPS 该指标用于统计每秒向目标库写入的DML事务数。 ≥ 0 transaction/s transaction/s 不涉及 实时处理集成作业 1分钟 apply_ddls_rate DDL TPS 该指标用于统计每秒向目标库写入的DDL事务数。 ≥ 0 record/s record/s 不涉及 实时处理集成作业 1分钟 apply_latency 数据同步时延 该指标用于统计当前数据同步的时。 ≥ 0 ms ms 不涉及 实时处理集成作业 1分钟
  • 操作步骤 参见新建实时集成作业创建一个实时处理集成作业。 配置数据连接类型。 选择源端和目的端的数据类型,支持的源端与目的端请参见新建实时集成作业。 图1 选择数据连接类型 选择集成作业类型。 同步类型:默认为实时,不可更改。 同步场景:包含单表、整库、分库分表场景,各数据源支持的场景不一,详情请参见使用教程。 不同场景介绍如表1所示。 表1 同步场景参数说明 场景类型 说明 单表 支持将源端一个实例下的单张表实时同步至目的端一个实例下的单张表。 整库 支持将源端一个实例下多个库的多张表批量实时同步到目的端一个实例下的多个库表,一个任务中最多支持200张目标表。 分库分表 支持将源端多个实例下多个分库的多张分表同步到目的端一个实例下的单个库表。 图2 选择集成作业类型 配置网络资源。 选择已创建的源端、目的端数据连接及已配置好网络连接的migration资源组。 图3 选择数据连接及migration资源组 无可选数据连接时,可单击“新建”跳转至管理中心数据连接界面,单击“创建数据连接”创建数据连接,详情请参见配置DataArts Studio数据连接参数进行配置。 无可选migration资源组时,可单击“新建”跳转至购买migration资源组页面创建migration资源组配置,详情请参见购买数据集成资源组增量包进行配置。 检测网络连通性。 数据连接和migration资源组配置完成后需要测试整个迁移任务的网络连通性,可通过以下方式进行数据源和migration资源组之间的连通性测试。 单击展开“源端配置”触发连通性测试,会对整个迁移任务的连通性做校验。 单击源端和目的端数据源和migration资源组中的“测试”按钮进行检测。 网络连通性检测异常可先参考数据源和资源组网络不通如何排查?章节进行排查。 配置源端、目标端参数。 各链路源端或目的端参数配置不同,详情请参见使用教程中对应的文档进行配置。 刷新源表和目标表映射,检查映射关系是否正确,同时可根据需求修改表属性、添加附加字段。 (可选)配置DDL消息处理规则。 实时集成作业除了能够同步对数据的增删改等DML操作外,也支持对部分表结构变化(DDL)进行同步。针对支持的DDL操作,用户可根据实际需求配置为正常处理/忽略/出错。 正常处理:Migration识别到源端库表出现该DDL动作时,作业自动同步到目的端执行该DDL操作。 忽略:Migration识别到源端库表出现该DDL动作时,作业忽略该DDL,不同步到目的端表中。 出错:Migration识别到源端库表出现该DDL动作时,作业抛出异常。 图4 DDL配置 配置任务属性。 表2 任务配置参数说明 参数 说明 默认值 执行内存 作业执行分配内存,跟随处理器核数变化而自动变化。 8GB 处理器核数 范围:2-32。 每增加1处理核数,则自动增加4G执行内存和1并发数。 2 并发数 作业执行支持并发数。该参数无需配置,跟随处理器核数变化而自动变化。 1 自动重试 作业失败时是否开启自动重试。 否 最大重试次数 “自动重试”为是时显示该参数。 1 重试间隔时间 “自动重试”为是时显示该参数。 120秒 是否写入脏数据 选择是否记录脏数据,默认不记录脏数据,当脏数据过多时,会影响同步任务的整体同步速度。 链路是否支持写入脏数据,以实际界面为准。 否:默认为否,不记录脏数据。 表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。 是:允许脏数据,即任务产生脏数据时不影响任务执行。 允许脏数据并设置其阈值时: 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。 若产生的脏数据超出阈值范围,同步任务将失败退出。 说明: 脏数据认定标准:脏数据是对业务没有意义,格式非法或者同步过程中出现问题的数据;单条数据写入目标数据源过程中发生了异常,则此条数据为脏数据。 因此只要是写入失败的数据均被归类于脏数据。 例如,源端是VARCHAR类型的数据写到INT类型的目标列中,则会因为转换不合理导致脏数据不会成功写入目的端。用户可以在同步任务配置时,配置同步过程中是否写入脏数据,配置脏数据条数(单个分片的最大错误记录数)保证任务运行,即当脏数据超过指定条数时,任务失败退出。 否 脏数据策略 “是否写入脏数据”为是时显示该参数,当前支持以下策略: 不归档:不对脏数据进行存储,仅记录到任务日志中。 归档到OBS:将脏数据存储到OBS中,并打印到任务日志中。 不归档 脏数据写入连接 “脏数据策略”选择归档到OBS时显示该参数。 脏数据要写入的连接,目前只支持写入到OBS连接。 - 脏数据目录 脏数据写入的OBS目录。 - 脏数据阈值 是否写入脏数据为是时显示该参数。 用户根据实际设置脏数据阈值。 说明: 脏数据阈值仅针对每个并发生效。比如阈值为100,并发为3,则该作业可容忍的脏数据条数最多为300。 输入-1表示不限制脏数据条数。 100 添加自定义属性 支持通过自定义属性修改部分作业参数及开启部分高级功能,详情可参见任务性能调优章节。 - 提交并运行任务。 作业配置完毕后,单击作业开发页面左上角“提交”,完成作业提交。 图5 提交作业 提交成功后,单击作业开发页面“启动”按钮,在弹出的启动配置对话框按照实际情况配置同步位点参数,单击“确定”启动作业。 图6 启动配置 表3 启动配置参数 参数 说明 同步模式 数据源通用同步模式: 增量同步:从指定时间位点开始同步增量数据。 全量+增量:先同步全量数据,随后实时同步增量数据。 Kafka数据源专用同步模式: 最早:从Kafka Topic最早偏移量开始消费数据。 最新:从Kafka Topic最新偏移量开始消费数据。 起止时间:根据时间获取Kafka Topic对应的偏移量,并从该偏移量开始消费数据。 时间 同步模式选择增量同步和起止时间时需要设置该参数,指示增量同步起始的时间位点。 说明: 配置的位点时间早于数据源增量日志最早时间点时,默认会以日志最新时间点开始消费。 配置的位点时间早于Kafka消息最早偏移量时,默认会从最早偏移量开始消费。 监控作业。 通过单击作业开发页面导航栏的“前往监控”按钮,可前往作业监控页面查看运行情况、监控日志等信息,并配置对应的告警规则,详情请参见实时集成任务运维。 图7 前往监控
  • 前提条件 已开通华为账号,并授权使用实时数据集成服务,详情请参考 注册华为账号 并开通华为云和授权使用实时数据集成。 已购买migration资源组,详情请参见购买数据集成资源组。 已准备数据源,对应连接账号具备权限,详情请参考使用前自检概览中对应数据库账号权限要求。 已创建数据连接,且创建的连接必须已勾选数据集成选项,详情请参见创建DataArts Studio数据连接 。 数据集成migration资源组与数据源网络已打通,详情请参见网络打通。
  • 支持的数据源 实时集成作业支持的数据源如表1所示。 表1 实时集成作业支持的数据源 数据源分类 源端数据源 对应的目的端数据源 同步场景 相关文档 说明 关系型数据 MySQL 部署模式:单机、主备(连主库)、PXC。 部署方式:自建、其他云、RDS、 GaussDB 。 Hadoop:MRS Hudi 整库 分库分表 MySQL同步到MRS Hudi作业配置 MySQL数据库支持使用版本:5.6、5.7、8.x版本。 Hudi支持使用版本:0.11.0。 消息系统:DMS Kafka 整库 分库分表 MySQL同步到Kafka作业配置 MySQL数据库支持使用版本:5.6、5.7、8.x版本。 Kafka集群支持使用版本:2.7、3.x版本。 数据仓库 :DWS 整库 分库分表 MySQL同步到DWS作业配置 MySQL数据库支持使用版本:5.6、5.7、8.x版本。 DWS集群支持使用版本:8.1.3、8.2.0及以上版本(除DWS 3.0)。 SQLServer 部署模式:单机、主备(连主库)。 部署方式:自建、其他云、RDS。 数据仓库:DWS(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 整库 SQLServer同步到DWS作业配置 SQLServer支持使用版本:企业版2016、2017、2019、2022版本;标准版2016 SP2及以上版本、2017、2019、2022版本。 DWS支持使用版本:8.1.3、8.2.0及以上版本(除DWS 3.0)。 Hadoop:MRS Hudi(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 整库 SQLServer同步到MRS Hudi作业配置 SQLServer支持使用版本:企业版2016、2017、2019、2022版本,标准版2016 SP2及以上版本、2017、2019、2022版本。 Hudi支持使用版本:0.11.0。 PostgreSQL 部署模式:单机、主备(连主库)。 部署方式:自建、其他云、RDS。 数据仓库:DWS(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 整库 分库分表 PostgreSQL同步到DWS作业配置 PostgreSQL数据库支持使用版本:PostgreSQL 9.4、9.5、9.6、10、11、12、13、14、15、16 版本。 DWS集群支持使用版本:8.1.3、8.2.0及以上版本(除DWS 3.0)。 Hadoop:MRS Hudi(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 整库 PostgreSQL同步到MRS Hudi作业配置 PostgreSQL数据库支持使用版本:PostgreSQL 9.4、9.5、9.6、10、11、12、13、14、15、16 版本。 Hudi支持使用版本:0.11.0。 Open Gauss(GaussDB) 部署模式:集中式版单机、集中式版主备(连主库)、分布式版主备(连主库)。 部署方式:华为云数据库 GaussDB。 数据仓库:DWS(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 整库 GaussDB集中式/分布式同步到DWS作业配置 GaussDB集中式/ 分布式数据库 支持使用版本:内核引擎版本505.1.0、505.1.0.SPC0100、505.2.0。 DWS支持使用版本:8.1.3、8.2.0及以上版本(除DWS 3.0)。 Oracle 部署模式:单机、主备(非RAC架构)。 部署方式:自建。 数据仓库:DWS(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 整库 Oracle同步到DWS作业配置 Oracle数据库支持使用版本:10g、11g、12c、19c版本。 DWS集群支持使用版本:8.1.3、8.2.0及以上版本(除DWS 3.0)。 DMS Kafka(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 整库 Oracle同步到DMS Kafka作业配置 Oracle数据库支持使用版本:10、11、12、19版本。 Kafka支持使用版本:2.7、3.x版本。 Hadoop:MRS Hudi(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 整库 Oracle同步到MRS Hudi作业配置 Oracle数据库支持使用版本:10、11、12、19版本。 Hudi支持使用版本:0.11.0。 消息系统 DMS Kafka 对象存储:OBS 单表 整库 DMS Kafka同步到OBS作业配置 Kafka集群支持使用版本:2.7、3.x版本。 Apache Kafka 部署方式:自建、其他云。 Hadoop:MRS Kafka 整库 Apache Kafka同步到MRS Kafka作业配置 Kafka集群支持使用版本:2.7、3.x版本。 父主题: 数据集成(实时作业)
  • 基本特性 实时数据集成为大数据开发提供了支撑,具有以下特性: 实时性:支持数据秒级同步。 可靠性:通过异常恢复,自动重试等多种机制确保数据的一致性和准确性。 多样性: 数据源多样性:源端和目的端有多种数据源可供选择,为用户提供了多种选择。 场景多样性:部分链路支持全量和增量同步,部分链路支持分库分表。 可维护性:支持作业监控和日志查看,方便运维人员进一步定位。 易用性:长界面更易操作,用户只需配置必要信息,学习成本减低。
  • 功能概述 实时集成作业支持多种数据源、多种场景下的实时数据同步,用户可根据自主需求,一次性全量加实时增量同步多个库表,功能总览如下图所示。 图2 功能总览图 表1 基本功能 功能 描述 多种数据源间的数据同步 支持多种数据源链路组合,您可以将多种输入及输出数据源搭配组成同步链路进行数据同步。详情请参见支持的数据源。 复杂网络环境下的数据同步 支持云数据库、本地IDC、E CS 自建数据库等多种环境下的数据同步。在配置同步任务前,您可以根据数据库所在网络环境,选择合适的同步解决方案来确保数据集成资源组与您将同步的数据来源端与目标端网络环境已经连通,对应数据库环境与网络连通配置详情请参见:网络打通。 多类场景下的数据同步 支持单表、整库及分库分表实时增量数据同步。 单表同步:支持将源端一个实例下的单张表实时同步至目的端一个实例下的单张表。 整库同步:支持将源端一个实例下多个库的多张表批量实时同步到目的端一个实例下的多个库表,一个任务中最多支持200张目标表。 分库分表同步:支持将源端多个实例下多个分库的多张分表同步到目的端一个实例下的单个库表。 实时同步任务配置 支持通过简易的可视化配置完成实时数据同步。 数据源自定义参数配置。 图形化选择源端库表、正则匹配源端库表。 自定义源端与目的端库表匹配规则。 字段映射:附加字段、字段赋值(常量、变量、UDF)。 自动建表。 定义DDL消息处理策略。 实时同步任务运维 支持异常恢复、暂停恢复、动态增减表、配置告警、查看及导出任务日志等运维功能。
  • 使用场景 该功能适用于以下场景: Flink SQL脚本可以引用脚本模板。 在pipeline作业开发中,MRS Flink Job节点可以使用引入了脚本模板的Flink SQL脚本,同时在MRS Flink Job节点的“运行程序参数”里面可以引用参数模板。 在Flink SQL单任务作业中引用脚本模板。 在Flink Jar单任务作业中使用参数模板。 在脚本中引用脚本模板时,SQL语句的写法为@@{脚本模板}。
  • 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以通过字段映射界面的可自定义新增字段。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。 其他场景下,CDM会自动匹配源端和目的端数据表字段,需用户检查字段映射关系和时间格式是否正确,例如:源字段类型是否可以转换为目的字段类型。 您可以单击字段映射界面的选择“添加新字段”自定义新增字段,通常用于标记数据库来源,以确保导入到目的端数据的完整性。 图1 字段映射 目前支持以下类型自定义字段: 常量 常量参数即参数值是固定的参数,不需要重新配置值。例如“lable”=“friends”用来标识常量值。 变量 您可以使用时间宏、表名宏、版本宏等变量来标记数据库来源信息。变量的语法:${variable},其中“variable”指的是变量。例如“input_time”=“${timestamp()}”用来标识当前时间的时间戳。 表达式 您可以使用表达式语言根据运行环境动态生成参数值。表达式的语法:#{expr},其中“expr”指的是表达式。例如“time”=“#{DateUtil.now()}”用来标识当前日期字符串。
  • 约束限制 如果在字段映射界面,CDM通过获取样值的方式无法获得所有列(例如从HBase/CloudTable/MongoDB导出数据时,CDM有较大概率无法获得所有列),则可以单击后选择“添加新字段”来手动增加,确保导入到目的端的数据完整。 关系数据库、Hive、MRS Hudi及DLI做源端时,不支持获取样值功能。 SQLServer作为目的端数据源时,不支持timestamp类型字段的写入,需修改为其他时间类型字段写入(如datetime)。 当作业源端为OBS、迁移CSV文件时,并且配置“解析首行为列名”参数的场景下显示列名。 当使用二进制格式进行文件到文件的迁移时,没有字段映射这一步。 自动创表场景下,需在目的端表中提前手动新增字段,再在字段映射里新增字段。 添加完字段后,新增的字段在界面不显示样值,不会影响字段值的传输,CDM会将字段值直接写入目的端。 如果字段映射关系不正确,您可以通过拖拽字段、单击对字段批量映射两种方式来调整字段映射关系。 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 如CDM不支持源端迁移字段类型,请参见不支持数据类型转换规避指导将字段类型转换为CDM支持的类型。
  • 配置HDFS目的端参数 表1 HDFS作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 写入目录 写入数据到HDFS服务器的目录。 /user/cdm/output 文件格式 传输数据时使用的格式。其中CSV和JSON仅支持迁移到数据表场景,二进制格式适用于文件迁移场景。 CSV格式 换行符处理方式 指定在写入文本文件表的数据包含换行符,特指(\n|\r|\r\n)的情况下处理换行符的策略。 删除 不处理 替换为其他字符串 删除 换行符替换字符串 当换行符处理方式选择为替换时,指定替换的字符串。 - 高级属性 写入到临时文件 文件格式为二进制格式时显示该参数。 将二进制文件先写入到临时文件。临时文件以".tmp"作为后缀。 否 换行符 文件格式为CSV格式时显示该参数。 文件中的换行符,默认自动识别"\n"、"\r"或"\r\n"。手动配置特殊字符,如空格回车需使用URL编码后的值。或通过编辑作业json方式配置,无需URL编码。 \n 字段分隔符 文件格式为CSV格式时显示该参数。 文件中的字段分隔符。配置特殊字符需先url编码。 , 作业成功标识文件 标识文件名。 当作业成功时,在写入目录下生成标识文件。不输入文件名时不启用该功能。 finish.txt 使用包围符 文件格式为CSV格式时显示该参数。 使用包围符来括住字符串值。包围符内的字段分隔符被视为字符串值的一部分,目前只支持"作为包围符。: 否 自定义目录层次 支持用户自定义文件的目录层次。 例如:【表名】/【年】/【月】/【日】/【数据文件名】. csv 否 目录层次 自定义目录层次选择是时显示该参数。 指定文件的目录层次,支持时间宏(时间格式为yyyy/MM/dd)。源端为关系型数据库数据源时,目录层次为源端表名+自定义目录,其他场景下为自定义目录。 ${dateformat(yyyy/MM/dd, -1, DAY)} 文件名前缀 文件格式为CSV格式时显示该参数。 设置文件名前缀。 文件名格式:prefix-jobname-timestamp-index。 data 压缩格式 文件格式为CSV格式时显示该参数。 选择写入文件的压缩格式。 NONE DEFLATE GZIP BZIP2 SNAPPY SNAPPY 加密方式 文件格式为二进制格式时显示该参数。 对上传的数据进行加密。 无 AES-256-GCM 无 数据加密 密钥 文件格式为二进制格式且选择加密方式时显示该参数。 数据加密密钥(Data Encryption Key),AES-256-GCM密钥由长度64的十六进制数组成。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 初始化向量 文件格式为二进制格式且选择加密方式时显示该参数。 设置初始化向量,由长度32的十六进制数组成。 5C91687BA886EDCD12ACBC3FF19A3C3F 父主题: 配置作业目的端参数
  • 配置Redis目的端参数 表1 Redis作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 redis键前缀 对应关系数据库的表名。 TABLENAME 值存储类型 存储类型分STRING、hash、list、set和zset。 STRING 写入前将相同的键删除 写入前是否将相同的键删除。 否 高级属性 键分隔符 用来分隔关系数据库的表和列名。 _ 值分隔符 以STRING方式存储,列之间的分隔符。 存储类型为列表时字串分割成数组的字符。 ; key值有效期 设置统一的生存时间。单位:秒。 3600 父主题: 配置作业目的端参数
  • 配置Redis源端参数 表1 Redis作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 redis键前缀 对应关系数据库的表名。 TABLENAME 值存储类型 存储类型分STRING、HASH。 STRING 高级属性 键分隔符 用来分隔关系数据库的表和列名。 _ 值分隔符 以STRING方式存储,列之间的分隔符。 存储类型为列表时字串分割成数组的字符。 ; 字段相同 “值存储类型”选择“HASH”时,显示该参数,是否允许哈希键内有相同的字段。 否 父主题: 配置作业源端参数
  • 配置RestApi源端参数 表1 RestApi作为源端时的作业参数 参数类型 参数名 说明 是否必须填 取值样例 基本参数 数据请求地址 数据请求地址。 是 /api/getUsers 请求方法 请求方法,支持GET/POST。 是 GET 请求体 请求方法为POST时显示该参数。 请求体,json格式。 是 {"namePrefix":"test"} 每次拉取的数量 每次拉取的数量。 是 1000 分页大小参数名称 分页大小参数名称。 默认会放到query参数中,它的值为每次拉取的数量。 如果body参数中包含此参数名,则会将它的值替换为每次拉取的数量。 是 pageSize 分页页码参数名称 分页页码参数名称。 默认会放到query参数中,它的值为页码。 如果body参数中包含此参数,则会将它的值替换为页面。 是 pageNumber 数据路径 数据路径,指数据在响应json体中的位置,默认为根路径。 否 data.students 数据总数 数据总数,可以支持填写固定值,也可以支持从接口中获取,支持spel表达式。 固定值。 从接口中获取:data.pageCount。 说明: 如果接口不是分页接口,并且只想调用一次,则将数据总数的值设置的小于或者等于每次拉取的数据。 是 固定值时推荐1000 父主题: 配置作业源端参数
  • 操作步骤 参见新建离线处理集成作业创建一个离线处理集成作业。 类型配置。 图1 类型配置 配置数据连接类型,包含配置源端数据类型和目的端数据类型,支持的数据类型请参见支持的数据源。 选择集成作业类型。 同步类型:默认为离线,不可更改。 同步场景:支持单表、分库分表和整库三种同步方式,具体支持的数据源请参见支持的数据源。 设置网络资源配置。 选择已创建的源端数据连接,且创建的连接必须已勾选数据集成选项。连接不存在时可参见创建DataArts Studio数据连接创建所需连接。 需要测试数据源端和资源组之间网络是否可用,不可用时根据界面提示修改。 选择资源组,集群创建可参见创建CDM集群。 选多个集群时系统会随机下发任务,故需要多个集群时版本规格建议选择集群版本一致的集群,否则可能因为集群版本不一致导致作业失败。 选择已创建的目的端数据连接,且创建的连接必须已勾选数据集成选项。连接不存在时可参见创建DataArts Studio数据连接。 需要测试数据连接是否可用,不可用时根据界面提示修改。 配置源端数据参数。 各数据源及各同步场景配置存在一定差异,选择源端配置后,请参见配置作业源端参数配置作业参数。 同步任务源端和目标端字段类型需要注意精度,如果目标端字段类型最大值小于源端最大值(或最小值大于源端最小值,或精度低于源端精度),可能会导致写入失败或精度被截断的风险。 表1 源端需要配置的作业参数 同步场景 源端需要配置参数 字段映射 单表 基本参数 高级属性 支持 分库分表 选择库表方式:精准匹配或正则匹配 高级属性 支持 整库迁移 添加源数据,选择需要迁移的库表 高级属性 不支持 配置目的端数据参数。 各数据源及各同步场景配置存在一定差异,选择目的端配置后,请参见配置作业目的端参数配置作业参数。 同步任务源端和目标端字段类型需要注意精度,如果目标端字段类型最大值小于源端最大值(或最小值大于源端最小值,或精度低于源端精度),可能会导致写入失败或精度被截断的风险。 表2 目的端需要配置的作业参数 同步场景 目的端需要配置参数 字段映射 单表 基本参数 高级属性 支持 分库分表 基本参数 高级属性 支持 整库迁移 选择库匹配策略和表匹配策略 不支持 配置字段映射关系。 配置作业源端参数和目的端参数后,需要配置源端和目的端列的映射关系,配置字段映射关系后,任务将根据字段映射关系,将源端字段写入目标端对应类型的字段中。 字段映射配置:选择字段映射关系、设置字段批量映射规则。 字段映射关系 同名映射:对字段名称相同的字段进行映射。使用已有数据进行相同列名的字段自动映射。 同行映射:源表和目标表的字段名称不一致,但字段对应相同行的数据进行映射。查询源端和目的端的字段,再进行相同行的字段自动映射。 字段批量映射:源端配置使用SQL语句为是时不显示该参数。 批量输入字段映射数据,一行输入一个字段映射,等号左边为源表字段右边为目标表字段,例如:reader_column=writer_column。 单击“查看编辑”,设置批量映射关系。 字段映射关系:支持批量转换,添加字段,行移动等功能。 敏感信息检测:检测来源端数据是否包含敏感信息,存在敏感信息时无法进行数据迁移,需根据界面提示修改。 批量转换器:批量转换源字段名。 勾选需要转换的字段名,单击“批量转换器”,在弹出的转换器列表对话框中根据提示新建转换器。 批量移除字段:源端配置使用SQL语句为是时不显示该参数,勾选需要移除的字段名,单击“批量移除字段”。 已移除的字段可以在添加字段里的“添加被移除的字段”中看到。 添加字段:源端配置使用SQL语句为是时不显示该参数。可以为源端和目的端添加新的字段。包含添加已被移除的字段和添加新字段。 添加新字段支持以下类型: 支持函数,例如mysql填写now()、curdate()、postgresql。 支持填写now()、transaction_timestamp()。 支持函数配合关键字,例如postgresql填写to_char(current_date,'yyyy-MM-dd')。 支持填写固定值,例如:123、'123',这两种填法都代表字符串:123。 支持填写变量值,例如:${workDate},workDate需要在作业变量中进行定义。 JDBC支持填写固定变量,例如:DB_NAME_SRC(原始数据库名称)、TABLE_NAME_SRC(源端表名称)、DATASOURCE_NAME_SRC(源端数据源名称)。 支持as语句,例如:'123' as test, now() as curTime。 行移动:源端配置使用SQL语句为是时,在设置字段映射关系阶段不支持该功能。鼠标拖住需要移动的字段所在行,可以任意移动上下位置。 查看转换器:(可选)CDM支持字段内容转换,如果需要可单击操作列下,进入转换器列表界面,再单击“新建转换器”。转换器使用详情请参见字段转换器配置指导。 查找目的端字段:CDM支持搜索查找目的端字段名并匹配字段,如果需要可单击操作列下,进入匹配目的字段对话框,通过搜索关键字或者直接单击目标进行匹配。 删除字段:CDM支持删除原有表的默认字段,如果需要可单击操作列下删除字段,已移除的字段可以在添加字段里的“添加被移除的字段”中看到。 字段映射样例:源端配置使用SQL语句为是时不显示该参数,查看源端和目的端样例数据。 文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),没有字段映射这一步骤。 整库迁移没有配置字段映射关系这一步骤。 迁移过程中可能存在源端与目标端字段类型不匹配,产生脏数据,导致数据无法正常写入目标端,迁移过程中关于脏数据的容忍条数,请参考下一步任务属性进行配置。 当源端某字段未与目标端字段进行映射时,源端该字段数据将不会同步到目标端。 其他场景下,CDM会自动匹配源端和目的端数据表字段,需用户检查字段映射关系和时间格式是否正确,例如:源字段类型是否可以转换为目的字段类型。 如果字段映射关系不正确,用户可以通过拖拽字段来调整映射关系(源端配置使用SQL语句为否时支持该功能)。 如果在字段映射界面,CDM通过获取样值的方式无法获得所有列,则可以单击自定义新增字段,也可单击操作列下创建字段转换器,确保导入到目的端的数据完整。 支持通过字段映射界面的,可自定义添加常量、变量及表达式。 列名仅支持源端为OBS数据源,迁移CSV文件时配置“解析首行为列名”参数为“是”时显示。 SQLServer作为目的端数据源时,不支持timestamp类型字段的写入,需修改为其他时间类型字段写入(如datatime)。 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 配置任务属性。 通过任务配置,控制数据同步过程的相关属性,具体请参见表3。 表3 任务配置参数 参数 说明 取值样例 作业期望最大并发数 设置当前作业从源端并行读取或并行写入目标端的最大线程数,由于分片策略等原因,实际运行过程中的并发线程数可能小于此值。 其中,集群最大并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2。 例如8核16GB规格集群的最大抽取并发数上限为16。 3 分片重试次数 每个分片执行失败时的重试次数,为0表示不重试。 说明: 目前仅对目的端为Hudi、DWS,导入模式为UPSERT生效,其他场景及配置分片重试次数不生效。 0 是否写入脏数据 选择是否记录脏数据,默认不记录脏数据,当脏数据过多时,会影响同步任务的整体同步速度。 否:默认为否,不记录脏数据。 表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。 是:允许脏数据,即任务产生脏数据时不影响任务执行。 允许脏数据并设置其阈值时: 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。 若产生的脏数据超出阈值范围,同步任务将失败退出。 说明: 脏数据认定标准:脏数据是对业务没有意义,格式非法或者同步过程中出现问题的数据;单条数据写入目标数据源过程中发生了异常,则此条数据为脏数据。 因此只要是写入失败的数据均被归类于脏数据。 例如,源端是VARCHAR类型的数据写到INT类型的目标列中,则会因为转换不合理导致脏数据不会成功写入目的端。用户可以在同步任务配置时,配置同步过程中是否写入脏数据,配置脏数据条数(单个分片的最大错误记录数)保证任务运行,即当脏数据超过指定条数时,任务失败退出。 否 脏数据写入连接 当“是否写入脏数据”为“是”才显示该参数。 脏数据要写入的连接,目前只支持写入到OBS连接。 obslink OBS桶 当“脏数据写入连接”为OBS类型的连接时,才显示该参数。 写入脏数据的OBS桶的名称。 dirtydata 脏数据目录 “是否写入脏数据”选择为“是”时,该参数才显示。 OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。 用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。 /user/dirtydir 单个分片的最大错误记录数 当“是否写入脏数据”为“是”才显示该参数。 单个分区的错误记录超过设置的最大错误记录数则任务自动结束,已经导入的数据不支持回退。 推荐使用临时表作为导入的目标表,待导入成功后再改名或合并到最终数据表。 0 开启限速 是否开启同步限速。该速率代表CDM传输速率,而非网卡流量。 限速:用户可以通过限速控制同步速率,可以保护读取端数据库,避免抽取速度过大,给源库造成太大的压力。限速最小配置为1MB/S。 不限速:在不限速的情况下,任务将在所配置的并发数的限制基础上,提供现有硬件环境下最大的传输性能。 说明: 支持对MRS Hive\DLI\关系数据库\OBS\Apache HDFS作为目的端的作业进行单并发限速。 如果作业配置多并发则实际限制速率需要乘以并发数。 是 单并发速率上限(MB/s) 开启限速情况下设置的单并发速率上限值,如果配置多并发则实际速率限制需要乘以并发数。单位:MB/s。 说明: 限制速率为大于1的整数。 10 单并发行数速率上限 设置单并发行数速率上限,单位:record/s。 100000 中间队列缓存大小 数据写入时中间队列缓存大小,取值范围为1-500。 如果单行数据超过该值,可能会导致迁移失败。 如果该值设置过大时,可能会影响集群正常运行。 请酌情设置,无特殊场景请使用默认值。 64 实时检测作业敏感信息 是否开启了实时检测作业敏感信息。 否 保存作业。 作业配置完毕后,单击作业开发页面左上角“保存”按钮,保存作业的配置信息。 作业如果开启了实时检测作业敏感信息,系统会自动检测来源端数据是否包含敏感信息,存在敏感信息时无法进行数据迁移,须根据界面提示修改。 保存后,在右侧的版本里面,会自动生成一个保存版本,支持版本回滚。保存版本时,一分钟内多次保存只记录一次版本。对于中间数据比较重要时,可以通过“新增版本”按钮手动增加保存版本。 测试运行作业。 作业配置完毕后,单击作业开发页面左上角“测试运行”按钮,测试作业。如果测试未通过,请您查看作业节点的运行日志,进行定位处理。 测试运行类似于单次运行,会对数据进行真实迁移。 用户可以查看该作业的测试运行日志,单击“查看日志”可以进入查看日志界面查看日志的详细信息记录。 作业未提交版本之前,进行手动测试运行,作业监控里面的作业运行实例版本显示是0。 提交作业版本。 若任务需要进行周期性调度运行,您需要将任务发布至生产环境。关于任务发布,详情请参见:发布作业任务。 调度作业。 对已编排好的作业设置调度方式。关于调度作业,详情请参见:调度作业。
  • Apache Hive数据连接参数说明(内测) 表1 Apache Hive数据连接 参数 是否必选 说明 数据连接类型 是 Apache Hive连接固定选择为Apache Hive。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 是否使用集群配置 是 此参数用于选择用户已经创建好的集群配置。 您可以通过使用集群配置,简化Hadoop连接参数配置。 URI 是 使用集群配置为否时,是必选项。 NameNode URI地址。例如:hdfs://nn1_example.com/ Hive元数据地址 是 使用集群配置为否时,是必选项。 设置Hive元数据地址,参考 hive.metastore.uris配置项。例如:thrift://host-192-168-1-212:9083 IP与主机名映射 否 使用集群配置为否时,是必选项。 如果Hadoop配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。 KMS密钥 否 使用集群配置为是时,是必选项。 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 使用集群配置为是时,是必选项。 DataArts Studio无法直接与非全托管服务进行连接,需要提供DataArts Studio与非全托管服务通信的代理。CDM集群可以提供通信代理服务,请选择一个CDM集群,如果没有可用的CDM集群,请参考创建CDM集群进行创建。 数据集成配置 Hive版本 HIVE_3_X 适用组件勾选数据集成后,呈现此参数。 Hive的版本。根据服务端Hive版本设置。 说明: HIVE_3_X支持Hive服务端版本为3.x的连接,HIVE_2_X支持Hive服务端版本为2.x的连接。使用不匹配的连接版本,测试连接有可能正常,也可能会出现查询库表为空,或者作业失败等不正常场景。 属性配置 hive.storeFormat=textfile 适用组件勾选数据集成后,呈现此参数。 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。 useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。 Hive JDBC连接串 否 连接Hive JDBC的url。默认使用匿名用户连接,如需指定用户,请在高级属性中增加hadoop.user.name配置。 例如:SIMPLE:jdbc:hive2://example:10000; KERBEROS:jdbc:hive2://example:10000;principal=${Principle}。 数据源认证及其他功能配置 认证类型 是 认证类型: SIMPLE:非安全模式选择Simple鉴权。 KERBEROS:安全模式选择Kerberos鉴权。 开启ldap 否 当Apache Hive对接外部LDAP开启了LDAP认证时,连接Hive时需要使用LDAP账号与密码进行认证,此时必须开启此参数,否则会连接失败。 ldap用户名 是 当“开启ldap”参数选择为“是”时,此参数是必选项。 填写为Apache Hive开启LDAP认证时配置的用户名。 ldap密码 是 当“开启ldap”参数选择为“是”时,此参数是必选项。 填写为Apache Hive开启LDAP认证时配置的密码。 父主题: 配置DataArts Studio数据连接参数
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全