华为云用户手册

  • 配置作业参数 作业参数为全局参数,可用于作业中的任意节点。操作方法如下: 单击编辑器右侧的“参数”,展开配置页面,配置如表3所示的参数。 表3 作业参数配置 功能 说明 变量 新增 单击“新增”,在文本框中填写作业参数的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为:${参数名称} 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改。 掩码显示 在参数值为密钥等情况下,从安全角度,请单击将参数值掩码显示。 删除 在参数值文本框后方,单击,删除作业参数。 常量 新增 单击“新增”,在文本框中填写作业常量的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为:${参数名称} 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改,修改完成后,请保存。 删除 在参数值文本框后方,单击,删除作业常量。
  • 各数据源支持的能力说明 表2 不同数据源支持的能力说明 数据源 读取能力 字段映射 写入能力 任务配置 类型 数据源 分片 自定义字段 数据源调优参数 字段批量映射 字段映射样例 数据源调优参数 脏数据 关系型数据库 MySQL PostgreSQL SQL Server Oracle DWS SAP HANA Gbase8A √ √ √ √ √ √ √ 达梦数据库 DM 神通(ST) × × × × × × × Hadoop MRS Hive √ × √ √ √ √ × MRS Hudi √ × √ √ × √ × MRS HBase √ √ √ √ × √ √ HDFS √ √ √ × × × × 对象存储 OBS √ × × × × × × 数据仓库 DLI √ √ × √ √ × × RedShift × × × × × × × YASHAN × × × × × × × Doris √ √ √ √ √ √ √ MRS ClickHouse × √ √ √ √ √ √ 非关系型数据库 MongoDB √ √ √ √ √ √ √ 消息系统 DMS Kafka √ √ √ √ √ √ √ MRS Kafka × × × × × × × Apache Kafka × × × × × × × LTS √ - - - - - - RocketMQ × × × √ √ × √ DIS × × × × × × × LogHub(SLS) × × × × × × × 搜索 Elasticsearch × √ √ × √ √ √ 文件 FTP √ √ √ × × × × SFTP √ √ √ × × × × API Rest-API √ × √ √ × × × 其他 GaussDB × × × × × × ×
  • 表/文件同步支持的数据源类型 表/文件同步可以实现表或文件级别的数据同步。 支持单表同步的数据源如表1 离线作业不同数据源读写能力说明所示: 表1 离线作业不同数据源读写能力说明 数据源分类 数据源 单表读 单表写 说明 数据仓库 DWS、DLI 支持 支持 不支持DWS物理机纳管模式。 Hadoop MRS Hive、MRS Hudi、Doris、MRS ClickHouse、MRS HBase 支持 支持 MRS ClickHouse建议使用的版本:21.3.4.X。 MRS HBase建议使用的版本: 2.1.X 1.3.X MRS Hive、MRS Hudi暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X 对象存储 OBS 支持 支持 - 文件系统 FTP、SFTP 支持 不支持 - 关系型数据库 RDS(MySQL)、RDS(PostgreSQL)、RDS(SQL Server)、Oracle、RDS(SAP HANA)、GBASE8A 支持 支持 创建数据连接时也支持用户使用自建的数据库,如MySQL、PostgreSQL、SQL Server、达梦数据库DM、SAP HANA,在选择界面对应的RDS(MySQL)、RDS(PostgreSQL)、RDS(SQL Server)、RDS(达梦数据库DM)、RDS(SAP HANA)即可。 SAP HANA仅支持2.00.050.00.1592305219版本。 RDS(达梦数据库DM) 不支持 不支持 - 非关系型数据库 MongoDB、Redis 支持 支持 MongoDB建议使用的版本:4.2。 暂不支持开启SSL的MongoDB数据源。 消息系统 Apache HDFS、DMS Kafka 支持 支持 Apache HDFS目前仅支持作为源端数据源。 Apache HDFS建议使用的版本: 2.8.X 3.1.X LTS 支持 不支持 - Apache RocketMq 不支持 支持 - 搜索 Elasticsearch 支持 支持 - 其他 Rest Client 支持 不支持 - OpenGauss(GaussDB) 支持 支持 -
  • 引用字符和转义字符使用示例 引用字符和转义字符使用说明: 引用字符:用于识别分割字段,默认值:英文双引号(")。 转义字符:在导出结果中如果需要包含特殊字符,如引号本身,可以使用转义字符(反斜杠 \ )来表示。默认值:英文反斜杠(\)。 假设两个quote_char之间的数据内容存在第三个quote_char,则在第三个quote_char前加上escape_char,从而避免字段内容被分割。 假设数据内容中原本就存在escape_char,则在这个原有的escape_char前再加一个escape_char,避免原来的那个字符起到转义作用。 应用示例: 在进行转储时,如果引用字符和转义字符不填,如下图所示。 下载的.csv用excel打开以后如下图所示,是分成两行的。 在转储时,如果引用字符和转义字符都填写,比如,引用字符和转义字符都填英文双引号("),则下载以后查看结果如下图所示。
  • 下载或转储脚本执行结果 脚本运行成功后,支持下载和转储SQL脚本执行结果。系统默认支持所有用户都能下载和转储SQL脚本的执行结果。如果您不希望所有用户都有该操作权限,可参考配置数据导出策略进行配置。 脚本执行完成后在“执行结果”中,单击“下载”可以直接下载 CS V格式的结果文件到本地。可以在下载中心查看下载记录。 脚本执行完成后在“执行结果”中,单击“转储”可以将脚本执行结果转储为CSV和JSON格式的结果文件到OBS中,详情请参见表7。 转储功能依赖于OBS服务,如无OBS服务,则不支持该功能。 当前仅支持转储SQL脚本查询(query)类语句的结果。 DataArts Studio 的下载或转储的SQL结果中,如果存在英文逗号、换行符等这种特殊符号,可能会导致数据错乱、行数变多等的问题。 表7 转储配置 参数 是否必选 说明 数据格式 是 目前支持导出CSV和JSON格式的结果文件。 资源队列 否 选择执行导出操作的DLI队列。当脚本为DLI SQL时,配置该参数。 压缩格式 否 选择压缩格式。当脚本为DLI SQL时,配置该参数。 none bzip2 deflate gzip 存储路径 是 设置结果文件的OBS存储路径。选择OBS路径后,您需要在选择的路径后方自定义一个文件夹名称,系统将在OBS路径下创建文件夹,用于存放结果文件。 您也可以到下载中心配置默认的OBS路径地址,配置好后在转储时会默认填写。 覆盖类型 否 如果“存储路径”中,您自定义的文件夹在OBS路径中已存在,选择覆盖类型。当脚本为DLI SQL时,配置该参数。 覆盖:删除OBS路径中已有的重名文件夹,重新创建自定义的文件夹。 存在即报错:系统返回错误信息,退出导出操作。 是否导出列名 否 是:导出列名 否:不导出列名 字符集 否 UTF-8:默认字符集。 GB2312:当导出数据中包含中文字符集时,推荐使用此字符集。 GBK:国家标准GB2312基础上扩容后兼容GB2312的标准。 引用字符 否 仅在数据格式为csv格式时支持配置引用字符。 引用字符在导出作业结果时用于标识文本字段的开始和结束,即用于分割字段。 仅支持设置一个字符。默认值是英文双引号(")。 主要用于处理包含空格、特殊字符或与分隔符相同字符的数据。 关于“引用字符”和“转义字符”的使用示例请参考引用字符和转义字符使用示例。 转义字符 否 仅在数据格式为csv格式时支持配置转义字符。 在导出结果中如果需要包含特殊字符,如引号本身,可以使用转义字符(反斜杠 \ )来表示。 仅支持设置一个字符。默认值是英文反斜杠(\)。 常用转义字符的场景: 假设两个引用字符之间的数据内容存在第三个引用字符,则在第三个引用字符前加上转义字符,从而避免字段内容被分割。 假设数据内容中原本就存在转义字符,则在这个原有的转义字符前再加一个转义字符,避免原来的那个字符起到转义作用。 关于“引用字符”和“转义字符”的使用示例请参考引用字符和转义字符使用示例。 相对于直接查看SQL脚本的执行结果,通过下载和转储能够支持获取更多的执行结果。各类SQL脚本查看、下载、转储支持的规格如表8所示。 表8 SQL脚本支持查看/下载/转储规格 SQL类型 在线查看最大结果条数 下载最大结果 转储最大结果 DLI 1000 1000条且少于3MB 无限制 Hive 1000 1000条且少于3MB 10000条或3MB DWS 1000 1000条且少于3MB 10000条或3MB Spark 1000 1000条且少于3MB 10000条或3MB RDS 1000 1000条且少于3MB 不支持 Doris 1000 1000条且少于3MB 1000条或3MB
  • 配置作业参数 单击编辑器右侧的“参数”,展开配置页面,配置如表4所示的参数。 表4 作业参数配置 功能 说明 变量 新增 单击“新增”,在文本框中填写作业参数的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1。 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为${参数名称}。 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改。 掩码显示 在参数值为密钥等情况下,从安全角度,请单击将参数值掩码显示。 删除 在参数值文本框后方,单击,删除作业参数。 常量 新增 单击“新增”,在文本框中填写作业常量的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1。 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为${参数名称}。 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改,修改完成后,请保存。 删除 在参数值文本框后方,单击,删除作业常量。 工作空间环境变量 查看工作空间已配置的变量和常量。 单击“作业参数预览”页签,展开预览页面,配置如表5所示的参数。 表5 作业参数预览 功能 说明 当前时间 仅单次调度才显示。系统默认为当前时间。 事件触发时间 仅事件驱动调度才显示。系统默认为事件触发时间。 周期调度 仅周期调度才显示。系统默认为调度周期。 具体时间 仅周期调度才显示。周期调度配置的具体运行时间。 起始日期 仅周期调度才显示。周期调度的生效时间。 后N个实例 作业运行调度的实例个数。 单次调度场景默认为1。 事件驱动调度场景默认为1。 周期调度场景 当实例数大于10时,系统最多展示10个日期实例,系统会自动提示“当前参数预览最多支持查看10个实例”。 在作业参数预览中,如果作业参数配置存在语法异常情况系统会给出提示信息。 如果参数配置了依赖作业实际运行时产生的数据,参数预览功能中无法模拟此类数据,则该数据不展示。
  • 调测并保存作业 作业配置完成后,请执行以下操作: 单击画布上方的运行按钮,运行作业。 用户可以查看该作业的运行日志,单击“查看日志”可以进入查看日志界面查看日志的详细信息记录。 运行完成后,单击画布上方的保存按钮,保存作业的配置信息。 保存后,在右侧的版本里面,会自动生成一个保存版本,支持版本回滚。保存版本时,一分钟内多次保存只记录一次版本。对于中间数据比较重要时,可以通过“新增版本”按钮手动增加保存版本。
  • 质量监控 对已编排好的单任务作业关联质量作业,当前暂不支持集成作业和单任务的实时作业。 质量监控支持并行和串行两种方式。单击画布右侧“质量监控”页签,展开配置页面,配置如表6所示的参数。 表6 质量监控配置 参数 说明 执行方式 选择质量监控的执行方式: 并行:并行模式下,所有质量作业算子的上游都被设置为主算子。 串行:串行模式下,质量作业将依照配置面板由上至下的顺序依次串联,顶部的质量作业依赖于主算子。 质量作业 关联质量作业。 单击“新增”,右侧自动弹出Data Quality Monitor算子的页面。 节点名称可自定义。 DQC作业类型选择“质量作业”。 说明: 对账作业目前不支持。 选择需要关联的“质量作业名称”,其他参数根据实际业务需要配置。如果没有质量作业,请参考新建数据质量作业创建一个质量作业。 说明: 单击“新增”可以关联多个质量作业。 单击可以修改已关联的质量作业。 单击可以删除已关联的质量作业。 是否忽略质量作业告警 是:质量作业告警可以忽略 否:质量作业告警不可忽略,产生告警时,上报告警。 配置高级参数。 配置节点执行的最长时间。设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 失败重试。节点执行失败后,是否重新执行节点。 是:重新执行节点,请配置以下参数。 超时重试 最大重试次数 重试间隔时间(秒) 否:默认值,不重新执行节点。 说明: 如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。 当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。 当“失败重试”配置为“是”才显示“超时重试”。 节点执行失败后的操作: 终止当前作业执行计划:停止当前作业运行,当前作业实例状态显示为“失败”。 继续执行下一节点:忽略当前节点失败,当前作业实例状态显示为“忽略失败”。 挂起当前作业执行计划:暂停当前作业运行,当前作业实例状态显示为“等待运行”。 终止后续节点执行计划:停止后续节点的运行,当前作业实例状态显示为“失败”。 单击“确定”,质量监控配置完成。
  • 集成作业开发 集成作业包含离线处理作业和实时处理作业,操作入口在数据开发界面。 新建集成作业的方式有如下两种: 方式一:在“作业开发”界面中,单击“新建集成作业”。 图1 新建集成作业(方式一) 方式二:在作业目录中,右键单击目录名称,选择“新建集成作业”。 图2 新建集成作业(方式二) 离线处理作业的详细操作,请参见数据集成(离线作业)。 实时处理作业的详细操作,请参见数据集成(实时作业)。 父主题: 数据开发
  • Elasticsearch连接参数说明 Elasticsearch连接适用于第三方云的Elasticsearch服务,以及用户在本地数据中心或ECS上自建的Elasticsearch。 Elasticsearch连接器仅支持非安全模式的Elasticsearch集群。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 连接Elasticsearch时,相关参数如表1所示。 表1 Elasticsearch连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 es_link Elasticsearch服务器列表 配置为一个或多个Elasticsearch服务器的IP地址或 域名 ,包括端口号,格式为“ip:port”,多个地址之间使用“;”分隔。 192.168.0.1:9200;192.168.0.2:9200 父主题: 配置连接参数
  • 错误码说明 表1 错误码说明 错误码 错误信息 处理建议 Cdm.0000 系统错误。 请联系客服或技术支持人员协助解决。 Cdm.0003 Kerberos登录失败。 检查keytab与principal配置文件是否正确。 Cdm.0009 %s不是整型数字或超出整型数的取值范围[0~2147483647]。 请根据错误提示将参数修改正确后请重试。 Cdm.0010 整数必须在区间[%s]。 请根据返回的详细错误信息,确认参数值是否合法,修改正确后请重试。 Cdm.0011 输入超过取值范围。 请根据返回的详细错误信息,确认参数值是否合法,修改正确后请重试。 Cdm.0012 没有匹配的数据库JDBC驱动。 请联系客服或技术支持人员协助解决。 Cdm.0013 Agent连接失败。 可能是由于网络不通、安全组或防火墙规则未放行等原因。若排除上述原因后仍无法解决,请联系客服或技术支持人员协助解决。 Cdm.0014 非法参数。 请确认参数值是否合法,修改正确后请重试。 Cdm.0015 解析文件内容出错。 请确认上传的文件内容或格式是否正确,修改正确后请重试。 Cdm.0016 上传文件不能为空。 请确认上传的文件是否为空,修改正确后请重试。 Cdm.0017 与MRS集群kerberos认证失败。 请确认kerberos认证用户和密码是否很强,修改正确后,请重试。 Cdm.0018 作业和连接内容不合法。 请联系客服或技术支持人员协助解决。 Cdm.0019 IP 和端口无效。 请稍后重试,或联系客服或技术支持人员协助解决。 Cdm.0020 必须包含子字符串:%s。 请根据错误提示将参数修改正确后,再重试。 Cdm.0021 不能连接服务器:%s。 请联系客服或技术支持人员协助解决。 Cdm.0023 写入数据失败.原因 :%s。 请联系客服或技术支持人员协助解决。 Cdm.0024 [%s]必须在区间[%s]。 请根据错误提示将参数修改正确后,再重试。 Cdm.0025 写入数据的长度超出表字段定义的长度,请参考数据库返回的错误消息: %s 请根据错误提示修改写入数据的长度,再重试。 Cdm.0026 主键重复,请参考数据库返回的错误消息: %s 请根据错误提示检查数据,解决主键冲突。 Cdm.0027 写入字符串的编码可能与表定义的编码不一致,请参考数据库返回的错误消息: %s 请根据错误提示修改字符串编码。 Cdm.0028 用户名或密码错误,请参考数据库返回的错误消息: %s 请修改用户名或者密码,再重试。 Cdm.0029 数据库名称不存在,请参考数据库返回的错误消息: %s 请选择正确的数据库, 再重试。 Cdm.0030 用户名或密码或数据库名称错误,请参考数据库返回的错误消息: %s 请根据错误提示修改为正确的用户名,密码、数据库名称后重试。 Cdm.0031 连接超时。 请检查IP、主机名、端口填写是否正确,检查网络安全组和防火墙配置是否正确。 Cdm.0032 用户名或密码错误,请参考服务端返回的错误消息: %s 请根据错误提示修改为正确的用户名和密码后重试。 Cdm.0033 不支持SIMPLE认证类型。 请尝试选择KERBEROS认证类型,再重试。 Cdm.0034 请重启 CDM ,重新加载MRS或者 FusionInsight 配置信息。 请重启CDM,重新加载MRS或者FusionInsight配置信息。 Cdm.0035 没有权限写文件,请参考详细消息: %s 请根据错误提示配置权限,再重试。 Cdm.0036 非法Datestamp或Date格式,请参考详细消息: %s 请根据错误提示配置Datestamp或Date格式,再重试。 Cdm.0037 非法参数。%s。 请根据错误提示修改为正确的参数,再重试。 Cdm.0038 连接超时。 请检查VPC和安全组规则。 Cdm.0039 连接名不允许修改。 不可修改连接名。 Cdm.0040 日志因为定期清理被删除。 请联系客服或技术支持人员协助解决。 Cdm.0041 不能更新或者删除已被使用的分组 请勿修改分组。 Cdm.0042 操作分组失败,请参考详细信息: %s 请根据错误提示选择正确的分组,再重试。 Cdm.0043 触发销毁抽取或加载失败. 原因 : %s" 请联系客服或技术支持人员协助解决。 Cdm.0051 无效的提交引擎:%s。 请指定正确的作业引擎后再重试。 Cdm.0052 作业%s正在运行。 作业正在运行,无法执行当前操作,请等待作业运行结束后再重试。 Cdm.0053 作业%s未运行。 请运行作业后再重试。 Cdm.0054 作业%s不存在。 请确认作业是否存在。 Cdm.0055 作业类型不支持。 请指定正确的作业类型后再重试。 Cdm.0056 不能提交作业。原因:%s。 请根据返回的详细错误信息,定位原因,修改正确后请重试。 Cdm.0057 无效的作业执行引擎:%s。 请指定正确的作业引擎后再重试。 Cdm.0058 提交和执行引擎组合不合法。 请指定正确的作业引擎后再重试。 Cdm.0059 作业%s已被禁用。不能提交作业。 当前作业无法提交,建议重新创建一个作业后再重试。或者,请联系客服或技术支持人员协助解决。 Cdm.0060 作业使用的连接%s已被禁用。不能提交作业。 请改为其他连接后,再重新提交作业。 Cdm.0061 连接器%s不支持此方向。不能提交作业。 该连接器不能作为作业的源端或目的端,请改为其他连接后,再重新提交作业。 Cdm.0062 二进制文件仅适合SFTP/FTP/HDFS/OBS连接器。 请指定正确的连接器后再重试。 Cdm.0063 创建表格错误。原因:%s。 请根据返回的详细错误信息定位原因,修改正确后请重试。 Cdm.0064 数据格式不匹配。 请根据返回的详细错误信息,确认数据格式是否正确,修改正确后请重试。 Cdm.0065 定时器启动失败,原因%s。 请联系客服或技术支持人员协助解决。 Cdm.0066 获取样值失败,原因:%s。 请联系客服或技术支持人员协助解决。 Cdm.0067 获取Schema失败,原因:%s。 请联系客服或技术支持人员协助解决。 Cdm.0068 清空表数据失败, 原因 : %s。 请确认当前账户是否有该表的操作权限。 请确认表是否被锁定。 若以上两种方案均不可行,请联系客服或技术支持人员协助解决。 Cdm.0070 运行任务%s失败, 原因 : 运行任务数目达到上限。 请联系客服或技术支持人员协助解决。 Cdm.0071 获取表数据失败,原因:%s。 请联系客服或技术支持人员协助解决。 Cdm.0074 修复表格失败。 原因 : %s。 请联系客服或技术支持人员协助解决。 Cdm.0075 删除表失败,原因 : %s。 请确认当前账户是否有该表的操作权限。 请确认表是否被锁定。 若以上两种方案均不可行,请联系客服或技术支持人员协助解决。 Cdm.0080 无效的用户名 。 请根据错误提示修改为正确的用户名,再重试。 Cdm.0081 无效的证书。 请联系客服或技术支持人员协助解决。 Cdm.0082 证书不可读。 请联系客服或技术支持人员协助解决。 Cdm.0083 同一个进程不能配置多个证书,需要重启以使用新的证书。 请根据错误提示修改证书,再重启重试。 Cdm.0085 超过最大值。 请联系客服或技术支持人员协助解决。 Cdm.0088 XX配置项有误。 请根据错误提示修改配置项,再重试。 Cdm.0089 配置项XX不存在。 请根据错误提示修改配置项,再重试。 低版本CDM集群切换至高版本CDM集群时,创建数据连接或保存作业时会偶现配置项不存在情况,请手动清理缓存,再重试。 Cdm.0091 打补丁失败。 请联系客服或技术支持人员协助解决。 Cdm.0092 备份文件不存在。 请联系客服或技术支持人员协助解决。 Cdm.0093 无法加载krb5.conf。 请联系客服或技术支持人员协助解决。 Cdm.0094 名称为XX连接不存在。 请根据错误提示,确认XX连接是否存在,再重试。 Cdm.0095 名称为XX作业不存在。 请根据错误提示,确认XX作业是否存在,再重试。 Cdm.0100 作业[%s]不存在。 请指定正确的作业后再重试。 Cdm.0101 连接[%s]不存在。 请指定正确的连接后再重试。 Cdm.0102 连接器[%s]不存在。 请指定正确的连接器后再重试。 Cdm.0104 作业名已存在。 作业名已存在,请重新命名后,再重试。 Cdm.0105 表达式为空。 请参考帮助文档确认表达式是否有效。 若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0106 XX表达式运算失败。 请参考帮助文档确认表达式是否有效。 若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0107 任务执行中,请稍后再修改作业配置。 待任务执行完成后,再修改作业配置。 Cdm.0108 查询表记录失败。 自定义SQL,请首先确认正确性。 请确认查询未超时(小于60s). 若以上错误均无法规避,请联系客服或技术支持人员协助解决。 Cdm.0109 作业或连接名长度不能超过%s。 请根据错误提示修改作业或连接名称。 Cdm.0110 命名错误,只能以字符或数字开头,并且名字只能包含字符、数字、下划线、中划线、点符号。 请根据错误提示修改命名。 Cdm.0201 获取实例失败。 请联系客服或技术支持人员协助解决。 Cdm.0202 作业状态未知。 请稍后重试,或请联系客服或技术支持人员协助解决。 Cdm.0204 没有已创建的MRS连接。 当前没有MRS连接,您需要先前往集群的“连接管理”页面创建一个MRS连接,然后再重新执行当前的操作。 Cdm.0230 不能加载该类:%s。 请联系客服或技术支持人员协助解决。 Cdm.0231 不能初始化该类:%s。 请联系客服或技术支持人员协助解决。 Cdm.0232 数据写入失败。原因:%s。 请联系客服或技术支持人员协助解决。 Cdm.0233 提取数据过程异常。原因:%s。 请联系客服或技术支持人员协助解决。 Cdm.0234 载入数据过程异常。原因:%s。 请联系客服或技术支持人员协助解决。 Cdm.0235 数据已全部消费完毕。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0236 从分区程序中检索到无效分区数。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0237 找不到连接器Jar包。 请联系客服或技术支持人员协助解决。 Cdm.0238 %s不能为空。 请根据错误提示将参数修改正确后再重试。 Cdm.0239 获取HDFS文件系统失败。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0240 获取文件%s状态失败。 请联系客服或技术支持人员协助解决。 Cdm.0241 获取文件%s类型失败。 请联系客服或技术支持人员协助解决。 Cdm.0242 文件检查异常:%s。 请联系客服或技术支持人员协助解决。 Cdm.0243 重命名%s为%s失败。 可能是名称已存在,请重新命名后再重试。 Cdm.0244 创建文件%s失败。 请确认是否具有创建权限,或稍后重试。若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0245 删除文件%s失败。 请确认是否具有删除权限,或稍后重试。若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0246 创建目录%s失败。 请确认是否具有创建权限,或稍后重试。若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0247 操作HBase失败。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0248 清空%s数据失败。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0249 文件名%s无效。 请将文件名修改正确后,再重试。 Cdm.0250 不能操作该路径:%s。 请确认是否具有该路径的操作权限,或稍后重试。若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0251 向HBase加载数据失败。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0307 无法释放连接,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0315 连接名%s已存在。 请指定其他连接名后再重试。 Cdm.0316 无法更新不存在的连接。 请指定正确的连接后再重试。 Cdm.0317 连接%s无效。 请指定正确的连接后再重试。 Cdm.0318 作业已存在,无法重复创建。 请指定其他作业名再重试。 Cdm.0319 无法更新不存在的作业。 请确认待更新的作业是否存在,作业名修改正确后再重试。 Cdm.0320 作业%s无效。 请联系客服或技术支持人员协助解决。 Cdm.0321 连接%s已被使用。 连接已被使用,无法执行当前的操作,请将连接释放后再重试。 Cdm.0322 作业%s已被使用。 请联系客服或技术支持人员协助解决。 Cdm.0323 该提交已存在,无法重复创建。 您已提交过相同操作的请求,请稍后再重试。 Cdm.0327 无效的连接或作业:%s。 请指定正确的连接或作业再重试。 Cdm.0411 连接到文件服务器时出错。 请联系客服或技术支持人员协助解决。 Cdm.0412 与文件服务器断开连接时出错。 请联系客服或技术支持人员协助解决。 Cdm.0413 向文件服务器传输数据时出错。 请联系客服或技术支持人员协助解决。 Cdm.0415 从文件服务器下载文件出错。 请联系客服或技术支持人员协助解决。 Cdm.0416 抽取数据时出错。 请联系客服或技术支持人员协助解决。 Cdm.0420 源文件或源目录不存在。 请确认源文件或源目录是否存在,修改正确后再重试。 Cdm.0423 目的路径存在重复文件。 请在目的路径中删除重复文件后再重试。 Cdm.0500 源目录或文件[%s]不存在。 请指定正确的源文件或目录后再重试。 Cdm.0501 无效的URI[%s]。 请指定正确的URI后,再重试。 Cdm.0518 连接HDFS失败。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0523 用户权限不足导致连接超时。 新建一个业务用户,给对应的权限后,再重试。 Cdm.0600 无法连接FTP服务器。原因:%s。 可能是由于网络不通、安全组或防火墙规则未放行、FTP主机名无法解析、FTP用户名密码错误等原因。若排除上述原因后仍无法解决,请联系客服或技术支持人员协助解决。 Cdm.0700 无法连接SFTP服务器。原因:%s。 可能是由于网络不通、安全组或防火墙规则未放行、SFTP主机名无法解析、SFTP用户名密码错误等原因。若排除上述原因后仍无法解决,请联系客服或技术支持人员协助解决。 Cdm.0800 无法连接OBS服务器。原因:%s。 可能是由于OBS终端节点与当前区域不一致、AK/SK错误、AK/SK不是当前用户的AK/SK、安全组或防火墙规则未放行等原因。若排除上述原因后仍无法解决,请联系客服或技术支持人员协助解决。 Cdm.0801 OBS桶[%s]不存在。 指定的OBS桶可能不存在或不在当前区域,请指定正确的OBS桶后再重试。 Cdm.0900 表[%s]不存在。 请指定正确的表名后再重试。 Cdm.0901 无法连接数据库服务器。原因:%s。 请联系客服或技术支持人员协助解决。 Cdm.0902 SQL语句无法执行。原因%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0903 元数据获取失败。原因:%s。 请确认在集群的“连接管理”页面创建连接时引用符号是否正确或查看数据库表是否存在。若仍无法解决,请联系客服或技术支持人员协助解决。 Cdm.0904 从结果中检索数据时发生错误。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0905 未设置分区列。 请指定分区列后再重试。 Cdm.0906 分区列没有找到边界。 请联系客服或技术支持人员协助解决。 Cdm.0911 表名或SQL需要指定。 请指定表名或SQL后再重试。 Cdm.0912 表名和SQL不可以同时指定。 请确认表名和SQL是否同时指定,仅指定其中一项后,再重试。 Cdm.0913 Schema和SQL不可以同时指定。 请确认Schema和SQL是否同时指定,仅指定其中一项后,再重试。 Cdm.0914 基于查询的导入方式时必须提供分区字段。 请指定分区字段后,再重试。 Cdm.0915 基于SQL的导入方式和ColumnList不能同时使用。 请确认两种是否同时使用,仅使用其中一项后,再重试。 Cdm.0916 增量读取情况下必须指定上次的值。 请指定上次的值后再重试。 Cdm.0917 缺少字段检查将无法获得上次的值。 请联系客服或技术支持人员协助解决。 Cdm.0918 没有指定中转表的情况下不可以指定“shouldClearStageTable”。 请指定中转表后再重试。 Cdm.0921 不支持类型%s。 请指定正确的类型后再重试。 Cdm.0925 分区字段含有不支持的值。 请确认分区字段是否含有不支持的值,修改正确后再重试。 Cdm.0926 取不到Schema。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.0927 中转表不为空。 请指定一个空的中转表后再重试。 Cdm.0928 中转表到目的表进行数据迁移时发生错误。 请联系客服或技术支持人员协助解决。 Cdm.0931 Schema字段大小[%s]与结果集的字段大小[%s]不匹配。 请将Schema字段大小和结果集中的字段大小改为一致后再重试。 Cdm.0932 找不到字段最大值。 请联系客服或技术支持人员协助解决。 Cdm.0934 不同Schema/Catalog下有重名表。 请联系客服或技术支持人员协助解决。 Cdm.0935 缺少主键。请指定分区字段。 请指定主键字段后再重试。 Cdm.0936 错误脏数据条数达到上限。 您可以编辑作业,在作业的任务配置中将错误脏数据条数增大。 Cdm.0940 表名准确匹配失败。 匹配不到表名,请指定正确的表名后再重试。 Cdm.0941 无法连接服务器。原因: [%s] 请检查IP、主机名、端口填写是否正确,检查网络安全组和防火墙配置是否正确,参考数据库返回消息进行定位。若仍无法解决,请联系客服或技术支持人员协助解决。 Cdm.0950 当前认证信息无法连接到数据库。 认证信息错误,请修改正确后再重试。 Cdm.0960 必须指定服务器列表。 请指定服务器列表后再重试。 Cdm.0961 服务器列表格式非法。 请修改正确的格式后再重试。 Cdm.0962 必须指定主机IP。 未指定主机IP,请指定主机IP后,再重试。 Cdm.0963 必须指定主机端口。 未指定主机端口,请指定主机端口后,再重试。 Cdm.0964 必须指定数据库。 未指定数据库,请指定数据库后,再重试。 Cdm.1000 Hive表[%s]不存在。 请输入正确的Hive表名后,再重试。 Cdm.1010 无效的URI %s。URI必须为null或有效的URI。 请输入正确的URI后,再重试。下面是一些URI示例: hdfs://example.com:8020/ hdfs://example.com/ file:/// file:///tmp file://localhost/tmp Cdm.1011 连接Hive失败,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1012 初始化hive客户端失败,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1100 表[%s]不存在。 请确认表是否存在,输入正确的表名后再重试。 Cdm.1101 获取连接失败,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1102 创表失败,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1103 未设置Rowkey。 请设置Rowkey后再重试。 Cdm.1104 打开表格失败。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1105 作业初始化失败。原因%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1111 表名不能为空。 请输入正确的表名后,再重试。 Cdm.1112 导入方式不能为空。 请设置导入方式后再重试。 Cdm.1113 导入前是否清空数据未设置。 请设置“导入前是否清空数据”参数后再重试。 Cdm.1114 Rowkey为空,请在字段映射步骤重新设置。 请按照错误提示进行处理。 Cdm.1115 Columns为空,请在字段映射步骤重新设置。 请按照错误提示进行处理。 Cdm.1116 列名重复,请在字段映射步骤重新设置。 请按照错误提示进行处理。 Cdm.1117 判断表格是否存在失败,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1118 表%s不包含列族%s。 请指定列族后再重试。 Cdm.1119 列族数%s和列数%s不等。 请将列族数和列数改为一致后再重试。 Cdm.1120 表中有数据,请清空表数据或重新设置导入前是否清空表数据配置项。 请按照错误提示进行处理。 Cdm.1121 关闭连接已失败。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1201 不能连接到Redis服务器,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1202 不能用单机模式去连接Redis集群。 请改为其他模式连接Redis集群。 Cdm.1203 从Redis服务器抽取数据失败,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1205 Redis值前缀不能为空白符。 请去除Redis前缀前的空白符,然后再重试。 Cdm.1206 Redis值存储类型必须指定为“string”或“hash”。 请按照错误提示进行处理。 Cdm.1207 当值存储类型为“string”时,必须指定值分隔符。 请指定分隔符后再重试。 Cdm.1208 Redis存储字段列表必须指定。 请指定Redis存储字段列表后再重试。 Cdm.1209 Redis键分隔符不能为空白符。 请输入正确的分隔符后,再重试。 Cdm.1210 必须指定Redis主键字段列表。 请指定Redis主键字段列表后再重试。 Cdm.1211 Redis主键字段列表必须在字段列表中存在。 请指定Redis主键字段列表后再重试。 Cdm.1212 Redis数据库类型必须指定为“Original”或“DCS”。 请按照错误提示进行处理。 Cdm.1213 必须指定Redis服务器列表。 请指定Redis服务器列表后再重试。 Cdm.1301 不能连接到MongoDB服务器,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1302 从MongoDB服务器抽取数据失败,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1304 必须指定MongoDB服务器的集合。 未指定MongoDB服务器的集合,请指定后,再重试。 Cdm.1305 必须指定MongoDB服务列表。 未指定MongoDB服务列表,请指定后,再重试。 Cdm.1306 必须指定MongoDB服务的数据库名称。 未指定MongoDB服务的数据库名称,请指定数据库后,再重试。 Cdm.1307 必须指定MongoDB服务的字段列表。 未指定MongoDB服务的字段列表,请指定字段列表后,再重试。 Cdm.1400 无法连接NAS服务器。 请联系客服或技术支持人员协助解决。 Cdm.1401 无NAS服务器权限。 请申请NAS服务器权限后再重试。 Cdm.1501 不能连接到Elasticsearch服务器,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1502 向Elasticsearch服务器写入数据失败,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1503 关闭Elasticsearch连接失败,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1504 获取Elasticsearch索引错误,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1505 获取Elasticsearch类型错误,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1506 获取Elasticsearch文档字段错误,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1507 获取Elasticsearch采样数据错误,原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1508 必须指定Elasticsearch服务器主机名或IP地址。 未指定Elasticsearch服务器主机名或IP地址,请指定后,再重试。 Cdm.1509 必须指定Elasticsearch服务器端口。 未指定Elasticsearch服务器端口,请指定端口后,再重试。 Cdm.1510 必须指定Elasticsearch索引。 当前未指定Elasticsearch索引,请指定后再重试。 Cdm.1511 必须指定Elasticsearch类型。 当前未指定Elasticsearch类型,请指定后再重试。 Cdm.1512 必须指定Elasticsearch文档字段列表。 当前未指定Elasticsearch文档字段列表,请指定后再重试。 Cdm.1513 字段列表中必须包含字段类型定义。 请确认字段列表中是否包含字段类型定义,修改正确后再重试。 Cdm.1514 字段列表中必须包含主键字段。 当前未设置主键字段,请设置主键字段后再重试。 Cdm.1515 解析JSON字符串时错误,原因:%s。 请根据返回的详细错误信息,定位原因,修改正确后请重试。如仍无法解决,请联系客服或技术支持人员协助解决。 Cdm.1516 非法列名%s。 请确认列名是否合法,输入正确的列名后再重试。 Cdm.1517 获取文档数量产生错误。 请联系客服或技术支持人员协助解决。 Cdm.1518 分区失败。 请联系客服或技术支持人员协助解决。 Cdm.1519 抽取数据错误。 请联系客服或技术支持人员协助解决。 Cdm.1520 获取类型失败。原因:%s。 请根据错误提示进行定位,若无法解决,请联系客服或技术支持人员协助解决。 Cdm.1601 连接服务器失败。 请联系客服或技术支持人员协助解决。 Cdm.1603 获取topic %s的样值失败。 请联系客服或技术支持人员协助解决。 Cdm.1604 topic %s没有数据。 该topic中无数据,请排查无数据的原因。或者,请改为其他topic后再重试。 Cdm.1605 无效的brokerList。 请指定正确的brokerList后再重试。
  • OpenSource ClickHouse数据连接参数说明 表1 OpenSource ClickHouse数据连接 参数 是否必选 说明 数据连接类型 是 OpenSource ClickHouse连接固定选择为 MapReduce服务 (OpenSource ClickHouse)。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 IP 是 填写ClickHouseServer所在节点IP。 端口 是 默认使用ClickHouseServer的配置参数http_port,用于接收JDBC请求的端口。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 选择CDM集群作为网络代理,必须和ClickHouseServer网络互通才可以成功创建连接。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 说明: CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 数据集成配置 数据库名称 是 配置为要连接的数据库名称。 例如:dbname 驱动版本 否 选择ClickHouse驱动版本。 CLICKHOUSE_0_3_1:适用于连接ClickHouse 20.7以下版本,此驱动版本不支持多IP连接数据库服务器。 CLICKHOUSE_0_4_2:适用于连接ClickHouse 20.7及以上版本,支持多IP连接数据库服务器。 说明: 选择CLICKHOUSE_0_4_2驱动版本时,支持的timestamp数据的时间范围最小为1970-01-01 08:00:00。 CLICKHOUSE_0_4_2的驱动版本仅支持ClickHouse 20.7及以上的服务器版本。 选择CLICKHOUSE_0_4_2驱动版本时,字段名不能包含(),其他版本不受限制。 引用符号 否 连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。默认为"。 单次提交行数 否 指定单次批量提交的行数。默认为10000。 连接属性 否 连接属性,包含属性名称和属性值。 例如: 1. socket_timeout: socket连接超时的时间,单位为毫秒。 2. connection_timeout:连接超时,单位为毫秒。 3. dataTransferTimeout:数据传输超时,单位为毫秒。 数据源认证及其他功能配置 用户名 是 ClickHouseServer用户名。 密码 是 ClickHouseServer的访问密码。 父主题: 配置DataArts Studio数据连接参数
  • Elasticsearch数据连接参数说明(内测) 表1 Elasticsearch连接 参数 是否必选 说明 数据连接类型 是 Elasticsearch连接固定选择为Elasticsearch。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 Elasticsearch服务器列表 是 一个或多个通过分号分割的服务器列表(服务器域名或IP地址:服务器端口)。 例如:192.168.0.1:9200;192.168.0.2:9200。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 DataArts Studio无法直接与非全托管服务进行连接,需要提供DataArts Studio与非全托管服务通信的代理。CDM集群可以提供通信代理服务,请选择一个CDM集群,如果没有可用的CDM集群,请参考创建CDM集群进行创建。 数据集成配置 安全模式认证 是 是否安全模式认证。 https访问 是 开启https访问。 Https协议提升了集群安全性,同时集群性能会下降。 连接超时时间 否 连接超时时间,单位ms。默认10000。 超时时间 否 超时时间,单位ms。默认60000。 开启GZIP压缩 否 开启gzip 压缩,使用的时候需要在es 节点上将配置http.compression设置为true。 数据源认证及其他功能配置 用户名 是 连接Elasticsearch的用户名。 密码 是 连接Elasticsearch的密码。 父主题: 配置DataArts Studio数据连接参数
  • Apache HDFS数据连接参数说明(内测) 表1 Apache HDFS连接 参数 是否必选 说明 数据连接类型 是 Apache HDFS连接固定选择为Apache HDFS。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 是否使用集群配置 是 此参数用于选择用户已经创建好的集群配置。 您可以通过使用集群配置,简化Hadoop连接参数配置。默认:关闭。 URI 是 是否使用集群配置开关打开时显示该参数。 表示NameNode URI地址。可以填写为:hdfs://namenode实例的ip:8020。 IP与主机名映射 否 是否使用集群配置开关打开时显示该参数。 运行模式选择“EMBEDDED”、“STANDALONE”时,该参数有效。 如果HDFS配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 DataArts Studio无法直接与非全托管服务进行连接,需要提供DataArts Studio与非全托管服务通信的代理。CDM集群可以提供通信代理服务,请选择一个CDM集群,如果没有可用的CDM集群,请参考创建CDM集群进行创建。 数据集成配置 配置文件路径 是 “是否使用集群配置”参数开启时,呈现此参数。集群配置文件的OBS存放路径。 keytab文件路径 是 认证类型为KERBEROS时显示该参数。 配置keytab文件的OBS存放路径。 Principal名称 是 认证类型为KERBEROS时显示该参数。 Kerberos认证用户名。kerberos集群时,需要上传相应的keytab文件。 属性配置 否 “数据集成”参数开启时,呈现此参数。可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。 useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。 数据源认证及其他功能配置 认证类型 是 访问集群的认证类型: SIMPLE:非安全模式选择Simple鉴权。 KERBEROS:安全模式选择Kerberos鉴权。 运行模式 是 选择HDFS连接的运行模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式或者配置不同的Agent。 说明: STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。 父主题: 配置DataArts Studio数据连接参数
  • RDS(PostgreSQL)数据连接参数说明 RDS(PostgreSQL)数据连接支持连接云数据库PostgreSQL、自建PostgreSQL等数据库。 表1 RDS数据连接 参数 是否必选 说明 数据连接类型 是 RDS(PostgreSQL)连接固定选择为RDS(PostgreSQL)。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 IP或域名 是 表示通过内部网络访问关系型数据库的访问地址,可填写为IP或域名。 如果为RDS等云上数据源,可以通过管理控制台获取访问地址: 根据注册的账号登录对应云服务的管理控制台。 从左侧列表选择实例管理。 单击某一个实例名称,进入实例基本信息页面。在连接信息标签中可以获取到内网IP、域名和端口等信息。 如果为自建PostgreSQL等线下数据源,可以通过数据库管理员获取相应的访问地址。 端口 是 关系型数据库数据源的访问端口。请确保您已在安全组规则中开放此端口,以便DataArts Studio实例可以通过该端口连接此数据库。 如果为RDS等云上数据源,可以通过管理控制台获取访问地址: 根据注册的账号登录对应云服务的管理控制台。 从左侧列表选择实例管理。 单击某一个实例名称,进入实例基本信息页面。在连接信息标签中可以获取到内网IP、域名和端口等信息。 如果为自建PostgreSQL等线下数据源,可以通过数据库管理员获取相应的访问地址。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 RDS类型数据源为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建RDS类型的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 CDM集群作为网络代理,必须和RDS网络互通才可以成功创建RDS连接,为确保两者网络互通,CDM集群必须和RDS处于相同的区域、可用区,且使用同一个VPC和子网,安全组规则需允许两者网络互通。 说明: CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 SSL加密 否 支持对RDS服务启用SSL加密传输。 数据源驱动配置 驱动程序名称 是 org.postgresql.Driver:连接PostgreSQL数据源时,选择此驱动程序名称。 com.huawei.opengauss.jdbc.Driver:连接GaussDB数据源时,选择此驱动程序名称。 驱动文件路径 是 驱动文件在OBS上的路径。需要您自行到官网下载.jar格式驱动并上传至OBS中。 PostgreSQL驱动:获取地址https://mvnrepository.com/artifact/org.postgresql/postgresql,建议42.3.4版本。 GaussDB驱动:请在GaussDB官方文档中搜索“JDBC包、驱动类和环境类”,然后选择实例对应版本的资料,参考文档获取驱动包。 说明: 驱动文件所在的OBS路径中不能包含中文。 出于安全考虑,当前系统会对所选择的驱动文件校验其SHA512值和字节大小。如不在允许清单中,则会提示报错,推荐您使用建议版本的驱动文件,或联系客服或技术支持人员。 如果需要更新驱动文件,则需要先在数据集成页面重启CDM集群,然后通过编辑数据连接的方式重新选择新版本驱动,更新驱动才能生效。 数据源认证及其他功能配置 用户名 是 数据库的用户名,创建集群的时候,输入的用户名。 密码 是 数据库的访问密码,创建集群的时候,输入的密码。 数据集成配置 数据库名称 是 配置为要连接的数据库名称。 单次请求行数 否 可选参数,指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。默认1000。 连接属性 否 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 PostgreSQL举例如下: connectTimeout=60与socketTimeout=300:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位s),避免超时导致失败。 useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关。 trustServerCertificate=true:在创建安全连接的时候可能会报PKIX错误,建议设置为true。 sslmode=require:PostgreSQL在开启SSL认证时可能会连接失败,需要设置为require。 引用符号 否 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。默认为"。 私密属性 否 可选参数,JDBC私密属性,配置后将会进行加密存储,创建连接时会拼接到连接属性中。例如:key1=value1&key2=value2 父主题: 配置DataArts Studio数据连接参数
  • MRS Presto数据连接参数说明 表1 MRS Presto数据连接 参数 是否必选 说明 数据连接类型 是 MRS Presto连接固定选择为MapReduce服务(MRS Presto)。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 基础与网络连通配置 MRS集群名 是 选择所属的MRS集群。仅支持连接MRS云服务,自建Hadoop集群必须在纳管到MRS云服务后才可以选择。系统会显示所有项目ID和企业项目相同的MRS集群。 说明: 当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。 如果选择集群后连接失败,请检查MRS集群与作为Agent的CDM实例是否网络互通。网络互通需满足如下条件: DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。 DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。 此外,还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同,如果不同,您需要修改工作空间的企业项目。 数据源认证及其他功能配置 描述 否 可自定义填写相关连接的描述。 父主题: 配置DataArts Studio数据连接参数
  • 主机连接参数说明 表1 主机连接 参数 是否必选 说明 数据连接类型 是 主机连接固定选择为主机连接。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 基础与网络连通配置 主机地址 是 Linux操作系统主机的IP地址。 请参考查看云服务器详细信息获取。 绑定Agent 是 选择CDM集群,CDM集群提供Agent。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 说明: CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 在调度Shell、Python脚本时,Agent会访问ECS主机,如果Shell、Python脚本的调度频率很高,ECS主机会将Agent的内网IP加入黑名单。为了保障作业的正常调度,强烈建议您使用ECS主机的root用户将绑定Agent(即CDM集群)的内网IP加到/etc/hosts.allow文件里面。 CDM集群的内网IP获取方式请参见查看并修改CDM集群配置。 端口 是 主机的SSH端口号。 Linux操作系统主机的默认登录端口为22,如有修改可通过主机路径“/etc/ssh/sshd_config”文件中的port字段确认端口号。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 数据源认证及其他功能配置 用户名 是 主机的登录用户名。 登录方式 是 选择主机的登录方式: 密钥对 密码 密钥对 是 “登录方式”为“密钥对”时,显示该配置项。 主机的登录方式为密钥对时,您需要获取并上传其私钥文件至OBS,在此处选择对应的OBS路径(OBS路径中不能存在中文字符)。 说明: 此处上传的私钥文件应和主机上配置的公钥是一个密钥对,详情请参见密钥对使用场景介绍。 密钥对密码 是 如果密钥对未设置密码,则不需要填写该配置项。 密码 是 “登录方式”为“密码”时,显示该配置项。 主机的登录方式为密码时,填写主机的登录密码。 主机连接描述 否 主机连接的描述信息。 Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本的调度频率合理配置MaxSessions的值。 连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Shell和Python脚本都是发往ECS主机的/tmp目录下去运行的,需要确保/tmp目录磁盘不被占满。 父主题: 配置DataArts Studio数据连接参数
  • DIS数据连接参数说明 表1 DIS连接 参数 是否必选 说明 数据连接类型 是 DIS连接固定选择为DIS。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 基础与网络连通配置 目标项目ID 是 使用DIS Client节点发送消息至目标DIS通道时,目标通道所在的项目ID。 目标Region 是 使用DIS Client节点发送消息至目标DIS通道时,目标通道所在的Region。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 数据源认证及其他功能配置 访问标识(AK) 是 使用DIS Client节点发送消息至目标DIS通道时,创建目标通道的租户AK。 密钥(SK) 是 使用DIS Client节点发送消息至目标DIS通道时,创建目标通道的租户SK。 描述 否 支持添加该连接的相关描述。 父主题: 配置DataArts Studio数据连接参数
  • RDS(MySQL)数据连接参数说明 RDS(MySQL)数据连接支持连接 云数据库MySQL 、自建MySQL等数据库。 表1 RDS数据连接 参数 是否必选 说明 数据连接类型 是 RDS(MySQL)连接固定选择为RDS(MySQL)。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 IP或域名 是 表示通过内部网络访问关系型数据库的访问地址,可填写为IP或域名。 如果为RDS等云上数据源,可以通过管理控制台获取访问地址: 根据注册的账号登录对应云服务的管理控制台。 从左侧列表选择实例管理。 单击某一个实例名称,进入实例基本信息页面。在连接信息标签中可以获取到内网IP、域名和端口等信息。 如果为自建MySQL等线下数据源,可以通过数据库管理员获取相应的访问地址。 端口 是 关系型数据库数据源的访问端口。请确保您已在安全组规则中开放此端口,以便DataArts Studio实例可以通过该端口连接此数据库。 如果为RDS等云上数据源,可以通过管理控制台获取访问地址: 根据注册的账号登录对应云服务的管理控制台。 从左侧列表选择实例管理。 单击某一个实例名称,进入实例基本信息页面。在连接信息标签中可以获取到内网IP、域名和端口等信息。 如果为自建MySQL等线下数据源,可以通过数据库管理员获取相应的访问地址。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 RDS类型数据源为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建RDS类型的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 CDM集群作为网络代理,必须和RDS网络互通才可以成功创建RDS连接,为确保两者网络互通,CDM集群必须和RDS处于相同的区域、可用区,且使用同一个VPC和子网,安全组规则需允许两者网络互通。 说明: CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 SSL加密 否 支持对RDS服务启用SSL加密传输。 数据源驱动配置 驱动程序名称 是 com.mysql.jdbc.Driver:连接RDS for MySQL或MySQL数据源时,选择此驱动程序名称。 驱动文件路径 是 驱动文件在OBS上的路径。需要您自行到官网下载.jar格式驱动并上传至OBS中。 MySQL驱动获取地址https://downloads.mysql.com/archives/c-j/,建议5.1.48版本。 说明: 驱动文件所在的OBS路径中不能包含中文。 出于安全考虑,当前系统会对所选择的驱动文件校验其SHA512值和字节大小。如不在允许清单中,则会提示报错,推荐您使用建议版本的驱动文件,或联系客服或技术支持人员。 如果需要更新驱动文件,则需要先在数据集成页面重启CDM集群,然后通过编辑数据连接的方式重新选择新版本驱动,更新驱动才能生效。 数据源认证及其他功能配置 用户名 是 数据库的用户名,创建集群的时候,输入的用户名。 密码 是 数据库的访问密码,创建集群的时候,输入的密码。 数据集成配置 数据库名称 是 配置为要连接的数据库名称。 使用本地API 否 可选参数,选择是否使用数据库本地API加速。 创建MySQL连接时,CDM会自动尝试启用MySQL数据库的local_infile系统变量,开启MySQL的LOAD DATA功能加快数据导入,提高导入数据到MySQL数据库的性能。注意,开启本参数后,日期类型将不符合格式的会存储为0000-00-00,更多详细信息可在MySQL官网文档查看。 如果CDM自动启用失败,请联系数据库管理员启用local_infile参数或选择不使用本地API加速。 如果是导入到RDS上的MySQL数据库,由于RDS上的MySQL默认没有开启LOAD DATA功能,所以同时需要修改MySQ L实例 的参数组,将“local_infile”设置为“ON”,开启该功能。 说明: 如果RDS上的“local_infile”参数组不可编辑,则说明是默认参数组,需要先创建一个新的参数组,再修改该参数值,并应用到RDS的MySQL实例上,具体操作请参见《关系型数据库用户指南》。 local_infile字符集 否 “使用本地API”为是时,呈现此参数。MySQL通过local_infile导入数据时,可配置编码格式。默认utf8。 单次请求行数 否 可选参数,指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。默认1000。 单次提交行数 否 指定每次批量提交的行数,根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。默认10000。 单次写入行数 否 可选参数,指定单次批量写入的行数,当写入行数累计到单次批量提交行数时提交一次,该值应当小于单次提交行数。默认100。 连接属性 否 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 MySQL举例如下: connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。 tinyInt1isBit=false或mysql.bool.type.transform=false:MySQL默认开启配置tinyInt1isBit=true,将TINYINT(1)当作BIT也就是Types.BOOLEAN来处理,会将1或0读取为true或false从而导致迁移失败,此时可关闭配置避免迁移报错。 useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。 allowPublicKeyRetrieval=true:MySQL默认关闭允许公钥检索机制,因此连接MySQL数据源时,如果TLS不可用、使用RSA公钥加密时,可能导致连接报错。此时可打开公钥检索机制,避免连接报错。 引用符号 否 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。默认为"。 父主题: 配置DataArts Studio数据连接参数
  • Oracle数据连接参数说明 表1 Oracle数据连接 参数 是否必选 说明 数据连接类型 是 Oracle连接固定选择为ORACLE。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 IP或域名 是 待连接的数据库的访问地址,可填写为IP或域名,其中公网IP和内网IP地址均支持。 端口 是 待连接的数据库端口。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建Oracle的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 CDM集群作为网络代理,必须和Oracle网络互通才可以成功创建Oracle连接。 数据源认证及其他功能配置 用户名 是 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 说明: CONNECT权限的用户(只读用户)创建连接时会出现“表或视图不存在”的提示,需要执行如下操作进行授权: 以root用户登录oracle节点。 执行如下命令,切换到oracle用户。 su oracle 执行如下命令,登录数据库。 sqlplus /nolog 执行如下命令,登录sys用户 connect sys as sysdba; 输入sys用户的密码。 执行如下SQL语句,进行授权。 GRANT SELECT ON GV_$INSTANCE to xxx; 其中,xxx为需要授权的用户名。 密码 是 用户密码。 数据库连接类型 是 选择所需的连接方式。 SID: SID即Oracle数据库实例ID。一个实例只能对应一个数据库,但是一个数据库可以由多个实例对应。 Service Name: Service Name参数是由oracle8i开始引进的,即Oracle数据库对外服务名,标识整个数据库。 SID 是 “Connection type”配置为“SID”时,为必选项。 SID即Oracle数据库实例ID。一个实例只能对应一个数据库,但是一个数据库可以由多个实例对应。 Service Name 是 “Connection type”配置为“Service Name”时,为必选项。 Service Name参数是由oracle8i开始引进的,即Oracle数据库对外服务名,标识整个数据库。 数据集成配置 驱动程序名称 是 连接Oracle数据源时,选择“oracle.jdbc.OracleDriver”驱动程序名称。 驱动文件来源 是 选择驱动文件的来源方式。 驱动文件路径 是 “驱动文件来源”选择“OBS路径”时配置。 驱动文件在OBS上的路径。需要您自行到官网下载.jar格式驱动并上传至OBS中。 驱动包下载地址:https://www.oracle.com/database/technologies/appdev/jdbc-downloads.html,推荐使用ojdbc8的12.2.0.1版本。 说明: 如果需要更新驱动文件,则需要先在数据集成页面重启CDM集群,然后通过编辑数据连接的方式重新选择新版本驱动,更新驱动才能生效。 驱动文件 是 “驱动文件来源”选择“本地文件”时配置。不同类型的关系数据库,需要适配不同类型的驱动。 单次请求行数 否 可选参数,指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。默认1000。 连接属性 否 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。 useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关。 引用符号 否 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。默认"。 父主题: 配置DataArts Studio数据连接参数
  • DWS数据连接参数说明 表1 DWS数据连接 参数 是否必选 说明 数据连接类型 是 DWS连接固定选择为数据仓库服务(DWS)。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 SSL加密 是 DWS支持SSL通道加密和证书认证两种方式进行客户端与服务器端的通信。您可以通过服务器端是否强制使用SSL连接进行设置。 开关打开,即只能通过SSL方式进行通信。 开关关闭,SSL通道加密和证书认证两种方式均可进行通信。 手动 是 选择连接模式。 使用集群名模式时,通过选择已有集群名称进行连接配置。 使用连接串模式时,手动填写对应集群的IP或域名、端口进行连接配置,且需打通本连接Agent(即CDM集群)和DWS集群之间的网络。 说明: 数据安全组件不支持连接串模式的DWS连接。 DWS集群名 是 “手动”选择为“集群名模式”时需要配置本参数。 选择DWS集群,系统会显示所有项目ID和企业项目相同的DWS集群。 IP或域名 是 “手动”选择为“连接串模式”时需要配置本参数。 表示通过内部网络访问集群数据库的访问地址,可填写为IP或域名。内网访问IP或域名地址在创建集群时自动生成,您可以通过管理控制台获取访问地址: 根据注册的账号登录DWS云服务管理控制台。 从左侧列表选择实例管理。 单击某一个实例名称,进入实例基本信息页面。在连接信息标签中可以获取到内网IP、域名和端口等信息。 端口 是 “手动”选择为“连接串模式”时需要配置本参数。 表示创建DWS集群时指定的数据库端口号。请确保您已在安全组规则中开放此端口,以便DataArts Studio实例可以通过该端口连接DWS集群数据库。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 DWS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建DWS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 CDM集群作为网络代理,必须和DWS集群网络互通才可以成功创建DWS连接,为确保两者网络互通,CDM集群必须和DWS集群处于相同的区域、可用区,且使用同一个VPC和子网,安全组规则需允许两者网络互通。 说明: CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 数据源认证及其他功能配置 用户名 是 数据库的用户名,创建DWS集群时指定的用户名。 密码 是 数据库的访问密码,创建DWS集群时指定的密码。 数据集成配置 数据库名称 是 适用组件勾选数据集成后,呈现此参数。 配置为要连接的数据库名称。 单次请求行数 否 适用组件勾选数据集成后,呈现此参数。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 连接属性 否 适用组件勾选数据集成后,呈现此参数。 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。 useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。 引用符号 否 适用组件勾选数据集成后,呈现此参数。 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 父主题: 配置DataArts Studio数据连接参数
  • 相关操作 编辑数据连接:在数据连接页面的连接列表中,找到所需编辑的连接,然后单击“编辑”。根据需要修改连接参数,参数描述可参考表1。 编辑时如果不涉及修改密码,可不填写此项,系统会自动带入上次连接创建时的密码。 完成修改后,单击“测试”去测试数据连接是否可以正常连接,如果可以正常连接,单击“保存”。如果测试连接无法连通,数据连接将无法创建,请根据错误提示重新修改连接参数后再进行重试。 删除数据连接:在数据连接页面的连接列表中,找到所需删除的连接,然后单击“删除”。在删除确认对话框中,了解删除连接的影响后,若要删除,单击“确定”。 如果待删除的连接已被引用,则不可直接删除。删除前需要根据删除提示窗口中的数据连接引用列表,到各组件中解除对该连接的引用,然后再尝试重新删除。 若删除数据连接,此数据连接下的数据表信息也会被删除,请谨慎操作。
  • 创建数据连接 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。 在管理中心页面,单击“数据连接”,进入数据连接页面并单击“创建数据连接”。 图1 创建数据连接 在创建连接页面中,选择“数据连接类型”,并参见表1配置相关参数。 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),如果使用两套集群,DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的 数据湖 服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致。创建数据连接的详细操作请参见创建DataArts Studio数据连接。 对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、数据库资源,建议通过名称后缀进行区分,详细操作请参见配置DataArts Studio企业模式环境隔离。 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。 表1 数据连接 数据连接类型 参数说明 DWS 请参见DWS数据连接参数说明。 DLI 请参见DLI数据连接参数说明。 MRS Hive 请参见MRS Hive数据连接参数说明。 Apache HDFS 请参见Apache HDFS数据连接参数说明(内测)。 Apache Hive 请参见Apache Hive数据连接参数说明(内测)。 MRS Hudi 请参见MRS Hudi数据连接参数说明(内测)。 MRS HBase 请参见MRS HBase数据连接参数说明。 MRS Spark 请参见MRS Spark数据连接参数说明。 MRS Clickhouse 请参见MRS Clickhouse数据连接参数说明。 MRS Hetu 请参见MRS Hetu数据连接参数说明。 MRS Impala 请参见MRS Impala数据连接参数说明。 MRS Kafka 请参见MRS Kafka数据连接参数说明。 MRS Presto 请参见MRS Presto数据连接参数说明。 MRS Ranger 请参见MRS Ranger数据连接参数说明。 MRS Doris 请参见Doris数据连接参数说明。 OpenSource Clickhouse 请参见OpenSource ClickHouse数据连接参数说明。 对象存储服务 (OBS) 请参见OBS数据连接参数说明(内测)。 SFTP/FTP 请参见SFTP/FTP数据连接参数说明(内测)。 RDS 请参见RDS(MySQL)数据连接参数说明。 请参见RDS(PostgreSQL)数据连接参数说明。 请参见RDS(SQL Server)数据连接参数说明。 请参见RDS(达梦数据库DM)数据连接参数说明。 请参见RDS(SAP HANA)数据连接参数说明。 请参见Open Gauss数据连接参数说明。 RDS连接类型支持连接RDS中的MySQL、PostgreSQL、达梦数据库 DM、SQL Server、SAP HANA、等关系型数据库。 MySQL(待下线) 不建议使用MySQL(待下线)连接器,推荐使用RDS连接MySQL数据源,请参见RDS(MySQL)数据连接参数说明。 ORACLE 请参见Oracle数据连接参数说明。 DIS 请参见DIS数据连接参数说明。 主机连接 请参见主机连接参数说明。 Elasticsearch 请参见Elasticsearch数据连接参数说明(内测)。 Rest Client 请参见Rest Client数据连接参数说明。 DMS Kafka 请参见DMS Kafka数据连接参数说明(内测)。 LTS 请参见LTS数据连接参数说明(内测)。 MongoDB 请参见MongoDB数据连接参数说明(内测)。 GBase 请参见GBase数据连接参数说明。 Redis 请参见Redis数据连接参数说明。 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。 测试通过后,单击“保存”,完成数据连接的创建。
  • 前提条件 在创建数据连接前,请确保您已创建所要连接的数据湖(如DataArts Studio所支持的数据库、云服务等)。 在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有KMS密钥的查看权限。 在创建MRS HBase、MRS Hive等MRS类型的数据连接前,需确保您已购买MRS集群,集群的“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”,并且集群中包含所需要的组件。 在创建数据连接前,请确保您已具备连接所需的Agent代理(即CDM集群,如果无可用CDM集群请参考创建CDM集群进行创建),且待连接的数据湖与CDM集群之间网络互通。 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络。请确保数据源所在的主机和CDM集群均能访问公网,并且防火墙规则已开放连接端口。 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件: CDM集群与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。 CDM集群与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。 此外,您还必须确保该云服务的实例与DataArts Studio工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。 如果使用企业模式,您还需要注意以下事项: 由于企业模式下需要区分开发环境和生产环境,因此您需要分别准备对应生产环境和开发环境的两套数据湖服务,用于隔离开发和生产环境: 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),如果使用两套集群,DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致。创建数据连接的详细操作请参见创建DataArts Studio数据连接。 对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、数据库资源,建议通过名称后缀进行区分,详细操作请参见配置DataArts Studio企业模式环境隔离。 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。 例如,当您的数据湖服务为MRS集群时,需要准备两套MRS集群,且版本、规格、组件、区域、VPC、子网等保持一致。如果某个MRS集群修改了某些配置,也需要同步到另一套MRS集群上。
  • 约束限制 RDS数据连接方式依赖于OBS。如果没有与DataArts Studio同区域的OBS,则不支持RDS数据连接。 主机连接当前仅支持Linux系统主机。 当所连接的数据湖发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。 数据连接中的数据湖认证信息如果发生变化(如密码过期)时,此连接会失效。建议您将数据湖认证信息设定为永久有效,避免由于连接失败导致业务受损。 当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。 CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。
  • 更多操作 修改:单击操作列的“修改”,可以修改已配置的日历。 快选:快速选中本月的周一到周五 反选:对已选择的工作日进行反选 清除:对已选择的工作日进行清除 图2 修改调度日历 删除:单击操作列的“删除”,自动弹出的删除提示框,单击“确定”,可以删除已配置好的日历。 如果日历被作业引用,则不能删除。如果要强制删除被作业引用的日历,可能会影响作业调度,请谨慎操作。 引用作业列表:单击操作列的“引用作业列表”,可以查看该日历被哪些作业所引用。可以下载引用作业列表。
  • 约束限制 该功能适用于以下场景: Flink SQL脚本可以引用脚本模板。 在pipeline作业开发中,MRS Flink Job节点可以使用引入了脚本模板的Flink SQL脚本,同时在MRS Flink Job节点的“运行程序参数”里面可以引用参数模板。 在Flink SQL单任务作业中引用脚本模板。 在Flink Jar单任务作业中使用参数模板。 Spark SQL和Hive SQL脚本及单任务作业支持引用参数模板。模板配置好之后,请到配置默认项去使用该模板。
  • 配置分库源端参数 作业中源连接为分库连接,源端作业参数如表1所示。 表1 分库作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,分库连接时此处默认展示对应第一个后端连接的表空间。用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。例如:表名配置为user_[0-9]{1,2},会匹配 user_0 到 user_9,user_00 到 user_99 的表。 SCHEMA_E 表名 表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 table 高级属性 Where子句 表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' 选择源连接名称为分库连接对应的后端连接时,此作业即为普通的MySQL作业。 新建源端为分库连接的作业时,在字段映射阶段,可以在源字段新增样值为“${custom(host)}”样式的自定义字段,用于在多个数据库中的多张表迁移到同一张表后,查看表的数据来源。支持的样值包括: ${custom(host)} ${custom(database)} ${custom(fromLinkName)} ${custom(schemaName)} ${custom(tableName)} 父主题: 配置CDM作业源端参数
  • 配置Oracle源端参数 作业中源连接为Oracle数据库连接,源端作业参数如表1所示。 表1 Oracle作为源端时的作业参数 参数名 说明 取值样例 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。 不支持注释 ,比如 "--" ,“/*”。 不支持增删改操作,包括但不限于以下操作: load data delete from alter table create table drop table into outfile 如果SQL语句过长,会导致请求过长下发失败,继续创建作业系统会报错“错误请求”,此时您需要简化或清空SQL语句,再次尝试继续创建作业。 select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 说明: 该参数支持配置通配符(*),实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如: SCHEMA*表示导出所有以“SCHEMA”开头的数据库。 *SCHEMA表示导出所有以“SCHEMA”结尾的数据库。 *SCHEMA*表示数据库名称中只要有“SCHEMA”字符串,就全部导出。 SCHEMA_E 表名 “使用SQL语句”选择“否”时,显示该参数,表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。例如:表名配置为user_[0-9]{1,2},会匹配 user_0 到 user_9,user_00 到 user_99 的表。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 table 抽取分区字段 “按表分区抽取”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分区字段。 单击输入框后面的按钮可进入字段选择界面,用户也可以直接输入抽取分区字段名。 说明: 抽取分区字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型,建议该字段带有索引。 id Where子句 “使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' 分区字段含有空值 “按表分区抽取”选择“否”时,显示该参数,表示是否允许分区字段包含空值。 是 按表分区抽取 从Oracle导出数据时,支持从分区表的各个分区并行抽取数据。启用该功能时,可以通过下面的“表分区”参数指定具体的Oracle表分区。 该功能不支持非分区表。 数据库用户需要具有系统视图dba_tab_partitions和dba_tab_subpartitions的SELECT权限。 否 表分区 输入需要迁移数据的Oracle表分区,多个分区以&分隔,不填则迁移所有分区。 如果有子分区,以“分区.子分区”的格式填写,例如“P2.SUBP1”。 P0&P1&P2.SUBP1&P2.SUBP3 拆分作业 选择“是”,会根据“作业拆分字段”值,将作业拆分为多个子作业并发执行。 说明: 仅支持目的端为DLI和Hive时配置该参数及作业拆分字段、拆分字段最小值、拆分字段最大值、子作业个数参数。 是 作业拆分字段 “拆分作业”选择“是”时,显示该参数,使用该字段将作业拆分为多个子作业并发执行。 - 拆分字段最小值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最小值。 - 拆分字段最大值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最大值。 - 子作业个数 “拆分作业”选择“是”时,显示该参数,根据“作业拆分字段”的最小值和最大值限定的数据范围,将作业拆分为多少个子作业执行。 - Oracle作为源端时,如果未配置“抽取分区字段”或者“按表分区抽取”这2个参数,CDM自动使用ROWID进行数据分区。 父主题: 配置CDM作业源端参数
  • 配置MySQL源端参数 作业中源连接为云数据库MySQL/MySQL数据库连接时,源端作业参数如表1所示。 表1 MySQL作为源端时的作业参数 参数名 说明 取值样例 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。 不支持注释 ,比如 "--" ,“/*”。 不支持增删改操作,包括但不限于以下操作: load data delete from alter table create table drop table into outfile 如果SQL语句过长,会导致请求过长下发失败,继续创建作业系统会报错“错误请求”,此时您需要简化或清空SQL语句,再次尝试继续创建作业。 select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。 SCHEMA_E 表名 “使用SQL语句”选择“否”时,显示该参数,表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。例如:表名配置为user_[0-9]{1,2},会匹配 user_0 到 user_9,user_00 到 user_99 的表。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 table 抽取分区字段 “使用SQL语句”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分区字段。 单击输入框后面的按钮可进入字段选择界面,用户也可以直接输入抽取分区字段名。 说明: 抽取分区字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型,建议该字段带有索引。 id Where子句 “使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' date类型值是否保留一位精度 date类型值是否保留一位精度。 是 分区字段含有空值 是否允许分区字段包含空值。 是 拆分作业 选择“是”,会根据“作业拆分字段”值,将作业拆分为多个子作业并发执行。 说明: 仅支持目的端为DLI和Hive时配置该参数及作业拆分字段、拆分字段最小值、拆分字段最大值、子作业个数参数。 是 作业拆分字段 “拆分作业”选择“是”时,显示该参数,使用该字段将作业拆分为多个子作业并发执行。 - 拆分字段最小值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最小值。 - 拆分字段最大值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最大值。 - 子作业个数 “拆分作业”选择“是”时,显示该参数,根据“作业拆分字段”的最小值和最大值限定的数据范围,将作业拆分为多少个子作业执行。 - 按表分区抽取 从MySQL导出数据时,支持从分区表的各个分区并行抽取数据。启用该功能时,可以通过下面的“表分区”参数指定具体的MySQL表分区。 该功能不支持非分区表。 数据库用户需要具有系统视图dba_tab_partitions和dba_tab_subpartitions的SELECT权限。 否 父主题: 配置CDM作业源端参数
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全