华为云用户手册

数据治理中心 DATAARTS STUDIO-配置Redis目的端参数

配置Redis目的端参数当作业将数据导入到Redis时，目的端作业参数如表1所示。表1 Redis作为目的端时的作业参数参数名说明取值样例 Redis键前缀键的前缀，类似关系型数据库的表名。 TABLE 值存储类型仅支持以下数据格式： STRING：不带列名，如“值1，值2”形式。 HASH：带列名，如“列名1=值1，列名2=值2”的形式。 STRING 是否以列值作为field 当值存储类型为HASH时显示此参数。仅支持Hash，如果打开开关，除主键列外，按字段顺序交替取值作为field和value。是写入前将相同的键删除写入前将相同的键删除。否：如果原来Redis已存在类型不同的同名key，则迁移作业会跳过该key。是：Redis会先删除原有的同名key，再执行迁移。否键分隔符用来分隔关系型数据库的表和列名。 _ 值分隔符以STRING方式存储时，列之间的分隔符。 ; key值有效期用于设置统一的生存时间，单位：秒。 300 父主题：配置 CDM 作业目的端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置DDS目的端参数

配置DDS目的端参数作业中目的连接为DDS连接时，即导入数据到文档数据库服务（DDS）时，目的端作业参数如表1所示。表1 DDS作为目的端时的作业参数参数名说明取值样例数据库名称选择待导入数据的数据库。 ddsdb 集合名称选择待导入数据的集合，相当于关系数据库的表名。单击输入框后面的按钮可进入表的选择界面，用户也可以直接输入表名称。如果选择界面没有待选择的表，请确认表是否已经创建，或者对应连接里的账号是否有元数据查询的权限。 COLLECTION 父主题：配置CDM作业目的端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置Hive目的端参数

配置Hive目的端参数作业中目的连接为Hive连接时，目的端作业参数如表1所示。表1 Hive作为目的端时的作业参数参数名说明取值样例数据库名称输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。 default 表名输入或选择写入数据的目标表名。单击输入框后面的按钮可进入表的选择界面。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过 DataArts Studio 数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 TBL_X 自动创表只有当源端为关系数据库时，才有该参数。表示写入表数据时，用户选择的操作：不自动创建：不自动建表。不存在时创建：当目的端的数据库没有“表名”参数中指定的表时，CDM会自动创建该表。如果“表名”参数配置的表已存在，则不创建，数据写入到已存在的表中。先删除后创建：CDM先删除“表名”参数中指定的表，然后再重新创建该表。说明：自动建表只同步列注释，表注释不会被同步。自动建表不支持同步主键。不自动创建源端null值转换值将源端null值转换为其他值。 TO_NULL TO_EMPTY_STRRING TO_NULL_STRING TO_NULL 导入前清空数据选择目的端表中数据的处理方式。是：任务启动前会清除目标表中数据。否：导入前不清空目标表中的数据，如果选“否”且表中有数据，则数据会追加到已有的表中。是换行符处理方式对于写入Hive textfile格式表的数据中存在换行符的场景，指定对换行符的处理策略。删除替换为其他字符串不处理删除 Hive表分区字段 “自动创建”设置为“不自动创建”时，无该此参数。对Hive建表设置分区字段，多个值以逗号隔开。 A,B 表路径 “自动创建”设置为“不自动创建”时，无该此参数。表路径。 - 存储格式 “自动创建”设置为“不自动创建”时，无该此参数。选择存储格式。行式存储格式：TEXTFILE。列式存储格式：ORC、RCFILE、PARQUET。 TEXTFILE使用明文存储，当数据存在特殊字符的场景下可能会导致数据写入错乱，请谨慎使用。建议优先使用ORC存储格式。 ORC hive表清理数据模式 “导入前清空数据”设置为“是”时，呈现此参数。选择Hive表清理数据模式。 LOAD_OVERWRITE模式：将生成一个临时数据文件目录，使用Hive的load overwrite语法将临时目录加载到Hive表中。 TRUCATE模式：只清理分区下的数据文件，不删除分区。说明：目的端为分区表时，Hive表清理数据模式建议设置为LOAD_OVERWRITE模式，否则可能会有集群内存过载/磁盘过载的风险。 TRUCATE 分区信息 “导入前清空数据”设置为“是”时，呈现此参数。目的端为分区表时，必须指定分区。当使用TRUCATE模式：只清理分区下的数据文件。当使用LOAD_OVERWRITE模式：覆盖写入到指定分区，仅支持指定单分区。单分区：year=2020,location=sun; 多分区：['year=2020,location=sun', 'year=2021,location=earth']. 前一日分区： day='${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)}', 执行Analyze语句数据全部写入完成后会异步执行ANALYZE TABLE语句，用于优化Hive表查询速度。执行的SQL如下：非分区表：ANALYZE TABLE tablename COMPUTE STATIS TICS 分区表：ANALYZE TABLE tablename PARTITION(partcol1[=val1], partcol2[=val2], ...) COMPUTE STATISTI CS 说明： “执行Analyze语句”参数配置仅用于单表迁移场景。执行Analyze语句可能会对Hive造成压力。是内部写队列内存最大值当出现内存不足场景时，请酌情修改该参数，当参数过小时，会影响迁移速率。取值范围是1-128，默认为空，不做限制，单位为MB，超出范围会设置为不限制。 16 内部转换队列内存最大值当出现内存不足场景时，请酌情修改该参数，当参数过小时，会影响迁移速率。取值范围是1-128，默认为空，不做限制，单位为MB，超出范围会设置为不限制。 16 源端Hive包含array和map类型时，目的端表格式只支持ORC和parquet复杂类型。若目的端表格式为RC和TEXT时，会对源数据进行处理，支持成功写入。因map类型为无序的数据结构，迁移到目的端的数据类型可能跟源端顺序不一致。 Hive作为迁移的目的时，如果存储格式为Textfile，在Hive创建表的语句中需要显式指定分隔符。例如： CREATE TABLE csv_tbl( smallint_value smallint, tinyint_value tinyint, int_value int, bigint_value bigint, float_value float, double_value double, decimal_value decimal(9, 7), timestmamp_value timestamp, date_value date, varchar_value varchar(100), string_value string, char_value char(20), boolean_value boolean, binary_value binary, varchar_null varchar(100), string_null string, char_null char(20), int_null int ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES ( "separatorChar" = "\t", "quoteChar" = "'", "escapeChar" = "\\" ) STORED AS TEXTFILE; 父主题：配置CDM作业目的端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置HBase/CloudTable目的端参数

配置HBase/CloudTable目的端参数作业中目的连接为HBase连接或CloudTable连接时，即导入数据到以下数据源时，目的端作业参数如表1所示。表1 HBase/CloudTable作为目的端时的作业参数参数名说明取值样例表名写入数据的HBase表名。如果是创建新HBase表，支持从源端复制字段名。单击输入框后面的按钮可进入表的选择界面。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 TBL_2 导入前清空数据选择目的端表中数据的处理方式。是：任务启动前会清除目标表中数据。否：导入前不清空目标表中的数据，如果选“否”且表中有数据，则数据会追加到已有的表中。是自动创表只有当源端为关系数据库时，才有该参数。表示写入表数据时，用户选择的操作：不自动创建：不自动建表。不存在时创建：当目的端的数据库没有“表名”参数中指定的表时，CDM会自动创建该表。如果“表名”参数配置的表已存在，则不创建，数据写入到已存在的表中。说明： Hbase自动建表包含列族与协处理器Coprocessor信息。其他属性按默认值设置，不跟随源端。不自动创建 Row key拼接分隔符可选参数，用于多列合并作为rowkey，默认为空格。 , Rowkey冗余可选参数，是否将选做Rowkey的数据同时写入HBase的列，默认值“否”。否压缩算法可选参数，创建新HBase表时采用的压缩算法，默认为值“NONE”。 NONE：不压缩。 SNAPPY：压缩为Snappy格式。 GZ：压缩为GZ格式。 NONE WAL开关选择是否开启HBase的预写日志机制（WAL，Write Ahead Log）。是：开启后如果出现HBase服务器宕机，则可以从WAL中回放执行之前没有完成的操作。否：关闭时能提升写入性能，但如果HBase服务器宕机可能会造成数据丢失。否匹配数据类型是：源端数据库中的Short、Int、Long、Float、Double、Decimal类型列的数据，会转换为Byte[]数组（二进制）写入HBase，其他类型的按字符串写入。如果这几种类型中，有合并做rowkey的，则依然当字符串写入。该功能作用是：降低存储占用空间，存储更高效；特定场景下rowkey分布更均匀。否：源端数据库中所有类型的数据，都会按照字符串写入HBase。否父主题：配置CDM作业目的端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置HDFS目的端参数

配置HDFS目的端参数作业中目的连接为HDFS连接时，目的端作业参数如表1所示。表1 HDFS作为目的端时的作业参数参数名说明取值样例写入目录写入数据到HDFS服务器的目录。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 /user/output 文件格式写入后的文件格式，可选择以下文件格式： CSV格式：按CSV格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，此处的“文件格式”只能选择与源端的文件格式一致。 CSV格式重复文件处理方式当源端为文件类数据源（HTTP/FTP/SFTP/HDFS/OBS）时配置。只有文件名和文件大小都相同才会判定为重复文件。写入时如果出现文件重复，可选择如下处理方式：替换重复文件跳过重复文件停止任务停止任务压缩格式写入文件后，选择对文件的压缩格式。支持以下压缩格式： NONE：不压缩。 DEFLATE：压缩为DEFLATE格式。 GZIP：压缩为GZIP格式。 BZIP2：压缩为BZIP2格式。 LZ4：压缩为LZ4格式。 SNAPPY：压缩为SNAPPY格式。 SNAPPY 换行符文件中的换行符，默认自动识别“\n”、“\r”或“\r\n”。“文件格式”为“二进制格式”时该参数值无效。 \n 字段分隔符文件中的字段分隔符。“文件格式”为“二进制格式”时该参数值无效。 , 使用包围符 “文件格式”为“CSV格式”，才有该参数，用于将数据库的表迁移到文件系统的场景。选择“是”时，如果源端数据表中的某一个字段内容包含字段分隔符或换行符，写入目的端时CDM会使用双引号（"）作为包围符将该字段内容括起来，作为一个整体存储，避免其中的字段分隔符误将一个字段分隔成两个，或者换行符误将字段换行。例如：数据库中某字段为hello,world，使用包围符后，导出到CSV文件的时候数据为"hello,world"。否首行为标题行在迁移表到CSV文件时，CDM默认是不迁移表的标题行，如果该参数选择“是”，CDM在才会将表的标题行数据写入文件。否写入到临时文件将二进制文件先写入到临时文件（临时文件以“.tmp”作为后缀），迁移成功后，再进行rename或move操作，在目的端恢复文件。否作业成功标识文件当作业执行成功时，会在写入目录下生成一个标识文件，文件名由用户指定。不指定时默认关闭该功能。 finish.txt 自定义目录层次支持用户自定义文件的目录层次。例如：【表名】/【年】/【月】/【日】/【数据文件名】. csv - 目录层次指定文件的目录层次，支持时间宏（时间格式为yyyy/MM/dd）。不填默认为不带层次目录。说明：源端为关系型数据库数据源时，目录层次为源端表名+自定义目录，其他场景下为自定义目录。 ${dateformat(yyyy/MM/dd, -1, DAY)} 加密方式 “文件格式”选择“二进制格式”时，该参数才显示。选择是否对写入的数据进行加密：无：不加密，直接写入数据。 AES-256-GCM：使用长度为256byte的AES对称加密算法，目前加密算法只支持AES-256-GCM（NoPadding）。该参数在目的端为加密，在源端为解密。详细使用方法请参见迁移文件时加解密。 AES-256-GCM 数据加密密钥 “加密方式”选择“AES-256-GCM”时显示该参数，密钥由长度64的十六进制数组成。请您牢记这里配置的“数据加密密钥”，解密时的密钥与这里配置的必须一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 初始化向量 “加密方式”选择“AES-256-GCM”时显示该参数，初始化向量由长度32的十六进制数组成。请您牢记这里配置的“初始化向量”，解密时的初始化向量与这里配置的必须一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F HDFS文件编码只能为“UTF-8”，故HDFS不支持设置文件编码类型。父主题：配置CDM作业目的端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置OBS目的端参数

配置OBS目的端参数作业中目的连接为OBS连接时，即导入数据到云服务OBS时，目的端作业参数如表1所示。高级属性里的参数为可选参数，默认隐藏，单击界面上的“显示高级属性”后显示。表1 OBS作为目的端时的作业参数参数类型参数名说明取值样例基本参数桶名写入数据的OBS桶名。 bucket_2 写入目录写入数据到OBS服务器的目录，目录前面不加“/”。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 directory/ 文件格式写入后的文件格式，可选择以下文件格式： CSV格式：按CSV格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，此处的“文件格式”只能选择与源端的文件格式一致。说明：当源端为 MRS Hive数据源时，仅支持配置CSV格式。当源端为FTP/SFTP数据源时，仅支持配置二进制格式。 CSV格式重复文件处理方式当源端为HDFS数据源时配置。只有文件名和文件大小都相同才会判定为重复文件。写入时如果出现文件重复，可选择如下处理方式：替换重复文件跳过重复文件停止任务具体使用方法可参见文件增量迁移。跳过重复文件高级属性加密方式选择是否对上传的数据进行加密，以及加密方式：无：不加密，直接写入数据。 KMS：使用数据加密服务中的KMS进行加密。如果启用KMS加密则无法进行数据的MD5校验。详细使用方法请参见迁移文件时加解密。 KMS KMS ID 写入文件时加密使用的密钥，“加密方式”选择“KMS”时显示该参数。单击输入框后面的，可以直接选择在数据加密服务中已创建好的KMS密钥。当使用与CDM集群相同项目下的KMS密钥时，不需要修改下面的“项目ID”参数。当用户使用其它项目下的KMS密钥时，需要修改下面的“项目ID”参数。 53440ccb-3e73-4700-98b5-71ff5476e621 项目ID KMS ID所属的项目ID，该参数默认值为当前CDM集群所属的项目ID。当“KMS ID”与CDM集群在同一个项目下时，这里的“项目ID”保持默认即可。当“KMS ID”使用的是其它项目下的KMS ID时，这里需要修改为KMS所属的项目ID。 9bd7c4bd54e5417198f9591bef07ae67 复制Content-Type属性 “文件格式”为“二进制”，且源端、目的端都为对象存储时，才有该参数。选择“是”后，迁移对象文件时会复制源文件的Content-Type属性，主要用于静态网站的迁移场景。归档存储的桶不支持设置Content-Type属性，所以如果开启了该参数，目的端选择写入的桶时，必须选择非归档存储的桶。否换行符文件中的换行符，默认自动识别“\n”、“\r”或“\r\n”。“文件格式”为“二进制格式”时该参数值无效。 \n 字段分隔符文件中的字段分隔符。“文件格式”为“二进制格式”时该参数值无效。 , 写入文件大小源端为数据库时该参数才显示，支持按大小分成多个文件存储，避免导出的文件过大，单位为MB。 1024 校验MD5值使用“二进制格式”传输文件时，才能校验MD5值。选择校验MD5值时，无法使用KMS加密。计算源文件的MD5值，并与OBS返回的MD5值进行校验。如果源端已经存在MD5文件，则直接读取源端的MD5文件与OBS返回的MD5值进行校验，具体请参见MD5校验文件一致性。是记录校验结果当选择校验MD5值时，可以选择是否记录校验结果。是校验结果写入连接可以指定任意一个OBS连接，将MD5校验结果写入该连接的桶下。 obslink OBS桶写入MD5校验结果的OBS桶。 cdm05 写入目录写入MD5校验结果的目录。 /md5/ 编码类型文件编码类型，例如：“UTF-8”或“GBK”。“文件格式”为“二进制格式”时该参数值无效。 GBK 使用包围符 “文件格式”为“CSV格式”，才有该参数，用于将数据库的表迁移到文件系统的场景。选择“是”时，如果源端数据表中的某一个字段内容包含字段分隔符或换行符，写入目的端时CDM会使用双引号（"）作为包围符将该字段内容括起来，作为一个整体存储，避免其中的字段分隔符误将一个字段分隔成两个，或者换行符误将字段换行。例如：数据库中某字段为hello,world，使用包围符后，导出到CSV文件的时候数据为"hello,world"。否首行为标题行从关系型数据库导出数据到OBS，“文件格式”为“CSV格式”时，才有该参数。在迁移表到CSV文件时，CDM默认是不迁移表的标题行，如果该参数选择“是”，CDM在才会将表的标题行数据写入文件。否作业成功标识文件当作业执行成功时，会在写入目录下生成一个标识文件，文件名由用户指定。不指定时默认关闭该功能。 finish.txt 文件夹模式从关系型数据库导出数据到OBS，才有该参数。启用后将会以根目录-表名-数据类型-数据的文件夹模型生成文件。例如：raw_schema/tbl_student/datas/tbl_student_1.csv 是 Blog/Clog文件扩展名 “文件夹模式”为“是”时，才有该参数。文件夹模式下自定义Blob/Clog数据的文件扩展名。 .dat/.jpg/.png 自定义目录层次选择“是”时，支持迁移后的文件按照自定义的目录存储。即只迁移文件，不迁移文件所归属的目录。是目录层次自定义迁移后文件的存储路径，支持时间宏变量。说明：源端为关系型数据库数据源时，目录层次为源端表名+自定义目录，其他场景下为自定义目录。 ${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)} 自定义文件名从关系型数据库导出数据到OBS，且“文件格式”为“CSV格式”时，才有该参数。用户可以通过该参数自定义OBS端生成的文件名，支持以下自定义方式：字符串，支持特殊字符。例如“cdm#”，则生成的文件名为“cdm#.csv”。时间宏，例如“${timestamp()}”，则生成的文件名为“1554108737.csv”。表名宏，例如“${tableName}”，则生成的文件名为源表名“sqltabname.csv”。版本宏，例如“${version}”，则生成的文件名为集群版本号“2.9.2.200.csv”。字符串和宏（时间宏/表名宏/版本宏）任意组合，例如“cdm#${timestamp()}_${version}”，则生成的文件名为“cdm#1554108737_2.9.2.200.csv”。 cdm 父主题：配置CDM作业目的端参数

数据治理中心 DATAARTS STUDIO 配置CDM作业目的端参数
数据治理中心 DATAARTS STUDIO-配置OpenTSDB源端参数

配置OpenTSDB源端参数作业中源连接为CloudTable OpenTSDB连接时，源端作业参数如表1所示。表1 OpenTSDB作为源端时的作业参数参数名说明取值样例开始时间查询的起始时间，格式为yyyyMMddHHmmdd的字符串或时间戳。 20180920145505 结束时间可选参数，查询的终止时间，格式为yyyyMMddHHmmdd的字串或时间戳。 20180921145505 指标输入迁移哪个指标的数据，或选择OpenTSDB中已存在的指标。 city.temp 聚合函数输入聚合函数。 sum 标记可选参数，如果这里有输入标记，则只迁移标记的数据。 tagk1:tagv1,tagk2:tagv2 父主题：配置CDM作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置DIS源端参数

配置DIS源端参数消息体中的数据是一条类似CSV格式的记录，可以支持多种分隔符。不支持二进制格式或其他格式的消息内容解析。作业中源连接为DIS连接时，源端作业参数如所表1示。表1 DIS作为源端时的作业参数参数类型参数说明取值样例基本参数 DIS通道 DIS的通道名。 dis 是否持久运行用户自定义是否永久运行。设置为长久运行的任务，如果DIS系统发生中断，任务也会失败结束。是 DIS分区ID DIS分区ID，该参数支持输入多个分区ID，使用英文逗号（,）分隔。 0,1,2 偏移量参数设置从DIS拉取数据时的初始偏移量：最新：最大偏移量，即拉取最新的数据。上次停止处：从上次停止处继续读取。最早：最小偏移量，即拉取最早的数据。最新 APP名字配置用户数据消费程序的唯一标识符，不存在时会自动创建。 cdm 数据格式解析数据时使用的格式：二进制格式：适用于文件迁移场景，不解析数据内容原样传输。 CSV格式：以CSV格式解析源数据。 JSON格式：以JSON格式解析源数据。二进制格式字段分隔符数据格式为“CSV格式”时呈现此参数。默认为逗号，使用Tab键作为分隔符请输入“\t”。 , 记录分隔符数据格式为“CSV格式”或“JSON格式”时呈现此参数。用于配置每条记录之间的分隔符。 , 高级属性最大消息数/poll 可选参数，每次向DIS请求数据限制最大请求记录数。 100 父主题：配置CDM作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置Redis源端参数

配置Redis源端参数第三方云的Redis服务无法支持作为源端。如果是用户在本地数据中心或ECS上自行搭建的Redis支持作为源端或目的端。作业中源连接为从本地Redis导出的数据时，源端作业参数如表1所示。表1 Redis作为源端时的作业参数参数类型参数名说明取值样例基本参数 Redis键前缀键的前缀，类似关系型数据库的表名。 TABLE 值存储类型仅支持以下数据格式： STRING：不带列名，如“值1，值2”形式。 HASH：带列名，如“列名1=值1，列名2=值2”的形式。 STRING 高级属性键分隔符用来分隔关系型数据库的表和列名。 _ 值分隔符以STRING方式存储时，列之间的分隔符。 ; 字段相同 “值存储类型”参数值为“HASH”显示该参数。哈希键内有相同的字段。是父主题：配置CDM作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置MongoDB/DDS源端参数

配置MongoDB/DDS源端参数从MongoDB、DDS迁移数据时，CDM会读取集合的首行数据作为字段列表样例，如果首行数据未包含该集合的所有字段，用户需要自己手工添加字段。作业中源连接为MongoDB连接时，即从本地MongoDB或DDS导出数据时，源端作业参数如表1所示。表1 MongoDB/DDS作为源端时的作业参数参数类型参数名说明取值样例基本参数数据库名称选择待迁移的数据库。 mongodb 集合名称相当于关系数据库的表名。单击输入框后面的按钮可进入选择集合名的界面，用户也可以直接输入集合名称。如果选择界面没有待选择的表，请确认表是否已经创建，或者对应连接里的账号是否有元数据查询的权限。 COLLECTION 高级属性查询筛选创建用于匹配文档的筛选条件，CDM只迁移符合条件的数据。例如：按表达式对象筛选：例如{'last_name': 'Smith'}，表示查找所有“last_name”属性值为“Smith”的文档。按参数选项筛选：例如{ x : "john" }, { z : 1 }，表示查找x=john的所有z字段。按条件筛选：例如{ "field" : { $gt: 5 } }，表示查找field字段中大于5的值。按时间宏筛选：例如 {"ts":{$gte:ISODate("${dateformat(yyyy-MM-dd'T'HH:mm:ss.SSS'Z',-1,HOUR)}")}}，表示查找ts字段中大于时间宏转换后的值。 {'last_name': 'Smith'} 父主题：配置CDM作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置PostgreSQL/SQL Server源端参数

配置PostgreSQL/SQL Server源端参数作业中源连接为从云数据库 PostgreSQL、云数据库 SQL Server、PostgreSQL、Microsoft SQL Server导出的数据时，源端作业参数如表1所示。表1 PostgreSQL/SQL Server作为源端时的作业参数参数类型参数名说明取值样例基本参数使用SQL语句导出关系型数据库的数据时，您可以选择使用自定义SQL语句导出。否 SQL语句 “使用SQL语句”选择“是”时，您可以在这里输入自定义的SQL语句，CDM将根据该语句导出数据。说明： SQL语句只能查询数据，支持join和嵌套写法，但不能有多条查询语句，比如 select * from table a; select * from table b。不支持with语句。不支持注释，比如 "--" ，“/*”。不支持增删改操作，包括但不限于以下操作： load data delete from alter table create table drop table into outfile 如果SQL语句过长，会导致请求过长下发失败，继续创建作业系统会报错“错误请求”，此时您需要简化或清空SQL语句，再次尝试继续创建作业。 select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时，显示该参数，表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面，用户也可以直接输入模式或表空间名称。如果选择界面没有待选择的模式或表空间，请确认对应连接里的账号是否有元数据查询的权限。说明：该参数支持配置通配符（*），实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如： SCHEMA*表示导出所有以“SCHEMA”开头的数据库。 *SCHEMA表示导出所有以“SCHEMA”结尾的数据库。 *SCHEMA*表示数据库名称中只要有“SCHEMA”字符串，就全部导出。 SCHEMA_E 表名 “使用SQL语句”选择“否”时，显示该参数，表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面，用户也可以直接输入表名称。如果选择界面没有待选择的表，请确认表是否已经创建，或者对应连接里的账号是否有元数据查询的权限。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。该参数支持配置正则表达式，实现导出满足规则的所有数据库。例如：表名配置为user_[0-9]{1,2}，会匹配 user_0 到 user_9，user_00 到 user_99 的表。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 table 高级属性抽取分区字段 “使用SQL语句”选择“否”时，显示该参数，表示抽取数据时使用该字段进行数据切分，CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段，例如以自然增长的序号字段作为分区字段。单击输入框后面的按钮可进入字段选择界面，用户也可以直接输入抽取分区字段名。说明：抽取分区字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型，建议该字段带有索引。 id Where子句 “使用SQL语句”选择“否”时，显示该参数，表示配置抽取范围的Where子句，不配置时抽取整表。该参数支持配置为时间宏变量，实现抽取指定日期的数据，详细说明请参见关系数据库增量迁移。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' 分区字段是否允许空值是否允许分区字段包含空值。是按表分区抽取支持从分区表的各个分区并行抽取数据。启用该功能时，可以通过下面的“表分区”参数指定具体的表分区。该功能不支持非分区表。仅支持源端数据源为PostgreSQL时配置该参数。数据库用户需要具有系统视图dba_tab_partitions和dba_tab_subpartitions的SELECT权限。否拆分作业选择“是”，会根据“作业拆分字段”值，将作业拆分为多个子作业并发执行。说明：仅支持目的端为 DLI 和Hive时配置该参数及作业拆分字段、拆分字段最小值、拆分字段最大值、子作业个数参数。是作业拆分字段 “拆分作业”选择“是”时，显示该参数，使用该字段将作业拆分为多个子作业并发执行。 - 拆分字段最小值 “拆分作业”选择“是”时，显示该参数，表示抽取数据时“作业拆分字段”的最小值。 - 拆分字段最大值 “拆分作业”选择“是”时，显示该参数，表示抽取数据时“作业拆分字段”的最大值。 - 子作业个数 “拆分作业”选择“是”时，显示该参数，根据“作业拆分字段”的最小值和最大值限定的数据范围，将作业拆分为多少个子作业执行。 - 父主题：配置CDM作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置HTTP源端参数

配置HTTP源端参数作业中源连接为HTTP连接时，源端作业参数如表1所示。当前只支持从HTTP URL导出数据，不支持导入。表1 HTTP/HTTPS作为源端时的作业参数参数名说明取值样例文件URL 通过使用GET方法，从HTTP/HTTPS协议的URL中获取数据。用于读取一个公网HTTP/HTTPS URL的文件，包括第三方对象存储的公共读取场景和网盘场景。 https://bucket.obs.myhuaweicloud.com/object-key 列表文件选择“是”，将待上传的文本文件中所有URL对应的文件拉取到OBS，文本文件记录的是HDFS上的文件路径。是列表文件源连接文本文件存储在OBS桶中，这里需要选择已建立的OBS连接。 obs_link 列表文件OBS桶存储文本文件的OBS桶名称。 obs-cdm 列表文件或目录在OBS中存储文本文件的文件自定义目录，多级目录可用“/”进行分隔。 test1 文件格式传输数据时使用的格式。其中CSV和JSON仅支持迁移到数据表场景，二进制格式适用于文件迁移场景。二进制格式压缩格式选择对应压缩格式的源文件进行迁移：无：表示传输所有格式的文件。 GZIP：表示只传输GZIP格式的文件。 ZIP：表示只传输ZIP格式的文件。 TAR.GZ：表示只传输TAR.GZ格式的文件。无压缩文件后缀压缩格式非无时，显示该参数。该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时，才会执行解压缩操作，否则保持原样传输。当输入*或为空时，所有文件都会被解压。 * 文件分隔符传输多个文件时，CDM使用这里配置的文件分隔符来区分各个文件，默认为|。列表文件选择“是”时，不显示该参数。 | QUERY参数该参数设置为“是”时，上传到OBS的对象使用的对象名，为去掉query参数后的字符。该参数设置为“否”时，上传到OBS的对象使用的对象名，包含query参数。否忽略不存在原路径/文件如果将其设为是，那么作业在源路径不存在的情况下也能成功执行。否 MD5文件名后缀校验CDM抽取的文件，是否与源文件一致，详细请参见MD5校验文件一致性。 .md5 QUERY参数此字段为true时，则上传对象时使用的对象名为去掉query参数的字符。否父主题：配置CDM作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置FTP/SFTP源端参数

配置FTP/SFTP源端参数作业中源连接为FTP/SFTP连接时，源端作业参数如表1所示。高级属性里的参数为可选参数，默认隐藏，单击界面上的“显示高级属性”后显示。表1 FTP/SFTP作为源端时的作业参数参数类型参数名说明取值样例基本参数源目录或文件待迁移数据的目录或单个文件路径。文件路径支持输入多个文件（最多50个），默认以“|”分隔，也可以自定义文件分隔符，具体请参见文件列表迁移。待迁移数据的目录，将迁移目录下的所有文件（包括所有嵌套子目录及其子文件）。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 /ftp/a.csv|/ftp/b.txt 文件格式指CDM以哪种格式解析数据，可选择以下格式： CSV格式：以CSV格式解析源文件，用于迁移文件到数据表的场景。二进制格式：选择“二进制格式”时不解析文件内容直接传输，不要求文件格式必须为二进制。适用于文件到文件的原样复制。 JSON格式：以JSON格式解析源文件，一般都是用于迁移文件到数据表的场景。说明：当目的端为OBS数据源时，仅支持配置二进制格式。 CSV格式 JSON类型当“文件格式”选择为“JSON格式”时，才有该参数。JSON文件中存储的JSON对象的类型，可以选择“JSON对象”或“JSON数组”。 JSON对象记录节点当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时，才有该参数。对该JSON节点下的数据进行解析，如果该节点对应的数据为JSON数组，那么系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分隔。 data.list 高级属性使用rfc4180解析器当“文件格式”选择为“CSV格式”时，才有该参数。是否使用rfc4180解析器解析CSV文件。否换行符文件中的换行符，默认自动识别“\n”、“\r”或“\r\n”。当“文件格式”选择为“CSV格式”时，才有该参数。 \n 字段分隔符文件中的字段分隔符，使用Tab键作为分隔符请输入“\t”。当“文件格式”选择为“CSV格式”时，才有该参数。 , 使用包围符选择“是”时，包围符内的字段分隔符会被视为字符串值的一部分，目前CDM默认的包围符为："。否使用转义符选择“是”时，CSV数据行中的\作为转义符使用。选择“否”时，CSV中的\作为数据不会进行转义。CSV只支持\作为转义符。是使用正则表达式分隔字段选择是否使用正则表达式分隔字段，当选择“是”时，“字段分隔符”参数无效。当“文件格式”选择为“CSV格式”时，才有该参数。是正则表达式当“使用正则表达式分隔字段”选择为“是”时，才有该参数。分隔字段的正则表达式，正则表达式写法请参考正则表达式分隔半结构化文本。 ^(\d.*\d) (\w*) \[(.*)\] ([\w\.]*) (\w.*).* 首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时，CDM默认是全部写入，如果该参数选择“是”，CDM会将CSV文件的前N行数据作为标题行，不写入目的端的表。是编码类型文件编码类型，例如：“UTF-8”或“GBK”。只有文本文件可以设置编码类型，当“文件格式”选择为“二进制格式”时，该参数值无效。 UTF-8 压缩格式选择对应压缩格式的源文件：无：表示传输所有格式的文件。 GZIP：表示只传输GZIP格式的文件。 ZIP：表示只传输ZIP格式的文件。 TAR.GZ：表示只传输TAR.GZ格式的文件。无压缩文件后缀压缩格式非无时，显示该参数。该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时，才会执行解压缩操作，否则保持原样传输。当输入*或为空时，所有文件都会被解压。 * 启动作业标识文件选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业，否则会挂起等待一段时间，等待时长在下方“等待时间”中配置。是文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径，CDM使用这里配置的文件分隔符来区分各个文件，默认为|。 | 标识文件名选择开启作业标识文件的功能时，需要指定启动作业的标识文件名。指定文件后，只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 等待时间选择开启作业标识文件的功能时，如果源路径下不存在启动作业的标识文件，作业挂机等待的时长，当超时后任务会失败。等待时间设置为0时，当源端路径下不存在标识文件，任务会立即失败。单位：秒。 10 过滤类型满足过滤条件的路径或文件会被传输，该参数有“无”、“通配符”和“正则表达式”三种选择。具体使用方法可参见文件增量迁移。无目录过滤器 “过滤类型”选择“通配符”和“正则表达式”时，符合过滤器规则的目录，允许进行迁移。支持配置多个路径，中间使用“,”分隔。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 *input,*out 文件过滤器 “过滤类型”选择“通配符”和“正则表达式”时，符合过滤器规则的文件，允许进行迁移。支持配置多个文件，中间使用“,”分隔。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 *.csv 时间过滤选择“是”时，可以根据文件的修改时间，选择性的传输文件。是起始时间 “时间过滤”选择“是”时，可以指定一个时间值，当文件的修改时间大于等于该时间才会被传输，输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss,-90,DAY))}表示：只迁移最近90天内的文件。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 2019-07-01 00:00:00 终止时间 “时间过滤”选择“是”时，可以指定一个时间值，当文件的修改时间小于该时间才会被传输，输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss))}表示：只迁移修改时间为当前时间以前的文件。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 2019-07-30 00:00:00 忽略不存在原路径/文件如果将其设为“是”，那么作业在源路径不存在的情况下也能成功执行。否标识文件类型选择开启作业标识文件的功能时，该参数才显示。 MARK_DONE：只有在源端路径下存在标识文件的情况下才会执行迁移任务。 MARK_DOING：只有在源端路径下不存在标识文件的情况下才会执行迁移任务。 MARK_DOING 是否跳过空行 “文件格式”选择“CSV格式”时，该参数才显示。如果某行数据为空，则跳过此行。否 null值 “文件格式”选择“二进制格式”时，该参数才显示。由于文本文件中无法用字符串定义null值，此配置项定义将何种字符串标识为null。否 MD5文件名后缀 “文件格式”选择“二进制格式”时，该参数才显示。校验CDM抽取的文件，是否与源文件一致，详细请参见MD5校验文件一致性。 .md5 父主题：配置CDM作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置HBase/CloudTable源端参数

配置HBase/CloudTable源端参数作业中源连接为HBase连接或CloudTable连接时，即从MRS HBase、 FusionInsight HBase、Apache HBase或者CloudTable导出数据时，源端作业参数如表1所示。 CloudTable或HBase作为源端时，CDM会读取表的首行数据作为字段列表样例，如果首行数据未包含该表的所有字段，用户需要自己手工添加字段。由于HBase的无Schema技术特点，CDM无法获知数据类型，如果数据内容是使用二进制格式存储的，CDM会无法解析。从HBase/CloudTable导出数据时，由于HBase/CloudTable是无Schema的存储系统，CDM要求源端数值型字段是以字符串格式存储，而不能是二进制格式，例如数值100需存储格式是字符串“100”，不能是二进制“01100100”。表1 HBase/CloudTable作为源端时的作业参数参数类型参数名说明取值样例基本参数表名导出数据的HBase表名。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 TBL_2 列族可选参数，导出数据所属的列族。 CF1&CF2 高级属性切分Rowkey 可选参数，选择是否拆分Rowkey，默认为“否”。是 Rowkey分隔符可选参数，用于拆分Rowkey的分隔符，若不设置则不切分。 | 起始时间可选参数，起始时间（包含该值），格式为“yyyy-MM-dd HH:mm:ss”，表示只抽取该时间及以后的数据。该参数支持配置为时间宏变量，使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 2019-01-01 20:00:00 终止时间可选参数，终止时间（不包含该值），格式为“yyyy-MM-dd HH:mm:ss”，表示只抽取该时间以前的数据。该参数支持配置为时间宏变量，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 2019-02-01 20:00:00 父主题：配置CDM作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置HDFS源端参数

配置HDFS源端参数作业中源连接为HDFS连接时，即从MRS HDFS、FusionInsight HDFS、Apache HDFS导出数据时，源端作业参数如表1所示。表1 HDFS作为源端时的作业参数参数类型参数名说明取值样例基本参数源连接名称由用户下拉选择即可。 hdfs_to_cdm 源目录或文件 “列表文件”选择为“否”时，才有该参数。待迁移数据的目录或单个文件路径。待迁移数据的目录，将迁移目录下的所有文件（包括所有嵌套子目录及其子文件）。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 /user/cdm/ 文件格式传输数据时所用的文件格式，可选择以下文件格式： CSV格式：以CSV格式解析源文件，用于迁移文件到数据表的场景。二进制格式：选择“二进制格式”时不解析文件内容直接传输，不要求文件格式必须为二进制。适用于文件到文件的原样复制。 Parquet格式：以Parquet格式解析源文件，用于HDFS数据导到表的场景。 CSV格式列表文件当“文件格式”选择为“二进制格式”时，才有该参数。打开列表文件功能时，支持读取OBS桶中文件（如txt文件）的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径（不支持目录），文件内容示例如下： /mrs/job-properties/application_1634891604621_0014/job.properties /mrs/job-properties/application_1634891604621_0029/job.properties 是列表文件源连接当“列表文件”选择为“是”时，才有该参数。可选择列表文件所在的OBS连接。 OBS_test_link 列表文件OBS桶当“列表文件”选择为“是”时，才有该参数。该参数表示列表文件所在的OBS桶名。 01 列表文件或目录当“列表文件”选择为“是”时，才有该参数。该参数表示列表文件所在的OBS桶中的绝对路径或目录。 /0521/Lists.txt 高级属性换行符文件中的换行符，默认自动识别“\n”、“\r”或“\r\n”。当“文件格式”选择为“CSV格式”时，才有该参数。 \n 字段分隔符文件中的字段分隔符，使用Tab键作为分隔符请输入“\t”。当“文件格式”选择为“CSV格式”时，才有该参数。 , 首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时，CDM默认是全部写入，如果该参数选择“是”，CDM会将CSV文件的前N行数据作为标题行，不写入目的端的表。否编码类型文件编码类型，例如：“UTF-8”或“GBK”。只有文本文件可以设置编码类型，当“文件格式”选择为“二进制格式”时，该参数值无效。 GBK 启动作业标识文件选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业，否则会挂起等待一段时间，等待时长在下方“等待时间”中配置。 ok.txt 过滤类型满足过滤条件的路径或文件会被传输，该参数有“无”、“通配符”和“正则表达式”三种选择。具体使用方法可参见文件增量迁移。 - 目录过滤器 “过滤类型”选择“通配符”、“正则表达式”时，用通配符过滤目录，符合过滤器规则的目录，允许进行迁移。支持配置多个路径，中间使用“,”分隔。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 *input 文件过滤器 “过滤类型”选择“通配符”、“正则表达式”时，用通配符过滤目录下的文件，符合过滤器规则的文件，允许进行迁移。支持配置多个文件，中间使用“,”分隔。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 *.csv 时间过滤选择“是”时，可以根据文件的修改时间，选择性的传输文件。是起始时间 “过滤类型”选择“时间过滤器”时，可以指定一个时间值，当文件的修改时间大于等于该时间才会被传输，输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss,-90,DAY))}表示：只迁移最近90天内的文件。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 2019-07-01 00:00:00 终止时间 “过滤类型”选择“时间过滤器”时，可以指定一个时间值，当文件的修改时间小于该时间才会被传输，输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss))}表示：只迁移修改时间为当前时间以前的文件。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 2019-07-30 00:00:00 创建快照如果选择“是”，CDM读取HDFS系统上的文件时，会先对待迁移的源目录创建快照（不允许对单个文件创建快照），然后CDM迁移快照中的数据。需要HDFS系统的管理员权限才可以创建快照，CDM作业完成后，快照会被删除。否加密方式 “文件格式”选择“二进制格式”时，该参数才显示。如果源端数据是被加密过的，则CDM支持解密后再导出。这里选择是否对源端数据解密，以及选择解密算法：无：不解密，直接导出。 AES-256-GCM：使用长度为256byte的AES对称加密算法，目前加密算法只支持AES-256-GCM（NoPadding）。该参数在目的端为加密，在源端为解密。详细使用方法请参见迁移文件时加解密。 AES-256-GCM 数据加密密钥 “加密方式”选择“AES-256-GCM”时显示该参数，密钥由长度64位的十六进制数组成，且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 初始化向量 “加密方式”选择“AES-256-GCM”时显示该参数，初始化向量由长度32的十六进制数组成，且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F MD5文件名后缀 “文件格式”选择“二进制格式”时，该参数才显示。校验CDM抽取的文件，是否与源文件一致，详细请参见MD5校验文件一致性。 .md5 父主题：配置CDM作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置OBS源端参数

配置OBS源端参数作业中源连接为OBS连接时，源端作业参数如表1所示。高级属性里的参数为可选参数，默认隐藏，单击界面上的“显示高级属性”后显示。表1 源端为OBS时的作业参数参数类型参数名说明取值样例基本参数桶名待迁移数据所在的桶名。 BUCKET_2 源目录或文件 “列表文件”选择为“否”时，才有该参数。待迁移数据的目录或单个文件路径。文件路径支持输入多个文件（最多50个），默认以“|”分隔，也可以自定义文件分隔符，具体请参见文件列表迁移。待迁移数据的目录，将迁移目录下的所有文件（包括所有嵌套子目录及其子文件）。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 FROM/example.csv 文件格式指CDM以哪种格式解析数据，可选择以下格式： CSV格式：以CSV格式解析源文件，用于迁移文件到数据表的场景。二进制格式：选择“二进制格式”时不解析文件内容直接传输，不要求文件格式必须为二进制。适用于文件到文件的原样复制。 JSON格式：以JSON格式解析源文件，一般都是用于迁移文件到数据表的场景。 CSV格式列表文件当“文件格式”选择为“二进制格式”时，才有该参数。打开列表文件功能时，支持读取OBS桶中文件（如txt文件）的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径（不支持目录），例如直接写为如下内容： /052101/DAY20211110.data /052101/DAY20211111.data 是列表文件源连接当“列表文件”选择为“是”时，才有该参数。可选择列表文件所在的OBS连接。 OBS_test_link 列表文件OBS桶当“列表文件”选择为“是”时，才有该参数。该参数表示列表文件所在的OBS桶名。 01 列表文件或目录当“列表文件”选择为“是”时，才有该参数。该参数表示列表文件所在的OBS桶中的绝对路径或目录。此处建议选择为文件的绝对路径。当选择为目录时，也支持迁移子目录中的文件，但如果目录下文件量过大，可能会导致集群内存不足。 /0521/Lists.txt JSON类型当“文件格式”选择为“JSON格式”时，才有该参数。JSON文件中存储的JSON对象的类型，可以选择“JSON对象”或“JSON数组”。 JSON对象记录节点当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时，才有该参数。对该JSON节点下的数据进行解析，如果该节点对应的数据为JSON数组，那么系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分隔。 data.list 高级属性换行符文件中的换行符，默认自动识别“\n”、“\r”或“\r\n”。当“文件格式”选择为“CSV格式”时，才有该参数。 \n 字段分隔符文件中的字段分隔符，使用Tab键作为分隔符请输入“\t”。当“文件格式”选择为“CSV格式”时，才有该参数。 , 使用包围符选择“是”时，包围符内的字段分隔符会被视为字符串值的一部分，目前CDM默认的包围符为："。否使用转义符选择“是”时，CSV数据行中的\作为转义符使用。选择“否”时，CSV中的\作为数据不会进行转义。CSV只支持\作为转义符。是使用正则表达式分隔字段选择是否使用正则表达式分隔字段，当选择“是”时，“字段分隔符”参数无效。当“文件格式”选择为“CSV格式”时，才有该参数。是正则表达式分隔字段的正则表达式，正则表达式写法请参考正则表达式分隔半结构化文本。 ^(\d.*\d) (\w*) \[(.*)\] ([\w\.]*) (\w.*).* 前N行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时，CDM默认是全部写入，如果该参数选择“是”，CDM会将CSV文件的前N行数据作为标题行，不写入目的端的表。否标题行数 “前N行为标题行”选择“是”时才有该参数。抽取数据时将被跳过的标题行数。说明：标题行数不为空，取值为1-99之间的整数。 1 解析首行为列名 “前N行为标题行”选择“是”时才有该参数。选择是否将标题的首行解析为列名，在配置字段映射时会在原字段中显示该列名。说明：标题行数大于1时，当前仅支持解析标题的首行作为列名。列名不支持“&”字符，否则会导致作业迁移失败，需修改CSV文件“&”字符即可正常迁移。是编码类型文件编码类型，例如：“UTF-8”或“GBK”。只有文本文件可以设置编码类型，当“文件格式”选择为“二进制格式”时，该参数值无效。 GBK 压缩格式选择对应压缩格式的源文件：无：表示传输所有格式的文件。 GZIP：表示只传输GZIP格式的文件。 ZIP：表示只传输ZIP格式的文件。 TAR.GZ：表示只传输TAR.GZ格式的文件。无压缩文件后缀压缩格式非无时，显示该参数。该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时，才会执行解压缩操作，否则保持原样传输。当输入*或为空时，所有文件都会被解压。 * 启动作业标识文件选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业，否则会挂起等待一段时间，等待时长在下方“等待时间”中配置。否标识文件名选择开启作业标识文件的功能时，需要指定启动作业的标识文件名。指定文件后，只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 等待时间选择开启作业标识文件的功能时，如果源路径下不存在启动作业的标识文件，作业挂机等待的时长，当超时后任务会失败。等待时间设置为0时，当源端路径下不存在标识文件，任务会立即失败。单位：秒。 10 文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径，CDM使用这里配置的文件分隔符来区分各个文件，默认为|。 | 过滤类型满足过滤条件的路径或文件会被传输，该参数有“无”、“通配符”和“正则表达式”三种选择。具体使用方法可参见文件增量迁移。通配符目录过滤器 “过滤类型”选择“通配符”、“正则表达式”时，用通配符过滤目录，符合过滤器规则的目录，允许进行迁移。支持配置多个路径，中间使用“,”分隔。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 *input 文件过滤器 “过滤类型”选择“通配符”、“正则表达式”时，用通配符过滤目录下的文件，符合过滤器规则的文件，允许进行迁移。支持配置多个文件，中间使用“,”分隔。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 *.csv,*.txt 时间过滤选择“是”时，可以根据文件的修改时间，选择性的传输文件。是起始时间 “过滤类型”选择“时间过滤器”时，可以指定一个时间值，当文件的修改时间大于等于该时间才会被传输，输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss,-90,DAY))}表示：只迁移最近90天内的文件。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 2019-06-01 00:00:00 终止时间 “过滤类型”选择“时间过滤器”时，可以指定一个时间值，当文件的修改时间小于该时间才会被传输，输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。该参数支持配置为时间宏变量，例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss))}表示：只迁移修改时间为当前时间以前的文件。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 2019-07-01 00:00:00 忽略不存在原路径/文件如果将其设为是，那么作业在源路径不存在的情况下也能成功执行。否 MD5文件名后缀 “文件格式”选择“二进制格式”时，该参数才显示。校验CDM抽取的文件，是否与源文件一致，详细请参见MD5校验文件一致性。 .md5 迁移文件或对象时支持文件级增量迁移（通过配置跳过重复文件实现），但不支持断点续传。例如要迁移3个文件，第2个文件迁移到一半时由于网络原因失败，再次启动迁移任务时，会跳过第1个文件，从第2个文件开始重新传，但不能从第2个文件失败的位置重新传。文件迁移时，单个任务支持千万数量的文件，如果待迁移目录下文件过多，建议拆分到不同目录并创建多个任务。父主题：配置CDM作业源端参数

数据治理中心 DATAARTS STUDIO 配置CDM作业源端参数
数据治理中心 DATAARTS STUDIO-Cassandra连接参数说明

Cassandra连接参数说明 2.9.3.300以上版本不支持Cassandra。作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户，密码不会立即生效且作业会运行失败。表1 Cassandra连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 mongodb_link 服务节点一个或者多个节点的地址，以“;”分隔。建议同时配置多个节点。 192.168.0.1;192.168.0.2 端口连接的Cassandra节点的端口号。 9042 用户名连接Cassandra的用户名。 cdm 密码连接Cassandra的密码。 - 连接超时时长可选参数，单击“显示高级属性”后显示。连接超时时长，单位秒。 5 读取超时时长可选参数，单击“显示高级属性”后显示。读取超时时长，单位秒。小于或等于0表示不超时。 12 父主题：配置连接参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-PostgreSQL/SQLServer连接参数说明

PostgreSQL/SQLServer连接参数说明连接PostgreSQL/SQLServer时，相关参数如表1所示，金仓和 GaussDB 数据源可通过PostgreSQL连接器进行连接，支持的迁移作业的源端、目的端情况与PostgreSQL数据源一致。作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户，密码不会立即生效且作业会运行失败。表1 PostgreSQL/SQLServer连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 sql_link 数据库服务器配置为要连接的数据库的IP地址或域名。单击输入框后的“选择”，可获取用户的实例列表。 192.168.0.1 端口配置为要连接的数据库的端口。不同的数据库端口不同，请根据具体情况配置。例如： SQLServer默认端口：1433 PostgreSQL默认端口：5432 数据库名称配置为要连接的数据库名称。 dbname 用户名待连接数据库的用户。该数据库用户需要有数据表的读写权限，以及对元数据的读取权限。 cdm 密码用户名密码。 - 使用Agent Agent功能待下线，无需配置。 - Agent Agent功能待下线，无需配置。 - 驱动类名根据上传驱动选择对应驱动类名。当前支持postgresql和kingbase8两种驱动类名。 - 引用符号可选参数，连接引用表名或列名时的分隔符号，参考对应数据库的产品文档进行配置。 " 驱动版本不同类型的关系数据库，需要适配不同的驱动，更多详情请参见如何获取驱动。 - 单次请求行数可选参数，单击“显示高级属性”后显示。指定每次请求获取的行数，根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小，可能影响作业的时长。 1000 单次提交行数可选参数，单击“显示高级属性”后显示。指定每次批量提交的行数，根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小，可能影响作业的时长。 10000 SSL加密可选参数，控制是否通过SSL加密方式连接数据库。是连接属性可选参数，单击“添加”可增加多个指定数据源的JDBC连接器的属性，参考对应数据库的JDBC连接器说明文档进行配置。常见配置举例如下： connectTimeout=60与socketTimeout=300：迁移数据量较大、或通过查询语句检索全表时，会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间（单位s），避免超时导致失败。 useCursorFetch=false：CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关，即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错，可以关闭此开关。 trustServerCertificate=true：在创建安全连接的时候可能会报PKIX错误，建议设置为true。 sslmode=require：PostgreSQL在开启SSL认证时可能会连接失败，需要设置为require。 sslmode=require 连接私密属性可选参数，单击“显示高级属性”后显示。自定义私密连接属性。 sk=09fUgD5WOF1L6f 父主题：配置连接参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-HDFS连接参数说明:FusionInsight HDFS

FusionInsight HDFS 连接FusionInsight HD上的HDFS数据源时，相关参数如表2所示。表2 FusionInsight HDFS连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 FI_hdfs_link Manager IP FusionInsight Manager平台的地址。 127.0.0.1 Manager端口 FusionInsight Manager平台的端口。 28443 CAS Server端口与FusionInsight对接的CAS Server的端口。 20009 用户名登录FusionInsight Manager平台的用户名。从HDFS导出目录时，如果需要创建快照，这里配置的用户需要HDFS系统的管理员权限。 cdm 密码 FusionInsight Manager平台的密码。 - 认证类型访问集群的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。 KERBEROS 运行模式选择HDFS连接的运行模式： EMBEDDED：连接实例与CDM运行在一起，该模式性能较好。 STANDALONE：连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源（MRS、Hadoop或CloudTable），并且既有KERBEROS认证模式又有SIMPLE认证模式，只能使用STANDALONE模式。说明：STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时，存在jar包冲突的情况，这时需要将源端或目的端放在STANDALONE进程里，防止冲突导致迁移失败。 STANDALONE Agent Agent功能待下线，无需配置。 - 是否使用集群配置您可以通过使用集群配置，简化Hadoop连接参数配置。否集群配置名仅当“是否使用集群配置”为“是”时，此参数有效。此参数用于选择用户已经创建好的集群配置。集群配置的创建方法请参见管理集群配置。 hdfs_01 单击“显示高级属性”，然后单击“添加”，您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性，可单击属性后的“删除”按钮进行删除。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-HDFS连接参数说明:Apache HDFS

Apache HDFS 连接Apache Hadoop上的HDFS数据源时，相关参数如表3所示。表3 Apache HDFS连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 hadoop_hdfs_link URI 表示NameNode URI地址。可以填写为：hdfs://namenode实例的ip:8020。 hdfs://IP:8020 认证类型访问集群的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。 KERBEROS 运行模式选择HDFS连接的运行模式： EMBEDDED：连接实例与CDM运行在一起，该模式性能较好。 STANDALONE：连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源（MRS、Hadoop或CloudTable），并且既有KERBEROS认证模式又有SIMPLE认证模式，只能使用STANDALONE模式。说明：STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时，存在jar包冲突的情况，这时需要将源端或目的端放在STANDALONE进程里，防止冲突导致迁移失败。 STANDALONE IP与主机名映射运行模式选择“EMBEDDED”、“STANDALONE”时，该参数有效。如果HDFS配置文件使用主机名，需要配置IP与主机的映射。格式：IP与主机名之间使用空格分隔，多对映射使用分号或回车换行分隔。 10.1.6.9 hostname01 10.2.7.9 hostname02 Agent Agent功能待下线，无需配置。 - 是否使用集群配置您可以通过使用集群配置，简化Hadoop连接参数配置。否集群配置名当“是否使用集群配置”为“是”或“认证类型”为“KERBEROS”时，此参数有效。此参数用于选择用户已经创建好的集群配置。集群配置的创建方法请参见管理集群配置。 hdfs_01

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-HDFS连接参数说明:MRS HDFS

MRS HDFS 连接MRS上的HDFS数据源时，相关参数如表1所示。当前暂不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群，请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。新建MRS连接前，需在MRS中添加一个kerberos认证用户并登录MRS管理页面更新其初始密码，然后使用该新建用户创建MRS连接。如需连接MRS 2.x版本的集群，请先创建2.x版本的CDM集群。CDM 1.8.x版本的集群无法连接MRS 2.x版本的集群。如果选择集群后连接失败，请检查MRS集群与作为Agent的CDM实例是否网络互通。网络互通需满足如下条件： DataArts Studio实例（指DataArts Studio实例中的CDM集群）与MRS集群处于不同区域的情况下，需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP，MRS集群可以访问公网且防火墙规则已开放连接端口。 DataArts Studio实例（指DataArts Studio实例中的CDM集群）与MRS集群同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但子网或安全组不同，还需配置路由规则及安全组规则，配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则章节。此外，还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同，如果不同，您需要修改工作空间的企业项目。当同一Agent连接多个MRS集群时，如果其中一个MRS集群被删除或状态异常，会影响另外一个正常的MRS集群数据连接。因此建议一个Agent对应一个MRS集群数据连接。表1 MRS上的HDFS连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 mrs_hdfs_link Manager IP 输入或选择Manager IP。通过“选择”来选定已创建的MRS集群，CDM会自动填充下面的鉴权参数。 Hadoop类型为MRS：输入MRS Manager IP。 Hadoop类型为FusionInsight HD：输入FusionInsight HD Manager IP。手动填写IP时请根据场景和顺序填写：填写单个IP时，ip应为MRS集群管理面的浮动IP。填写2个IP时，应填写MRS集群业务面的主节点IP和备节点IP，多个IP之前使用";"分隔。填写3个IP时，应填写MRS集群业务面的主节点IP、备节点IP和MRS集群管理面的浮动IP，多个IP之间使用";"分隔。说明：当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群，请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。 127.0.0.1 127.0.0.1;127.0.0.2;127.0.0.3 用户名选择KERBEROS鉴权时，需要配置MRS Manager的用户名和密码。从HDFS导出目录时，如果需要创建快照，这里配置的用户需要HDFS系统的管理员权限。如果要创建MRS安全集群的数据连接，不能使用admin用户。因为admin用户是默认的管理页面用户，这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户，然后在创建MRS数据连接时，“用户名”和“密码”填写为新建的MRS用户及其密码。说明：如果CDM集群为2.9.0版本及之后版本，且MRS集群为3.1.0及之后版本，则所创建的用户至少需具备Manager_viewer的角色权限才能在CDM创建连接；如果需要对MRS组件的库、表、列进行操作，还需要参考MRS文档添加对应组件的库、表、列操作权限。如果CDM集群为2.9.0之前的版本，或MRS集群为3.1.0之前的版本，则所创建的用户需要具备Manager_administrator或System_administrator权限，才能在CDM创建连接。仅具备Manager_tenant或Manager_auditor权限，无法创建连接。 cdm 密码访问MRS Manager的用户密码。 - 认证类型访问MRS的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。 SIMPLE 运行模式选择HDFS连接的运行模式： EMBEDDED：连接实例与CDM运行在一起，该模式性能较好。 STANDALONE：连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源（MRS、Hadoop或CloudTable），并且既有KERBEROS认证模式又有SIMPLE认证模式，只能使用STANDALONE模式。说明：STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时，存在jar包冲突的情况，这时需要将源端或目的端放在STANDALONE进程里，防止冲突导致迁移失败。若在一个CDM中同时连接两个及以上开启Kerberos认证且realm相同的集群，只能使用EMBEDDED运行模式连接其中一个集群，其余需使用STANDALONE。 STANDALONE Agent Agent功能待下线，无需配置。 - 是否使用集群配置您可以通过使用集群配置，简化Hadoop连接参数配置。否集群配置名仅当“是否使用集群配置”为“是”时，此参数有效。此参数用于选择用户已经创建好的集群配置。集群配置的创建方法请参见管理集群配置。 hdfs_01 单击“显示高级属性”，然后单击“添加”，您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性，可单击属性后的“删除”按钮进行删除。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-HBase连接参数说明:FusionInsight HBase

FusionInsight HBase 连接FusionInsight HD上的HBase数据源时，相关参数如表2所示。表2 FusionInsight HBase连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 FI_hbase_link Manager IP FusionInsight Manager平台的地址。 127.0.0.1 Manager端口 FusionInsight Manager平台的端口。 28443 CAS Server端口与FusionInsight对接的CAS Server的端口。 20009 用户名登录FusionInsight Manager平台的用户名。 cdm 密码 FusionInsight Manager平台的密码。 - 认证类型访问集群的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。 KERBEROS HBase版本 HBase版本。 HBASE_2_X 运行模式 “HBASE_2_X”版本支持该参数。选择HBase连接的运行模式： EMBEDDED：连接实例与CDM运行在一起，该模式性能较好。 STANDALONE：连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源（MRS、Hadoop或CloudTable），并且既有KERBEROS认证模式又有SIMPLE认证模式，只能使用STANDALONE模式。说明： STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时，存在jar包冲突的情况，这时需要将源端或目的端放在STANDALONE进程里，防止冲突导致迁移失败。 STANDALONE 是否使用集群配置您可以通过使用集群配置，简化Hadoop连接参数配置。否集群配置名仅当“是否使用集群配置”为“是”时，此参数有效。此参数用于选择用户已经创建好的集群配置。集群配置的创建方法请参见管理集群配置。 hbase_01 单击“显示高级属性”，然后单击“添加”，您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性，可单击属性后的“删除”按钮进行删除。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-HBase连接参数说明:MRS HBase

MRS HBase 连接MRS上的HBase数据源时，相关参数如表1所示。当前暂不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群，请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。新建MRS连接前，需在MRS中添加一个kerberos认证用户并登录MRS管理页面更新其初始密码，然后使用该新建用户创建MRS连接。如需连接MRS 2.x版本的集群，请先创建2.x版本的CDM集群。CDM 1.8.x版本的集群无法连接MRS 2.x版本的集群。如果选择集群后连接失败，请检查MRS集群与作为Agent的CDM实例是否网络互通。网络互通需满足如下条件： DataArts Studio实例（指DataArts Studio实例中的CDM集群）与MRS集群处于不同区域的情况下，需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP，MRS集群可以访问公网且防火墙规则已开放连接端口。 DataArts Studio实例（指DataArts Studio实例中的CDM集群）与MRS集群同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但子网或安全组不同，还需配置路由规则及安全组规则，配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则章节。此外，还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同，如果不同，您需要修改工作空间的企业项目。当同一Agent连接多个MRS集群时，如果其中一个MRS集群被删除或状态异常，会影响另外一个正常的MRS集群数据连接。因此建议一个Agent对应一个MRS集群数据连接。表1 MRS上的HBase连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 mrs_hbase_link Manager IP 输入或选择Manager IP。通过“选择”来选定已创建的MRS集群，CDM会自动填充下面的鉴权参数。 Hadoop类型为MRS：输入MRS Manager IP。 Hadoop类型为FusionInsight HD：输入FusionInsight HD Manager IP。手动填写IP时请根据场景和顺序填写：填写单个IP时，ip应为MRS集群管理面的浮动IP。填写2个IP时，应填写MRS集群业务面的主节点IP和备节点IP，多个IP之前使用";"分隔。填写3个IP时，应填写MRS集群业务面的主节点IP、备节点IP和MRS集群管理面的浮动IP，多个IP之间使用";"分隔。说明：当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群，请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。 127.0.0.1 127.0.0.1;127.0.0.2;127.0.0.3 用户名选择KERBEROS鉴权时，需要配置MRS Manager的用户名和密码。从HDFS导出目录时，如果需要创建快照，这里配置的用户需要HDFS系统的管理员权限。如果要创建MRS安全集群的数据连接，不能使用admin用户。因为admin用户是默认的管理页面用户，这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户，然后在创建MRS数据连接时，“用户名”和“密码”填写为新建的MRS用户及其密码。说明：如果CDM集群为2.9.0版本及之后版本，且MRS集群为3.1.0及之后版本，则所创建的用户至少需具备Manager_viewer的角色权限才能在CDM创建连接；如果需要对MRS组件的库、表、列进行操作，还需要参考MRS文档添加对应组件的库、表、列操作权限。如果CDM集群为2.9.0之前的版本，或MRS集群为3.1.0之前的版本，则所创建的用户需要具备Manager_administrator或System_administrator权限，才能在CDM创建连接。仅具备Manager_tenant或Manager_auditor权限，无法创建连接。 cdm 密码访问MRS Manager的用户密码。 - 认证类型访问集群的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。 SIMPLE HBase版本 HBase版本。 HBASE_2_X 运行模式 “HBASE_2_X”版本支持该参数。选择HBase连接的运行模式： EMBEDDED：连接实例与CDM运行在一起，该模式性能较好。 STANDALONE：连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源（MRS、Hadoop或CloudTable），并且既有KERBEROS认证模式又有SIMPLE认证模式，只能使用STANDALONE模式。说明：STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时，存在jar包冲突的情况，这时需要将源端或目的端放在STANDALONE进程里，防止冲突导致迁移失败。 STANDALONE 是否使用集群配置用户可以在“连接管理”处创建集群配置，用于简化Hadoop连接参数配置。否集群配置名仅当“是否使用集群配置”为“是”时，此参数有效。此参数用于选择用户已经创建好的集群配置。集群配置的创建方法请参见管理集群配置。 hbase_01 单击“显示高级属性”，然后单击“添加”，您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性，可单击属性后的“删除”按钮进行删除。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-DMS Kafka连接参数说明

DMS Kafka连接参数说明连接DMS的Kafka队列时，相关参数如表1所示。作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户，密码不会立即生效且作业会运行失败。表1 DMS Kafka连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 dms_link 服务类型选择DMS Kafka版本，目前只有专享版。专享版 Kafka Broker Kafka专享版实例的地址，格式为 host:port。 - Kafka SASL_SSL 选择是否打开客户端连接Kafka专享版实例时SSL认证的开关。当DMS Kafka实例的连接信息中启用的安全协议为“SASL_SSL”时需要开启。开启Kafka SASL_SSL，则数据加密传输，安全性更高，但性能会下降。说明：启用SSL认证后，Kafka会将Kafka Broker连接地址视做域名不断进行解析，导致性能消耗。建议修改CDM集群对应的ECS主机（通过集群IP查找对应的ECS主机）中的“/etc/hosts”文件，为其添加Broker连接地址的自映射，以便客户端能够快速解析实例的Broker。例如Kafka Broker地址配置为10.154.48.120时，hosts文件中的自映射配置为： 10.154.48.120 10.154.48.120 是用户名开启Kafka SASL_SSL时显示该参数，表示连接DMS Kafka的用户名。 - 密码开启Kafka SASL_SSL时显示该参数，表示连接DMS Kafka的密码。 - 属性配置当DMS Kafka实例的连接信息中启用的安全协议后，需要添加数据加密方式属性：属性名称填写为security.protocol，值根据Kafka实例中的安全协议填写为SASL_SSL或SASL_PLAINTEXT。当DMS Kafka实例的连接信息中配置SASL认证机制后，需要添加认证方式的属性：属性名称填写为sasl.mechanism，值根据Kafka实例中配置的SASL认证机制填写为PLAIN或SC RAM -SHA-512（同时支持时选择其中任意一种填写即可）。 - 父主题：配置连接参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-云搜索服务（CSS）连接参数说明

云搜索服务（CSS）连接参数说明华为云的云搜索服务（CSS）是一个基于Elasticsearch且完全托管的在线分布式搜索服务，CSS连接适用于将各类日志文件、数据库记录迁移到CSS，Elasticsearch引擎进行搜索和分析的场景。导入数据到CSS推荐使用Logstash，请参见使用Logstash导入数据到Elasticsearch。作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户，密码不会立即生效且作业会运行失败。连接云搜索服务(CSS)时，相关参数如表1所示。表1 云搜索服务(CSS)连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 css_link Elasticsearch服务器列表配置为一个或多个Elasticsearch服务器的IP地址或域名，包括端口号，格式为“ip:port”，多个地址之间使用“;”分隔。 192.168.0.1:9200;192.168.0.2:9200 安全模式认证是否开启安全模式认证。如果所需连接的CSS集群在创建时开启了“安全模式”，该参数需设置为“是”，否则设置为“否”。是用户名 CSS集群开启安全认证模式时显示此参数。该参数表示连接云搜索服务的用户名。 admin 密码 CSS集群开启安全认证模式时显示此参数。该参数表示连接云搜索服务的密码。 - https访问 CSS集群开启安全认证模式时显示此参数。该参数表示开启https访问，https访问相较于http访问更安全。是父主题：配置连接参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-DIS连接参数说明

DIS连接参数说明连接DIS时，相关参数如表1所示。作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户，密码不会立即生效且作业会运行失败。表1 DIS连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 dis_link 区域 DIS所在的区域。 - 终端节点待连接DIS的URL，URL一般格式为：https://Endpoint。终端节点（Endpoint）即调用API的请求地址，不同服务不同区域的终端节点不同。本服务的Endpoint可从终端节点Endpoint获取。 - 访问标识(AK) 登录DIS服务器的访问标识。您需要先创建当前账号的访问密钥，并获得对应的AK和SK。 - 密钥(SK) 登录DIS服务器的密钥。您需要先创建当前账号的访问密钥，并获得对应的AK和SK。 - 项目ID DIS的项目ID。 - 父主题：配置连接参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-Kafka连接参数说明:Apache Kafka

Apache Kafka Apache Kafka连接适用于用户在本地数据中心或ECS上自建的第三方Kafka，其中本地数据中心的Kafka需通过专线连接。连接Apache Hadoop上的Kafka数据源时，相关参数如表2所示。表2 Apache Kafka连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 kafka_link Kafka broker Kafka broker的IP地址和端口。 192.168.1.1:9092 单击“显示高级属性”，然后单击“添加”，您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性，可单击属性后的“删除”按钮进行删除。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-Kafka连接参数说明:MRS Kafka

MRS Kafka 连接MRS上的Kafka数据源时，相关参数如表1所示。作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户，密码不会立即生效且作业会运行失败。表1 MRS Kafka连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 kafka_link Manager IP 输入或选择Manager IP。通过“选择”来选定已创建的MRS集群，CDM会自动填充下面的鉴权参数。 Hadoop类型为MRS：输入MRS Manager IP。 Hadoop类型为FusionInsight HD：输入FusionInsight HD Manager IP。手动填写IP时请根据场景和顺序填写：填写单个IP时，ip应为MRS集群管理面的浮动IP。填写2个IP时，应填写MRS集群业务面的主节点IP和备节点IP，多个IP之前使用";"分隔。填写3个IP时，应填写MRS集群业务面的主节点IP、备节点IP和MRS集群管理面的浮动IP，多个IP之间使用";"分隔。说明：当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群，请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。 127.0.0.1 127.0.0.1;127.0.0.2;127.0.0.3 用户名需要配置MRS Manager的用户名和密码。如果要创建MRS安全集群的数据连接，不能使用admin用户。因为admin用户是默认的管理页面用户，这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户，然后在创建MRS数据连接时，“用户名”和“密码”填写为新建的MRS用户及其密码。说明：如果CDM集群为2.9.0版本及之后版本，且MRS集群为3.1.0及之后版本，则所创建的用户至少需具备Manager_viewer的角色权限才能在CDM创建连接；如果需要对MRS组件的库、表、列进行操作，还需要参考MRS文档添加对应组件的库、表、列操作权限。如果CDM集群为2.9.0之前的版本，或MRS集群为3.1.0之前的版本，则所创建的用户需要具备Manager_administrator或System_administrator权限，才能在CDM创建连接。仅具备Manager_tenant或Manager_auditor权限，无法创建连接。 - 密码访问MRS Manager的用户密码。 - 认证类型访问MRS的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。是单击“显示高级属性”，然后单击“添加”，您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性，可单击属性后的“删除”按钮进行删除。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-Redis连接参数说明

Redis连接参数说明 Redis连接适用于用户在本地数据中心或ECS上自建的Redis，适用于将数据库或文件中的数据加载到Redis。 Redis连接不支持SSL加密的Redis数据源。连接本地Redis数据库时，相关参数如表1所示。作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户，密码不会立即生效且作业会运行失败。表1 Redis连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 redis_link Redis部署方式 Redis部署方式： Single：表示单机部署。 Cluster：表示集群部署。 Proxy：表示通过代理部署。 Single Redis服务器列表 Redis服务器地址列表，输入格式为“数据库服务器域名或IP地址：端口”。多个服务器列表间以“;”分隔。 192.168.0.1:7300;192.168.0.2:7301 密码连接Redis的密码。 - Redis数据库索引 Redis分库的索引标识。 Redis的分库，相当于关系型数据库中的database。分库总数可以在Redis配置文件中设置，默认是16个，分库名称是一个整数（0～15），不是一个字符串。 0 认证类型访问MRS的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。 SIMPLE 用户名选择KERBEROS鉴权时，需要配置MRS Manager的用户名和密码。从HDFS导出目录时，如果需要创建快照，这里配置的用户需要HDFS系统的管理员权限。如果要创建MRS安全集群的数据连接，不能使用admin用户。因为admin用户是默认的管理页面用户，这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户，然后在创建MRS数据连接时，“用户名”和“密码”填写为新建的MRS用户及其密码。说明：如果CDM集群为2.9.0版本及之后版本，且MRS集群为3.1.0及之后版本，则所创建的用户至少需具备Manager_viewer的角色权限才能在CDM创建连接；如果需要对MRS组件的库、表、列进行操作，还需要参考MRS文档添加对应组件的库、表、列操作权限。如果CDM集群为2.9.0之前的版本，或MRS集群为3.1.0之前的版本，则所创建的用户需要具备Manager_administrator或System_administrator权限，才能在CDM创建连接。仅具备Manager_tenant或Manager_auditor权限，无法创建连接。 cdm 集群配置名称仅当认证类型为KERBEROS时，此参数有效。此参数用于选择用户已经创建好的集群配置。集群配置的创建方法请参见管理集群配置。 hdfs_01 父主题：配置连接参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-DDS连接参数说明

DDS连接参数说明 DDS连接适用于华为云上的文档数据库服务，常用于从DDS同步数据到大数据平台。连接云服务DDS时，相关参数如表1所示。暂不支持开启SSL的DDS数据源。作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户，密码不会立即生效且作业会运行失败。表1 DDS连接参数参数名说明取值样例名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 dds_link 服务器列表服务器地址列表，输入格式为“数据库服务器域名或IP地址：端口”。多个服务器列表间以“;”分隔。 192.168.0.1:7300;192.168.0.2:7301 数据库名称要连接的DDS数据库名称。 DB_dds 用户名连接DDS的用户名。 cdm 密码连接DDS的密码。 - 直连模式适用于主节点网络通，副本节点网络不通场景。说明：直连模式服务器列表只能配一个ip。直连适用于主节点网络通，副本节点网络不通场景。否父主题：配置连接参数

数据治理中心 DATAARTS STUDIO

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！