云服务器内容精选

华为云首页用户手册

数据迁移

分布式缓存服务 DCS-在线迁移方式:步骤:3：检查网络

步骤:3：检查网络检查源Redis、目标Redis、迁移任务资源所在VPC是否在同一个VPC内。如果是，则执行步骤4：创建在线迁移任务；如果不是，执行2。检查源Redis的VPC、目标Redis的VPC、迁移任务资源所在VPC的网络是否打通，确保迁移任务的虚拟机资源能访问源Redis和目标Redis。如果已打通，则执行步骤4：创建在线迁移任务；如果没打通，则执行3。执行相应操作，打通网络。当源Redis和目标Redis属于华为云同一Region，请参考VPC对等连接说明，查看和创建对等连接，打通网络。当源Redis和目标Redis属于华为云不同Region，请参考云连接，查看和创建云连接，打通网络。当源Redis和目标Redis属于不同的云厂商，请参考云专线打通网络。

分布式缓存服务 DCS 实例数据迁移
分布式缓存服务 DCS-在线迁移方式:步骤4：创建在线迁移任务

步骤4：创建在线迁移任务登录分布式缓存服务控制台。单击左侧菜单栏的“数据迁移”。页面显示迁移任务列表页面。单击右上角的“创建在线迁移任务”。设置迁移任务名称和描述。配置在线迁移任务虚拟机资源的VPC、子网和安全组。创建在线迁移任务时，需要选择迁移虚拟机资源的VPC和安全组，并确保迁移资源能访问源Redis和目标Redis实例。创建迁移任务会占用一个租户侧IP，即控制台上迁移任务对应的“迁移IP”。如果源端Redis或目标端Redis配置了白名单，需确保配置了迁移IP或关闭白名单限制。迁移任务所选安全组的“出方向规则”需放通源端Redis和目标端Redis的IP和端口（安全组默认情况下为全部放通，则无需单独放通），以便迁移任务的虚拟机资源能访问源Redis和目标Redis。

分布式缓存服务 DCS 实例数据迁移
分布式缓存服务 DCS-在线迁移方式:步骤5：配置在线迁移任务

步骤5：配置在线迁移任务创建完在线迁移任务之后，在“在线迁移”的列表，单击“操作”列的“配置”，配置在线迁移的源Redis、目标Redis等信息。选择迁移方法。支持“全量迁移”和“全量迁移＋增量迁移”两种，“全量迁移”和“全量迁移＋增量迁移”的功能及限制如表1所示。表1 在线迁移方法说明迁移方法描述全量迁移该模式为Redis的一次性迁移，适用于可中断业务的迁移场景。全量迁移过程中，如果源Redis有数据更新，这部分更新数据不会被迁移到目标Redis。全量迁移＋增量迁移该模式为Redis的持续性迁移，适用于对业务中断敏感的迁移场景。增量迁移阶段通过解析日志等技术，持续保持源Redis和目标端Redis的数据一致。增量迁移，迁移任务会在迁移开始后，一直保持迁移中状态，不会自动停止。需要您在合适时间，在“操作”列单击“停止”，手动停止迁移。停止后，源端数据不会造成丢失，只是目标端不再写入数据。增量迁移在传输链路网络稳定情况下是秒级时延，具体的时延情况依赖于网络链路的传输质量。图1 选择迁移方法当迁移方法选择“全量迁移+增量迁移”时，支持选择是否启用“带宽限制”。启用带宽限制功能，当数据同步速度达到带宽限制时，将限制同步速度的继续增长。选择是否“自动重连”。如开启自动重连模式，迁移过程中在遇到网络等异常情况时，会无限自动重连。自动重连模式在无法进行增量同步时，会触发全量同步，增加带宽占用，请谨慎选择。配置“源Redis”和“目标Redis”。 Redis类型支持“云服务Redis”和“自建Redis”，需要根据迁移场景选择数据来源。云服务Redis：当源端或目标Redis为华为云Redis，且与迁移任务处于相同VPC时，可以选择“云服务Redis”类型，并指定需要迁移的DCS Redis实例。自建Redis：华为云Redis、其他云厂商Redis、自行搭建的Redis，都可以选择“自建Redis”类型，并输入Redis的连接地址。当源Redis和目标Redis属于华为云不同Region，则打通网路后，目标Redis实例无论是自建Redis或华为云Redis实例，在“目标Redis实例”区域，只能选择自建Redis，输入实例相关信息。如果是密码访问模式的实例，在输入Redis实例连接密码后，您需要单击密码右侧的“测试连接”，检查实例密码是否正确、网络是否连通。如果是免密访问的实例，请直接单击“测试连接”。在“源DB”或“目标DB”中，您可以选择是否需要指定具体迁移的DB。例如源端输入5，目标端输入6时，表示迁移源Redis DB5中的数据到目标Redis的DB6；当源端不指定DB，目标端指定DB时，表示默认迁移源端的全部数据到目标端指定的DB，当目标端不指定DB时，表示默认迁移到与源端对应的DB。当源端为多DB，目标端为单DB的DCS实例时（单DB的实例只有DB0），需要源端的所有数据都在DB0，或者指定仅迁移源端某一DB中的数据并将目标端DB指定为0，否则会迁移失败。 DCS Redis的DB数请参见Redis实例是否支持多DB方式？。单击“下一步”。确认迁移信息，然后单击“提交”，开始创建迁移任务。可返回迁移任务列表中，观察对应的迁移任务的状态，迁移成功后，任务状态显示“成功”。如果是增量迁移，会一直保持迁移中的状态。如需手动停止迁移，请选中需要停止的迁移任务，单击“停止”。数据迁移后，目标端与源端重复的Key会被覆盖。如果出现迁移失败，可以单击迁移任务名称，进入迁移任务详情页面，查看“迁移日志”。

分布式缓存服务 DCS 实例数据迁移
分布式缓存服务 DCS-在线迁移方式:迁移后验证

迁移后验证迁移完成后，请使用redis-cli连接源Redis和目标Redis，确认数据的完整性。连接源Redis和目标Redis。输入info keyspace，查看keys参数和expires参数的值。对比源Redis和目标Redis的keys参数分别减去expires参数的差值。如果差值一致，则表示数据完整，迁移正常。注意：如果是全量迁移，迁移过程中源Redis更新的数据不会迁移到目标实例。

分布式缓存服务 DCS 实例数据迁移
分布式缓存服务 DCS-在线迁移方式:前提条件

前提条件在迁移之前，请先阅读迁移方案概览，选择正确的迁移方案，了解当前DCS支持的在线迁移能力，选择适当的目标实例。如果是单机/主备/读写分离实例迁移到Proxy集群实例，Proxy集群默认不开启多DB，仅有一个DB0，请先确保单机/主备实例DB0以外的DB是否有数据，如果有，请先参考开启多DB操作开启Proxy集群多DB设置。如果是单机/主备/读写分离实例迁移到Cluster集群实例，Cluster集群不支持多DB，仅有一个DB0，请先确保单机/主备实例DB0以外的DB是否有数据，如果有，请将数据转存到DB0，否则会出现迁移失败，将数据转存到DB0的操作请参考使用Rump在线迁移。

分布式缓存服务 DCS 实例数据迁移
分布式缓存服务 DCS-在线迁移方式:场景描述

场景描述在满足源Redis和目标Redis的网络相通、源Redis已放通SYNC和PSYNC命令这两个前提下，使用在线迁移的方式，将源Redis中的数据全量迁移或增量迁移到目标Redis中。如果源Redis禁用了SYNC和PSYNC命令，请务必放通后再执行在线迁移，否则迁移失败，选择华为云Redis实例进行在线迁移时，会自动放开SYNC命令。在线迁移不支持公网方式直接迁移。进行在线迁移时，建议将源端实例的参数repl-timeout配置为300秒，client-output-buffer-limit配置为实例最大内存的20%。在线迁移过程中，在源端执行FLUSHDB、FLUSHALL命令不会同步到目标端。

分布式缓存服务 DCS 实例数据迁移
MAPREDUCE服务 MRS-数据拷贝:线下集群向云迁移

线下集群向云迁移线下集群可以通过如下两种方式将数据迁移至云：云专线（DC）为源集群与目标集群之间建立云专线，打通线下集群出口网关与线上VPC之间的网络，然后参考同Region执行Distcp进行拷贝。数据快递服务（DES）对于TB或PB级数据上云的场景，华为云提供数据快递服务 DES。将线下集群数据及已导出的元数据拷贝到DES盒子，快递服务将数据递送到华为云机房，然后通过云数据迁移 CDM将DES盒子数据拷贝到HDFS。

MAPREDUCE服务 MRS 数据迁移方案介绍
MAPREDUCE服务 MRS-数据拷贝:不同Region

不同Region 当源集群与目标集群处于不同Region时，用Distcp工具将源集群数据拷贝到OBS，借助OBS跨区域复制功能（请参见跨区域复制）将数据复制到对应目的集群所在Region的OBS，然后通过Distcp工具将OBS数据拷贝到目的集群的HDFS上。由于执行Distcp无法为OBS上的文件设置权限、属主/组等信息，因此当前场景在进行数据导出时也需要将HDFS的元数据信息进行导出并拷贝，以防HDFS文件属性信息丢失。

MAPREDUCE服务 MRS 数据迁移方案介绍
MAPREDUCE服务 MRS-数据拷贝:线下集群向云迁移

线下集群向云迁移线下集群可以通过如下两种方式将数据迁移至云：云专线（DC）为源集群与目标集群之间建立云专线，打通线下集群出口网关与线上VPC之间的网络，然后参考同Region执行Distcp进行拷贝。数据快递服务（DES）对于TB或PB级数据上云的场景，华为云提供数据快递服务 DES。将线下集群数据及已导出的元数据拷贝到DES盒子，快递服务将数据递送到华为云机房，然后通过云数据迁移 CDM将DES盒子数据拷贝到HDFS。

MAPREDUCE服务 MRS 数据迁移方案介绍
MAPREDUCE服务 MRS-数据拷贝:不同Region

不同Region 当源集群与目标集群处于不同Region时，用Distcp工具将源集群数据拷贝到OBS，借助OBS跨区域复制功能（请参见跨区域复制）将数据复制到对应目的集群所在Region的OBS，然后通过Distcp工具将OBS数据拷贝到目的集群的HDFS上。由于执行Distcp无法为OBS上的文件设置权限、属主/组等信息，因此当前场景在进行数据导出时也需要将HDFS的元数据信息进行导出并拷贝，以防HDFS文件属性信息丢失。

MAPREDUCE服务 MRS 数据迁移方案介绍
数据治理中心 DATAARTS STUDIO-字段转换器配置指导:表达式转换

表达式转换使用JSP表达式语言（Expression Language）对当前字段或整行数据进行转换。JSP表达式语言可以用来创建算术和逻辑表达式。在表达式内可以使用整型数，浮点数，字符串，常量true、false和null。数据进行转换过程中，替换内容包含特殊字符时，需要先使用\将该字符转义成普通字符。表达式支持以下两个环境变量： value：当前字段值。 row：当前行，数组类型。表达式支持的工具类用法罗列如下，未列出即表示不支持：如果当前字段为字符串类型，将字符串全部转换为小写，例如将“aBC”转换为“abc”。表达式：StringUtils.lowerCase(value) 将当前字段的字符串全部转为大写。表达式：StringUtils.upperCase(value) 如果想将第1个日期字段格式从“2018-01-05 15:15:05”转换为“20180105”。表达式：DateUtils.format(DateUtils.parseDate(row[0],"yyyy-MM-dd HH:mm:ss"),"yyyyMMdd") 如果想将时间戳转换成“yyyy-MM-dd hh:mm:ss”格式的日期字符串的类型，例如字段值为“1701312046588”，转换后为“2023-11-30 10:40:46”。表达式：DateUtils.format(NumberUtils.toLong(value),"yyyy-MM-dd HH:mm:ss") 如果想将“yyyy-MM-dd hh:mm:ss”格式的日期字符串转换成时间戳的类型。表达式：DateUtils.getTime(DateUtils.parseDate(value,"yyyy-MM-dd hh:mm:ss")) 如果当前字段值为“yyyy-MM-dd”格式的日期字符串，需要截取年，例如字段值为“2017-12-01”，转换后为“2017”。表达式：StringUtils.substringBefore(value,"-") 如果当前字段值为数值类型，转换后值为当前值的两倍。表达式：value*2 如果当前字段值为“true”，转换后为“Y”，其它值则转换后为“N”。表达式：value=="true"?"Y":"N" 如果当前字段值为字符串类型，当为空时，转换为“Default”，否则不转换。表达式：empty value? "Default":value 如果想将日期字段格式从“2018/01/05 15:15:05”转换为“2018-01-05 15:15:05”。表达式：DateUtils.format(DateUtils.parseDate(value,"yyyy/MM/dd HH:mm:ss"),"yyyy-MM-dd HH:mm:ss") 获取一个36位的UUID（Universally Unique Identifier，通用唯一识别码）。表达式：CommonUtils.randomUUID() 如果当前字段值为字符串类型，将首字母转换为大写，例如将“cat”转换为“Cat”。表达式：StringUtils.capitalize(value) 如果当前字段值为字符串类型，将首字母转换为小写，例如将“Cat”转换为“cat”。表达式：StringUtils.uncapitalize(value) 如果当前字段值为字符串类型，使用空格填充为指定长度，并且将字符串居中，当字符串长度不小于指定长度时不转换，例如将“ab”转换为长度为4的“ab”。表达式：StringUtils.center(value,4) 删除字符串末尾的一个换行符（包括“\n”、“\r”或者“\r\n”），例如将“abc\r\n\r\n”转换为“abc\r\n”。表达式：StringUtils.chomp(value) 如果字符串中包含指定的字符串，则返回布尔值true，否则返回false。例如“abc”中包含“a”，则返回true。表达式：StringUtils.contains(value,"a") 如果字符串中包含指定字符串的任一字符，则返回布尔值true，否则返回false。例如“zzabyycdxx”中包含“z”或“a”任意一个，则返回true。表达式：StringUtils.containsAny(value,"za") 如果字符串中不包含指定的所有字符，则返回布尔值true，包含任意一个字符则返回false。例如“abz”中包含“xyz”里的任意一个字符，则返回false。表达式：StringUtils.containsNone(value,"xyz") 如果当前字符串只包含指定字符串中的字符，则返回布尔值true，包含任意一个其它字符则返回false。例如“abab”只包含“abc”中的字符，则返回true。表达式：StringUtils.containsOnly(value,"abc") 如果字符串为空或null，则转换为指定的字符串，否则不转换。例如将空字符转换为null。表达式：StringUtils.defaultIfEmpty(value,null) 如果字符串以指定的后缀结尾（包括大小写），则返回布尔值true，否则返回false。例如“abcdef”后缀不为null，则返回false。表达式：StringUtils.endsWith(value,null) 如果字符串和指定的字符串完全一样（包括大小写），则返回布尔值true，否则返回false。例如比较字符串“abc”和“ABC”，则返回false。表达式：StringUtils.equals(value,"ABC") 从字符串中获取指定字符串的第一个索引，没有则返回整数-1。例如从“aabaabaa”中获取“ab”的第一个索引1。表达式：StringUtils.indexOf(value,"ab") 从字符串中获取指定字符串的最后一个索引，没有则返回整数-1。例如从“aFkyk”中获取“k”的最后一个索引4。表达式：StringUtils.lastIndexOf(value,"k") 从字符串中指定的位置往后查找，获取指定字符串的第一个索引，没有则转换为“-1”。例如“aabaabaa”中索引3的后面，第一个“b”的索引是5。表达式：StringUtils.indexOf(value,"b",3) 从字符串获取指定字符串中任一字符的第一个索引，没有则返回整数-1。例如从“zzabyycdxx”中获取“z”或“a”的第一个索引0。表达式：StringUtils.indexOfAny(value,"za") 如果字符串仅包含Unicode字符，返回布尔值true，否则返回false。例如“ab2c”中包含非Unicode字符，返回false。表达式：StringUtils.isAlpha(value) 如果字符串仅包含Unicode字符或数字，返回布尔值true，否则返回false。例如“ab2c”中仅包含Unicode字符和数字，返回true。表达式：StringUtils.isAlphanumeric(value) 如果字符串仅包含Unicode字符、数字或空格，返回布尔值true，否则返回false。例如“ab2c”中仅包含Unicode字符和数字，返回true。表达式：StringUtils.isAlphanumericSpace(value) 如果字符串仅包含Unicode字符或空格，返回布尔值true，否则返回false。例如“ab2c”中包含Unicode字符和数字，返回false。表达式：StringUtils.isAlphaSpace(value) 如果字符串仅包含ASCII可打印字符，返回布尔值true，否则返回false。例如“!ab-c~”返回true。表达式：StringUtils.isAsciiPrintable(value) 如果字符串为空或null，返回布尔值true，否则返回false。表达式：StringUtils.isEmpty(value) 如果字符串中仅包含Unicode数字，返回布尔值true，否则返回false。表达式：StringUtils.isNumeric(value) 获取字符串最左端的指定长度的字符，例如获取“abc”最左端的2位字符“ab”。表达式：StringUtils.left(value,2) 获取字符串最右端的指定长度的字符，例如获取“abc”最右端的2位字符“bc”。表达式：StringUtils.right(value,2) 将指定字符串拼接至当前字符串的左侧，需同时指定拼接后的字符串长度，如果当前字符串长度不小于指定长度，则不转换。例如将“yz”拼接到“bat”左侧，拼接后长度为8，则转换后为“yzyzybat”。表达式：StringUtils.leftPad(value,8,"yz") 将指定字符串拼接至当前字符串的右侧，需同时指定拼接后的字符串长度，如果当前字符串长度不小于指定长度，则不转换。例如将“yz”拼接到“bat”右侧，拼接后长度为8，则转换后为“batyzyzy”。表达式：StringUtils.rightPad(value,8,"yz") 如果当前字段为字符串类型，获取当前字符串的长度，如果该字符串为null，则返回0。表达式：StringUtils.length(value) 如果当前字段为字符串类型，删除其中所有的指定字符串，例如从“queued”中删除“ue”，转换后为“qd”。表达式：StringUtils.remove(value,"ue") 如果当前字段为字符串类型，移除当前字段末尾指定的子字符串。指定的子字符串若不在当前字段的末尾，则不转换，例如移除当前字段“www.domain.com”后的“.com”。表达式：StringUtils.removeEnd(value,".com") 如果当前字段为字符串类型，移除当前字段开头指定的子字符串。指定的子字符串若不在当前字段的开头，则不转换，例如移除当前字段“www.domain.com”前的“www.”。表达式：StringUtils.removeStart(value,"www.") 如果当前字段为字符串类型，替换当前字段中所有的指定字符串，例如将“aba”中的“a”用“z”替换，转换后为“zbz”。表达式：StringUtils.replace(value,"a","z") 替换内容包含特殊字符时，需要先把该字符转义成普通字符，例如，客户想通过该表达式把字符串中 \t 去掉时，需要配置为： StringUtils.replace(value,"\\t","")（即把 \ 再次转义）。如果当前字段为字符串类型，一次替换字符串中的多个字符，例如将字符串“hello”中的“h”用“j”替换，“o”用“y”替换，转换后为“jelly”。表达式：StringUtils.replaceChars(value,"ho","jy") 如果字符串以指定的前缀开头（区分大小写），则返回布尔值true，否则返回false，例如当前字符串“abcdef”以“abc”开头，则返回true。表达式：StringUtils.startsWith(value,"abc") 如果当前字段为字符串类型，去除字段中首、尾处所有指定的字符，例如去除“abcyx”中首尾所有的“x”、“y”、“z”和“b”，转换后为“abc”。表达式：StringUtils.strip(value,"xyzb") 如果当前字段为字符串类型，去除字段末尾所有指定的字符，例如去除当前字段末尾的“abc”字符串。表达式：StringUtils.stripEnd(value,"abc") 如果当前字段为字符串类型，去除字段开头所有指定的字符，例如去除当前字段开头的所有空格。表达式：StringUtils.stripStart(value,null) 如果当前字段为字符串类型，获取字符串指定位置后（索引从0开始，包括指定位置的字符）的子字符串，指定位置如果为负数，则从末尾往前计算位置，末尾第一位为-1。例如获取“abcde”索引为2的字符（即c）及之后的字符串，则转换后为“cde”。表达式：StringUtils.substring(value,2) 如果当前字段为字符串类型，获取字符串指定区间（索引从0开始，区间起点包括指定位置的字符，区间终点不包含指定位置的字符）的子字符串，区间位置如果为负数，则从末尾往前计算位置，末尾第一位为-1。例如获取“abcde”第2个字符（即c）及之后、第4个字符（即e）之前的字符串，则转换后为“cd”。表达式：StringUtils.substring(value,2,4) 如果当前字段为字符串类型，获取当前字段里第一个指定字符后的子字符串。例如获取“abcba”中第一个“b”之后的子字符串，转换后为“cba”。表达式：StringUtils.substringAfter(value,"b") 如果当前字段为字符串类型，获取当前字段里最后一个指定字符后的子字符串。例如获取“abcba”中最后一个“b”之后的子字符串，转换后为“a”。表达式：StringUtils.substringAfterLast(value,"b") 如果当前字段为字符串类型，获取当前字段里第一个指定字符前的子字符串。例如获取“abcba”中第一个“b”之前的子字符串，转换后为“a”。表达式：StringUtils.substringBefore(value,"b") 如果当前字段为字符串类型，获取当前字段里最后一个指定字符前的子字符串。例如获取“abcba”中最后一个“b”之前的子字符串，转换后为“abc”。表达式：StringUtils.substringBeforeLast(value,"b") 如果当前字段为字符串类型，获取嵌套在指定字符串之间的子字符串，没有匹配的则返回null。例如获取“tagabctag”中“tag”之间的子字符串，转换后为“abc”。表达式：StringUtils.substringBetween(value,"tag") 如果当前字段为字符串类型，删除当前字符串两端的控制字符（char≤32），例如删除字符串前后的空格。表达式：StringUtils.trim(value) 将当前字符串转换为字节，如果转换失败，则返回0。表达式：NumberUtils.toByte(value) 将当前字符串转换为字节，如果转换失败，则返回指定值，例如指定值配置为1。表达式：NumberUtils.toByte(value,1) 将当前字符串转换为Double数值，如果转换失败，则返回0.0d。表达式：NumberUtils.toDouble(value) 将当前字符串转换为Double数值，如果转换失败，则返回指定值，例如指定值配置为1.1d。表达式：NumberUtils.toDouble(value,1.1d) 将当前字符串转换为Float数值，如果转换失败，则返回0.0f。表达式：NumberUtils.toFloat(value) 将当前字符串转换为Float数值，如果转换失败，则返回指定值，例如配置指定值为1.1f。表达式：NumberUtils.toFloat(value,1.1f) 将当前字符串转换为Int数值，如果转换失败，则返回0。表达式：NumberUtils.toInt(value) 将当前字符串转换为Int数值，如果转换失败，则返回指定值，例如配置指定值为1。表达式：NumberUtils.toInt(value,1) 将字符串转换为Long数值，如果转换失败，则返回0。表达式：NumberUtils.toLong(value) 将当前字符串转换为Long数值，如果转换失败，则返回指定值，例如配置指定值为1L。表达式：NumberUtils.toLong(value,1L) 将字符串转换为Short数值，如果转换失败，则返回0。表达式：NumberUtils.toShort(value) 将当前字符串转换为Short数值，如果转换失败，则返回指定值，例如配置指定值为1。表达式：NumberUtils.toShort(value,1) 将当前IP字符串转换为Long数值，例如将“10.78.124.0”转换为Long数值是“172915712”。表达式：CommonUtils.ipToLong(value) 从网络读取一个IP与物理地址映射文件，并存放到Map集合，这里的URL是IP与地址映射文件存放地址，例如“http://10.114.205.45:21203/sqoop/IpList.csv”。表达式：HttpsUtils.downloadMap("url") 将IP与地址映射对象缓存起来并指定一个key值用于检索，例如“ipList”。表达式：CommonUtils.setCache("ipList",HttpsUtils.downloadMap("url")) 取出缓存的IP与地址映射对象。表达式：CommonUtils.getCache("ipList") 判断是否有IP与地址映射缓存。表达式：CommonUtils.cacheExists("ipList") 根据IP取出对应的详细地址：国家_省份_城市_运营商，例如“1xx.78.124.0”对应的地址为“中国_广东_深圳_电信”，取不到对应地址则默认“**_**_**_**”。如果需要，可通过StringUtil类表达式对地址进行进一步拆分。表达式：CommonUtils.getMapValue(CommonUtils.ipToLong(value),CommonUtils.cacheExists("ipLis")?CommonUtils.getCache("ipLis"):CommonUtils.setCache("ipLis",HttpsUtils.downloadMap("url"))) 根据指定的偏移类型（month/day/hour/minute/second）及偏移量（正数表示增加，负数表示减少），将指定格式的时间转换为一个新时间，例如将“2019-05-21 12:00:00”增加8个小时。表达式：DateUtils.getCurrentTimeByZone("yyyy-MM-dd HH:mm:ss",value, "hour", 8) 如果value值为空或者null时，则返回字符串“aaa”，否则返回value。表达式：StringUtils.defaultIfEmpty(value,"aaa")

数据治理中心 DATAARTS STUDIO 数据迁移进阶实践
数据治理中心 DATAARTS STUDIO-字段转换器配置指导:约束限制

约束限制作业源端开启“使用SQL语句”参数时不支持配置转换器。如果在字段映射界面，CDM通过获取样值的方式无法获得所有列（例如从HBase/CloudTable/MongoDB导出数据时，CDM有较大概率无法获得所有列），则可以单击后选择“添加新字段”来手动增加，确保导入到目的端的数据完整。关系数据库、Hive、MRS Hudi及DLI做源端时，不支持获取样值功能。 SQLServer作为目的端数据源时，不支持timestamp类型字段的写入，需修改为其他时间类型字段写入（如datetime）。当作业源端为OBS、迁移CSV文件时，并且配置“解析首行为列名”参数的场景下显示列名。当使用二进制格式进行文件到文件的迁移时，没有配置字段转换器这一步。自动创表场景下，需在目的端表中提前手动新增字段，再在字段映射里新增字段。添加完字段后，新增的字段在界面不显示样值，不会影响字段值的传输，CDM会将字段值直接写入目的端。如果字段映射关系不正确，您可以通过拖拽字段、单击对字段批量映射两种方式来调整字段映射关系。创建表达式转换器时，表达式的功能是对该字段的数据进行处理，故不建议使用时间宏，如需使用，请根据以下场景处理（源端是文件类的配置时仅支持方式一）：方式一：新建表达式转换器时，表达式需要用''包围。 ${dateformat(yyyy-MM-dd)}不加引号使用时，解析成2017-10-16之后还会进行运算，将'-'识别为减号，导致结果为1991，须使用'${dateformat(yyyy-MM-dd)}'，即'2017-10-16'。图2 使用''包围表达式方式二：源字段中新增自定义字段，在样值中填写时间宏变量，重新进行字段映射处理。图3 源字段新增自定义字段如果是导入到数据仓库服务（DWS），则还需在目的字段中选择分布列，建议按如下顺序选取分布列：有主键可以使用主键作为分布列。多个数据段联合做主键的场景，建议设置所有主键作为分布列。在没有主键的场景下，如果没有选择分布列，DWS会默认第一列作为分布列，可能会有数据倾斜风险。

数据治理中心 DATAARTS STUDIO 数据迁移进阶实践
云数据迁移 CDM-配置字段映射:新建转换器

新建转换器 CDM支持字段内容转换，如果需要可单击操作列下，进入转换器列表界面，再单击“新建转换器”。图2 新建转换器 CDM可以在迁移过程中对字段进行转换，目前支持以下字段转换器：脱敏隐藏字符串中的关键信息，例如要将“12345678910”转换为“123****8910”，则配置如下： “起始保留长度”为“3”。 “结尾保留长度”为“4”。 “替换字符”为“*”。去前后空格自动去字符串前后的空值，不需要配置参数。字符串反转自动反转字符串，例如将“ABC”转换为“CBA”，不需要配置参数。字符串替换替换字符串，需要用户配置被替换的对象，以及替换后的值。去换行将字段中的换行符（\n、\r、\r\n）删除。表达式转换数据进行转换过程中，替换内容包含特殊字符时，需要先使用\将该字符转义成普通字符。表达式支持以下两个环境变量： value：当前字段值。 row：当前行，数组类型。表达式支持的工具类用法罗列如下，未列出即表示不支持：如果当前字段为字符串类型，将字符串全部转换为小写，例如将“aBC”转换为“abc”。表达式：StringUtils.lowerCase(value) 将当前字段的字符串全部转为大写。表达式：StringUtils.upperCase(value) 如果想将第1个日期字段格式从“2018-01-05 15:15:05”转换为“20180105”。表达式：DateUtils.format(DateUtils.parseDate(row[0],"yyyy-MM-dd HH:mm:ss"),"yyyyMMdd") 如果想将时间戳转换成“yyyy-MM-dd hh:mm:ss”格式的日期字符串的类型，例如字段值为“1701312046588”，转换后为“2023-11-30 10:40:46”。表达式：DateUtils.format(NumberUtils.toLong(value),"yyyy-MM-dd HH:mm:ss") 如果想将“yyyy-MM-dd hh:mm:ss”格式的日期字符串转换成时间戳的类型。表达式：DateUtils.getTime(DateUtils.parseDate(value,"yyyy-MM-dd hh:mm:ss")) 如果当前字段值为“yyyy-MM-dd”格式的日期字符串，需要截取年，例如字段值为“2017-12-01”，转换后为“2017”。表达式：StringUtils.substringBefore(value,"-") 如果当前字段值为数值类型，转换后值为当前值的两倍。表达式：value*2 如果当前字段值为“true”，转换后为“Y”，其它值则转换后为“N”。表达式：value=="true"?"Y":"N" 如果当前字段值为字符串类型，当为空时，转换为“Default”，否则不转换。表达式：empty value? "Default":value 如果想将日期字段格式从“2018/01/05 15:15:05”转换为“2018-01-05 15:15:05”。表达式：DateUtils.format(DateUtils.parseDate(value,"yyyy/MM/dd HH:mm:ss"),"yyyy-MM-dd HH:mm:ss") 获取一个36位的UUID（Universally Unique Identifier，通用唯一识别码）。表达式：CommonUtils.randomUUID() 如果当前字段值为字符串类型，将首字母转换为大写，例如将“cat”转换为“Cat”。表达式：StringUtils.capitalize(value) 如果当前字段值为字符串类型，将首字母转换为小写，例如将“Cat”转换为“cat”。表达式：StringUtils.uncapitalize(value) 如果当前字段值为字符串类型，使用空格填充为指定长度，并且将字符串居中，当字符串长度不小于指定长度时不转换，例如将“ab”转换为长度为4的“ab”。表达式：StringUtils.center(value,4) 删除字符串末尾的一个换行符（包括“\n”、“\r”或者“\r\n”），例如将“abc\r\n\r\n”转换为“abc\r\n”。表达式：StringUtils.chomp(value) 如果字符串中包含指定的字符串，则返回布尔值true，否则返回false。例如“abc”中包含“a”，则返回true。表达式：StringUtils.contains(value,"a") 如果字符串中包含指定字符串的任一字符，则返回布尔值true，否则返回false。例如“zzabyycdxx”中包含“z”或“a”任意一个，则返回true。表达式：StringUtils.containsAny(value,"za") 如果字符串中不包含指定的所有字符，则返回布尔值true，包含任意一个字符则返回false。例如“abz”中包含“xyz”里的任意一个字符，则返回false。表达式：StringUtils.containsNone(value,"xyz") 如果当前字符串只包含指定字符串中的字符，则返回布尔值true，包含任意一个其它字符则返回false。例如“abab”只包含“abc”中的字符，则返回true。表达式：StringUtils.containsOnly(value,"abc") 如果字符串为空或null，则转换为指定的字符串，否则不转换。例如将空字符转换为null。表达式：StringUtils.defaultIfEmpty(value,null) 如果字符串以指定的后缀结尾（包括大小写），则返回布尔值true，否则返回false。例如“abcdef”后缀不为null，则返回false。表达式：StringUtils.endsWith(value,null) 如果字符串和指定的字符串完全一样（包括大小写），则返回布尔值true，否则返回false。例如比较字符串“abc”和“ABC”，则返回false。表达式：StringUtils.equals(value,"ABC") 从字符串中获取指定字符串的第一个索引，没有则返回整数-1。例如从“aabaabaa”中获取“ab”的第一个索引1。表达式：StringUtils.indexOf(value,"ab") 从字符串中获取指定字符串的最后一个索引，没有则返回整数-1。例如从“aFkyk”中获取“k”的最后一个索引4。表达式：StringUtils.lastIndexOf(value,"k") 从字符串中指定的位置往后查找，获取指定字符串的第一个索引，没有则转换为“-1”。例如“aabaabaa”中索引3的后面，第一个“b”的索引是5。表达式：StringUtils.indexOf(value,"b",3) 从字符串获取指定字符串中任一字符的第一个索引，没有则返回整数-1。例如从“zzabyycdxx”中获取“z”或“a”的第一个索引0。表达式：StringUtils.indexOfAny(value,"za") 如果字符串仅包含Unicode字符，返回布尔值true，否则返回false。例如“ab2c”中包含非Unicode字符，返回false。表达式：StringUtils.isAlpha(value) 如果字符串仅包含Unicode字符或数字，返回布尔值true，否则返回false。例如“ab2c”中仅包含Unicode字符和数字，返回true。表达式：StringUtils.isAlphanumeric(value) 如果字符串仅包含Unicode字符、数字或空格，返回布尔值true，否则返回false。例如“ab2c”中仅包含Unicode字符和数字，返回true。表达式：StringUtils.isAlphanumericSpace(value) 如果字符串仅包含Unicode字符或空格，返回布尔值true，否则返回false。例如“ab2c”中包含Unicode字符和数字，返回false。表达式：StringUtils.isAlphaSpace(value) 如果字符串仅包含ASCII可打印字符，返回布尔值true，否则返回false。例如“!ab-c~”返回true。表达式：StringUtils.isAsciiPrintable(value) 如果字符串为空或null，返回布尔值true，否则返回false。表达式：StringUtils.isEmpty(value) 如果字符串中仅包含Unicode数字，返回布尔值true，否则返回false。表达式：StringUtils.isNumeric(value) 获取字符串最左端的指定长度的字符，例如获取“abc”最左端的2位字符“ab”。表达式：StringUtils.left(value,2) 获取字符串最右端的指定长度的字符，例如获取“abc”最右端的2位字符“bc”。表达式：StringUtils.right(value,2) 将指定字符串拼接至当前字符串的左侧，需同时指定拼接后的字符串长度，如果当前字符串长度不小于指定长度，则不转换。例如将“yz”拼接到“bat”左侧，拼接后长度为8，则转换后为“yzyzybat”。表达式：StringUtils.leftPad(value,8,"yz") 将指定字符串拼接至当前字符串的右侧，需同时指定拼接后的字符串长度，如果当前字符串长度不小于指定长度，则不转换。例如将“yz”拼接到“bat”右侧，拼接后长度为8，则转换后为“batyzyzy”。表达式：StringUtils.rightPad(value,8,"yz") 如果当前字段为字符串类型，获取当前字符串的长度，如果该字符串为null，则返回0。表达式：StringUtils.length(value) 如果当前字段为字符串类型，删除其中所有的指定字符串，例如从“queued”中删除“ue”，转换后为“qd”。表达式：StringUtils.remove(value,"ue") 如果当前字段为字符串类型，移除当前字段末尾指定的子字符串。指定的子字符串若不在当前字段的末尾，则不转换，例如移除当前字段“www.domain.com”后的“.com”。表达式：StringUtils.removeEnd(value,".com") 如果当前字段为字符串类型，移除当前字段开头指定的子字符串。指定的子字符串若不在当前字段的开头，则不转换，例如移除当前字段“www.domain.com”前的“www.”。表达式：StringUtils.removeStart(value,"www.") 如果当前字段为字符串类型，替换当前字段中所有的指定字符串，例如将“aba”中的“a”用“z”替换，转换后为“zbz”。表达式：StringUtils.replace(value,"a","z") 替换内容包含特殊字符时，需要先把该字符转义成普通字符，例如，客户想通过该表达式把字符串中 \t 去掉时，需要配置为： StringUtils.replace(value,"\\t","")（即把 \ 再次转义）。如果当前字段为字符串类型，一次替换字符串中的多个字符，例如将字符串“hello”中的“h”用“j”替换，“o”用“y”替换，转换后为“jelly”。表达式：StringUtils.replaceChars(value,"ho","jy") 如果字符串以指定的前缀开头（区分大小写），则返回布尔值true，否则返回false，例如当前字符串“abcdef”以“abc”开头，则返回true。表达式：StringUtils.startsWith(value,"abc") 如果当前字段为字符串类型，去除字段中首、尾处所有指定的字符，例如去除“abcyx”中首尾所有的“x”、“y”、“z”和“b”，转换后为“abc”。表达式：StringUtils.strip(value,"xyzb") 如果当前字段为字符串类型，去除字段末尾所有指定的字符，例如去除当前字段末尾的“abc”字符串。表达式：StringUtils.stripEnd(value,"abc") 如果当前字段为字符串类型，去除字段开头所有指定的字符，例如去除当前字段开头的所有空格。表达式：StringUtils.stripStart(value,null) 如果当前字段为字符串类型，获取字符串指定位置后（索引从0开始，包括指定位置的字符）的子字符串，指定位置如果为负数，则从末尾往前计算位置，末尾第一位为-1。例如获取“abcde”索引为2的字符（即c）及之后的字符串，则转换后为“cde”。表达式：StringUtils.substring(value,2) 如果当前字段为字符串类型，获取字符串指定区间（索引从0开始，区间起点包括指定位置的字符，区间终点不包含指定位置的字符）的子字符串，区间位置如果为负数，则从末尾往前计算位置，末尾第一位为-1。例如获取“abcde”第2个字符（即c）及之后、第4个字符（即e）之前的字符串，则转换后为“cd”。表达式：StringUtils.substring(value,2,4) 如果当前字段为字符串类型，获取当前字段里第一个指定字符后的子字符串。例如获取“abcba”中第一个“b”之后的子字符串，转换后为“cba”。表达式：StringUtils.substringAfter(value,"b") 如果当前字段为字符串类型，获取当前字段里最后一个指定字符后的子字符串。例如获取“abcba”中最后一个“b”之后的子字符串，转换后为“a”。表达式：StringUtils.substringAfterLast(value,"b") 如果当前字段为字符串类型，获取当前字段里第一个指定字符前的子字符串。例如获取“abcba”中第一个“b”之前的子字符串，转换后为“a”。表达式：StringUtils.substringBefore(value,"b") 如果当前字段为字符串类型，获取当前字段里最后一个指定字符前的子字符串。例如获取“abcba”中最后一个“b”之前的子字符串，转换后为“abc”。表达式：StringUtils.substringBeforeLast(value,"b") 如果当前字段为字符串类型，获取嵌套在指定字符串之间的子字符串，没有匹配的则返回null。例如获取“tagabctag”中“tag”之间的子字符串，转换后为“abc”。表达式：StringUtils.substringBetween(value,"tag") 如果当前字段为字符串类型，删除当前字符串两端的控制字符（char≤32），例如删除字符串前后的空格。表达式：StringUtils.trim(value) 将当前字符串转换为字节，如果转换失败，则返回0。表达式：NumberUtils.toByte(value) 将当前字符串转换为字节，如果转换失败，则返回指定值，例如指定值配置为1。表达式：NumberUtils.toByte(value,1) 将当前字符串转换为Double数值，如果转换失败，则返回0.0d。表达式：NumberUtils.toDouble(value) 将当前字符串转换为Double数值，如果转换失败，则返回指定值，例如指定值配置为1.1d。表达式：NumberUtils.toDouble(value,1.1d) 将当前字符串转换为Float数值，如果转换失败，则返回0.0f。表达式：NumberUtils.toFloat(value) 将当前字符串转换为Float数值，如果转换失败，则返回指定值，例如配置指定值为1.1f。表达式：NumberUtils.toFloat(value,1.1f) 将当前字符串转换为Int数值，如果转换失败，则返回0。表达式：NumberUtils.toInt(value) 将当前字符串转换为Int数值，如果转换失败，则返回指定值，例如配置指定值为1。表达式：NumberUtils.toInt(value,1) 将字符串转换为Long数值，如果转换失败，则返回0。表达式：NumberUtils.toLong(value) 将当前字符串转换为Long数值，如果转换失败，则返回指定值，例如配置指定值为1L。表达式：NumberUtils.toLong(value,1L) 将字符串转换为Short数值，如果转换失败，则返回0。表达式：NumberUtils.toShort(value) 将当前字符串转换为Short数值，如果转换失败，则返回指定值，例如配置指定值为1。表达式：NumberUtils.toShort(value,1) 将当前IP字符串转换为Long数值，例如将“10.78.124.0”转换为Long数值是“172915712”。表达式：CommonUtils.ipToLong(value) 从网络读取一个IP与物理地址映射文件，并存放到Map集合，这里的URL是IP与地址映射文件存放地址，例如“http://10.114.205.45:21203/sqoop/IpList.csv”。表达式：HttpsUtils.downloadMap("url") 将IP与地址映射对象缓存起来并指定一个key值用于检索，例如“ipList”。表达式：CommonUtils.setCache("ipList",HttpsUtils.downloadMap("url")) 取出缓存的IP与地址映射对象。表达式：CommonUtils.getCache("ipList") 判断是否有IP与地址映射缓存。表达式：CommonUtils.cacheExists("ipList") 根据IP取出对应的详细地址：国家_省份_城市_运营商，例如“1xx.78.124.0”对应的地址为“中国_广东_深圳_电信”，取不到对应地址则默认“**_**_**_**”。如果需要，可通过StringUtil类表达式对地址进行进一步拆分。表达式：CommonUtils.getMapValue(CommonUtils.ipToLong(value),CommonUtils.cacheExists("ipLis")?CommonUtils.getCache("ipLis"):CommonUtils.setCache("ipLis",HttpsUtils.downloadMap("url"))) 根据指定的偏移类型（month/day/hour/minute/second）及偏移量（正数表示增加，负数表示减少），将指定格式的时间转换为一个新时间，例如将“2019-05-21 12:00:00”增加8个小时。表达式：DateUtils.getCurrentTimeByZone("yyyy-MM-dd HH:mm:ss",value, "hour", 8) 如果value值为空或者null时，则返回字符串“aaa”，否则返回value。表达式：StringUtils.defaultIfEmpty(value,"aaa")

云数据迁移 CDM 管理作业
云数据迁移 CDM-配置字段映射:操作场景

操作场景作业参数配置完成后，将进行字段映射的配置，您可以通过字段映射界面的可自定义新增字段，也可单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。其他场景下，CDM会自动匹配源端和目的端数据表字段，需用户检查字段映射关系和时间格式是否正确，例如：源字段类型是否可以转换为目的字段类型。自动创表场景下，需在目的端表中提前手动新增字段，再在字段映射里新增字段。

云数据迁移 CDM 管理作业
云数据迁移 CDM-配置字段映射:约束限制

约束限制作业源端开启“使用SQL语句”参数时不支持配置转换器。如果在字段映射界面，CDM通过获取样值的方式无法获得所有列（例如从HBase/CloudTable/MongoDB导出数据时，CDM有较大概率无法获得所有列），则可以单击后选择“添加新字段”来手动增加，确保导入到目的端的数据完整。关系数据库、Hive、MRS Hudi及DLI做源端时，不支持获取样值功能。 SQLServer作为目的端数据源时，不支持timestamp类型字段的写入，需修改为其他时间类型字段写入（如datetime）。当作业源端为OBS、迁移CSV文件时，并且配置“解析首行为列名”参数的场景下显示列名。当使用二进制格式进行文件到文件的迁移时，没有字段映射这一步。自动创表场景下，需在目的端表中提前手动新增字段，再在字段映射里新增字段。添加完字段后，新增的字段在界面不显示样值，不会影响字段值的传输，CDM会将字段值直接写入目的端。如果字段映射关系不正确，您可以通过拖拽字段、单击对字段批量映射两种方式来调整字段映射关系。如果是导入到数据仓库服务（DWS），则还需在目的字段中选择分布列，建议按如下顺序选取分布列：有主键可以使用主键作为分布列。多个数据段联合做主键的场景，建议设置所有主键作为分布列。在没有主键的场景下，如果没有选择分布列，DWS会默认第一列作为分布列，可能会有数据倾斜风险。如CDM不支持源端迁移字段类型，请参见不支持数据类型转换规避指导将字段类型转换为CDM支持的类型。

云数据迁移 CDM 管理作业