云服务器内容精选

  • 不同Region 当源集群与目标集群处于不同Region时,用Distcp工具将源集群数据拷贝到OBS,借助OBS跨区域复制功能(请参见跨区域复制)将数据复制到对应目的集群所在Region的OBS,然后通过Distcp工具将OBS数据拷贝到目的集群的HDFS上。由于执行Distcp无法为OBS上的文件设置权限、属主/组等信息,因此当前场景在进行数据导出时也需要将HDFS的元数据信息进行导出并拷贝,以防HDFS文件属性信息丢失。
  • 线下集群向云迁移 线下集群可以通过如下两种方式将数据迁移至云: 云专线(DC) 为源集群与目标集群之间建立云专线,打通线下集群出口网关与线上VPC之间的网络,然后参考同Region执行Distcp进行拷贝。 数据快递服务(DES) 对于TB或PB级数据上云的场景,华为云提供数据快递服务 DES。将线下集群数据及已导出的元数据拷贝到DES盒子,快递服务将数据递送到华为云机房,然后通过云数据迁移 CDM将DES盒子数据拷贝到HDFS。
  • 线下集群向云迁移 线下集群可以通过如下两种方式将数据迁移至云: 云专线(DC) 为源集群与目标集群之间建立云专线,打通线下集群出口网关与线上VPC之间的网络,然后参考同Region执行Distcp进行拷贝。 数据快递服务(DES) 对于TB或PB级数据上云的场景,华为云提供数据快递服务 DES。将线下集群数据及已导出的元数据拷贝到DES盒子,快递服务将数据递送到华为云机房,然后通过云数据迁移 CDM将DES盒子数据拷贝到HDFS。
  • 不同Region 当源集群与目标集群处于不同Region时,用Distcp工具将源集群数据拷贝到OBS,借助OBS跨区域复制功能(请参见跨区域复制)将数据复制到对应目的集群所在Region的OBS,然后通过Distcp工具将OBS数据拷贝到目的集群的HDFS上。由于执行Distcp无法为OBS上的文件设置权限、属主/组等信息,因此当前场景在进行数据导出时也需要将HDFS的元数据信息进行导出并拷贝,以防HDFS文件属性信息丢失。
  • 其他说明 您如果执行rename操作, rename后的文件或rename后的目录下的文件如果满足某个生命周期规则,则匹配生命周期的基准时间仍为文件数据内容最后一次更新的时间而非rename的时间,且这些文件的生命周期管理生效时间可能会有延迟,延迟时间为0至7天。 对于文件客户端执行的拷贝操作,生命周期判断超期或者转归档存储的时间基准为拷贝的时间点。 例:文件src.txt创建时间为2019年1月1日,在2019年9月1日执行cp -a src.txt des.txt后,des.txt的生命周期管理时间以2019年9月1日来计算是否满足超期或转归档存储的时间配置。 并行文件系统生命周期,目录的删除是靠周期扫描任务进行的,从最深目录进行扫描,如果空目录符合过期条件则删除该空目录,非空目录不做处理。目录周期扫描任务扫描间隔依赖集群配置,一般为7天。单层目录为空后0-7天内删除。二级目录需等两个周期,在各目录下均无文件或目录后等待0-14天。依此递增。
  • 与对象生命周期管理主要差异说明 您可以使用生命周期管理功能管理文件。目录不会因生命周期管理而转归档存储,而空目录会因生命周期管理超期删除。 对于生命周期管理规则的配置,您可以通过API配置超期、转归档存储、转低频访问存储。控制台目前仅支持配置超期、转归档存储。同样的由于并行文件系统不支持多版本,生命周期规则中配置多版本相关的超期、转归档存储、转低频访问存储也不支持。 在配置并行文件系统直读的情况下,您可以通过直读的方式读取归档存储文件。 您最多可以在一个并行文件系统下配置20条生命周期管理规则,超过20条将提示不支持。 文件满足生命周期规则的基准时间为文件数据内容最后一次做更新的时间点。 不支持使用生命周期规则向深度归档存储类型转换。 单个并行文件系统配置生命周期规则后,对于规则生效的目录有如下限制,超过限制后,将导致生命周期规则执行完成的时间延长。 每个目录下的一级子目录数不超过10万。 所有规则前缀匹配的子目录总数(文件夹总数)不超过1000万。 所有规则前缀匹配的文件总数不超过3000万。
  • MongoDB/DDS增量迁移 使用CDM导出MongoDB或者DDS的数据时,支持导出指定时间段内的数据,配合CDM的定时任务,可以实现MongoDB/DDS的增量迁移。 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 在创建CDM表/文件迁移的作业,源连接选择为MongoDB连接或者DDS连接时,高级属性的可选参数中可以配置查询筛选。 图1 MongoDB查询筛选 此参数支持配置为时间宏变量,例如起始时间配置为{"ts":{$gte:ISODate("${dateformat(yyyy-MM-dd'T'HH:mm:ss.SSS'Z',-1,DAY)}")}},表示查找ts字段中大于时间宏转换后的值,即只导出昨天以后的数据。 参数配置后,CDM就只导出前一天内的数据,再将该作业配置为每天0点执行一次,就可以增量同步每天新生成的数据。 父主题: 增量迁移原理介绍
  • 场景2:视频会商,远近协同 远端协同:现场班组在遇见问题时,可在APP端发起多个终端(包括手机、PC、智能穿戴设备)与系统之间的音视频通信,实现多单位多人音视频会议模式,满足远程指挥和现场互动需求,及时组织技术人员或专家为现场施工、作业人员提供技术支持,实现作业多级监护、各级专家技术支持。并支持一键创建问题。 近端协同:在现场作业时,工作负责人可通过APP端发送指令,指挥多个班组成员操作,实时审批,确认班组成员按规范要求操作。并可实时视频接入到班组成员,观看班组成员操作。 多设备协同:可连接手机、智能头盔,执法仪,智能摄像头等多种设备。
  • 支持的RDS for MySQL版本 建议您使用最新小版本的实例在线扩展varchar类型字段。更多操作,详见升级内核小版本。 表1 在线扩展varchar类型字段支持的版本 varchar类型字段长度 RDS for MySQL 5.6 RDS for MySQL 5.7 RDS for MySQL 8.0 长度小于256字节 不支持 支持 支持 长度跨越256字节长度 支持 支持 不支持 长度大于256字节 不支持 支持 支持
  • 扩展分类 长度小于256字节的varchar类型字段的在线扩展 create table t1(a varchar(10)); Query OK, 0 rows affected (0.03 sec) alter table t1 modify a varchar(100),ALGORITHM=INPLACE, LOCK=NONE; Query OK, 0 rows affected (0.06 sec) Records: 0 Duplicates: 0 Warning: 0 长度跨越256字节长度的varchar类型字段的在线扩展 create table t1(a varchar(100)); Query OK, 0 rows affected (0.05 sec) alter table t1 modify a varchar(300),ALGORITHM=INPLACE, LOCK=NONE; Query OK, 0 rows affected (0.11 sec) Records: 0 Duplicates: 0 Warning: 0 长度大于256字节的varchar类型字段的在线扩展 create table t1(a varchar(300)); Query OK, 0 rows affected (0.08 sec) alter table t1 modify a varchar(500),ALGORITHM=INPLACE, LOCK=NONE; Query OK, 0 rows affected (0.06 sec) Records: 0 Duplicates: 0 Warning: 0
  • 分区策略 分区策略在使用DDL语句建表语句时通过PARTITION BY语句的语法指定,分区策略描述了在分区表中数据和分区路由映射规则。常见的分区类型有基于条件的Range分区/Interval分区、基于哈希散列函数的Hash分区、基于数据枚举的List列表分区: CREATE TABLE table_name (…) PARTITION BY partition_strategy (partition_key) (…) 范围分区 间隔分区 哈希分区 列表分区 二级分区 分区表对导入操作的性能影响 父主题: 分区表介绍
  • 分区策略 分区策略在使用DDL语句建表语句时通过PARTITION BY语句的语法指定,分区策略描述了在分区表中数据和分区路由映射规则。常见的分区类型有基于条件的Range分区、基于哈希散列函数的Hash分区、基于数据枚举的List列表分区: CREATE TABLE table_name (…) PARTITION BY partition_strategy (partition_key) (…) 范围分区 哈希分区 列表分区 分区表对导入操作的性能影响 父主题: 分区表介绍
  • MongoDB/DDS增量迁移 使用CDM导出MongoDB或者DDS的数据时,支持导出指定时间段内的数据,配合CDM的定时任务,可以实现MongoDB/DDS的增量迁移。 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 在创建CDM表/文件迁移的作业,源连接选择为MongoDB连接或者DDS连接时,高级属性的可选参数中可以配置查询筛选。 图1 MongoDB查询筛选 此参数支持配置为时间宏变量,例如起始时间配置为{"ts":{$gte:ISODate("${dateformat(yyyy-MM-dd'T'HH:mm:ss.SSS'Z',-1,DAY)}")}},表示查找ts字段中大于时间宏转换后的值,即只导出昨天以后的数据。 参数配置后,CDM就只导出前一天内的数据,再将该作业配置为每天0点执行一次,就可以增量同步每天新生成的数据。 父主题: 增量迁移原理介绍
  • 时间过滤 参数位置:在创建表/文件迁移作业时,如果源端数据源为文件类型,那么源端作业配置下的高级属性中,“时间过滤”参数选择“是”。 参数原理:“起始时间”和“终止时间”参数中输入时间值后,只有修改时间介于起始时间和终止时间之间(时间区间为左闭右开,即等于起始时间也在区间之内)的文件才会被CDM迁移。 配置样例: 例如需要CDM只同步2021年1月1日~2022年1月1日生成的文件到目的端,则参数配置如下: 时间过滤器:选择为“是”。 起始时间:配置为2021-01-01 00:00:00(格式要求为yyyy-MM-dd HH:mm:ss)。 终止时间:配置为2022-01-01 00:00:00(格式要求为yyyy-MM-dd HH:mm:ss)。 图2 时间过滤 这样CDM作业就只迁移2021年1月1日~2022年1月1日时间段内生成的文件,下次作业再启动时就可以实现增量同步。
  • 文件/路径过滤器 参数位置:在创建表/文件迁移作业时,如果源端数据源为文件类型,那么源端作业参数的高级属性中可以看到“过滤类型”参数,该参数可选择:通配符或正则表达式。 参数原理:“过滤类型”选择“通配符”时,CDM就可以通过用户配置的通配符过滤文件或路径,CDM只迁移满足指定条件的文件或路径。 配置样例: 例如源端文件名带有时间字段“2017-10-15 20:25:26”,这个时刻生成的文件为“/opt/data/file_20171015202526.data”,则在创建作业时,参数配置如下: 过滤类型:选择“通配符”。 文件过滤器:配置为“*${dateformat(yyyyMMdd,-1,DAY)}*”(这是CDM支持的日期宏变量格式,详见时间宏变量使用解析)。 图1 文件过滤 配置作业定时自动执行,“重复周期”为1天。 这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。 文件增量迁移场景下,“路径过滤器”的使用方法同“文件过滤器”一样,需要路径名称里带有时间字段,这样可以定期增量同步指定目录下的所有文件。