华为云用户手册

  • 补丁基本信息 表2 补丁基本信息 补丁号 MRS 1.9.2.3 发布时间 2023-07-30 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.2.3补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 支持运维巡检 支持租户面直接对接 CES 支持对慢盘自动隔离能力 支持D系列磁盘热插拔 支持HDFS单副本检测能力 补丁兼容关系 MRS 1.9.2.3补丁包中包含MRS 1.9.2版本已发布的所有补丁已解决的问题。
  • 数据盘扩容(一键扩容) 当集群版本为MRS 3.1.0(须安装3.1.0.0.11及以上补丁)、MRS 3.1.5(须安装3.1.5.0.3及以上补丁)、MRS 3.3.0-LTS参考以下步骤进行数据盘扩容: 登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。 在集群详情页,单击“节点管理”。 在需要扩容磁盘的节点组操作列,单击“数据盘扩容”。 选择需要扩容的节点名称和目标容量,单击“确定”。 若节点较多,可以按节点名称或者IP模糊搜索,也可以使用数据盘容量进行条件过滤。 预估费用为按显示的磁盘容量预估的费用,可能不准确,实际费用以节点实际的磁盘容量计算为准。所以建议数据盘扩容前先同步磁盘信息,预估费用会更准确。 若某节点组下节点进行过数据盘扩容,后续若该节点组扩容节点或进行集群克隆,则节点数据盘将按磁盘扩容后的容量创建。 当选择多节点扩容至目标容量,存在部分节点挂载数据盘高于目标容量时,这些数据盘将不进行扩容,也不参与订单收费。 仅支持集群节点创建时默认挂载的数据盘完整扩容,自行挂载的数据盘仅能扩容云硬盘(EVS)容量,无法扩展磁盘分区和文件系统,需参考扩展数据盘的分区和文件系统(Linux)进行处理或联系华为云技术支持进行处理。 扩展磁盘分区和文件系统时,只能将新增容量扩展至磁盘的尾部分区,系统盘为多分区,故暂不支持系统盘扩容。 确认数据盘扩容是否成功。 在云硬盘列,查看数据盘容量是否扩容至目标容量 。 登录Manager,查看扩容节点的磁盘信息,对应磁盘分区是否扩容成功。
  • MRS 1.9.2.5补丁说明 表1 补丁基本信息 补丁号 MRS 1.9.2.5 发布时间 2024-05-30 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.2.5补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 解决告警不上报的问题 补丁兼容关系 MRS 1.9.2.5补丁包中包含MRS 1.9.2版本已发布的所有补丁已解决的问题。
  • 补丁下载地址 上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 贵阳一:https://mrs-container1-patch-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz 广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_Disk_Expand_Disks_Partition_Tool_Patch.tar.gz
  • 安装补丁的影响 安装MRS 1.9.2.5补丁期间会重启MRS Manager,重启期间会引起MRS Manager服务暂时不可用。如果集群之前安装了1.9.2.3补丁,安装完MRS 1.9.2.5补丁后不需要重启服务,否则安装MRS 1.9.2.5补丁需要滚动重启Hadoop、Hive、Spark、Kafka、Ranger、Presto以及相关依赖服务。 安装MRS 1.9.2.3补丁期间会重启MRS Manager,重启期间会引起MRS Manager服务暂时不可用。 如果集群之前安装了1.9.2.2补丁,安装MRS 1.9.2.3补丁需要滚动重启HDFS、YARN、MapReduce、Kafka组件服务;否则安装MRS 1.9.2.3补丁需要滚动重启Hadoop、Hive、Spark、Kafka、Ranger、Presto以及相关依赖服务,滚动重启服务不断服。 MRS 1.9.2.3补丁安装完成之后,需要关闭指标共享,重新打开指标共享。 慢盘隔离特性约束: 隔离慢盘之前无法判断集群节点是否存在客户私有化数据,因此不要在节点数据盘存放个人私有化数据,避免慢盘隔离时对业务造成影响; 自动触发慢盘隔离动作后,对于原来写两副本数据存在单副本运行的场景,存在一定风险,请知;同时华为侧运维人员会尽快对慢盘进行替换; 慢盘自动隔离能力支持单节点同时出现多个慢盘【默认配置为4】时自动隔离节点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力 MRS 1.9.2.3补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于新建集群该值配置为false,因为HDFS单副本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠; 对于确定存在单副本诉求的文件也可通过dfs.single.replication.exclude.pattern配置项设置单副本的数据文件和目录。 MRS 1.9.2.3补丁安装完成之后,需要重启 OMS 服务。如果集群之前安装了1.9.2.2补丁,不需要做此操作。 使用root用户登录主备OMS节点,切换至omm用户,执行命令sh ${BIGDATA_HOME}/om-0.0.1/sbin/restart-oms.sh重启OMS服务。 主备OMS节点都需要重启。 MRS 1.9.2.3补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即用户自行搭建的客户端)。如果集群之前安装了1.9.2.2补丁,不需要做此操作。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(3.x之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若用户根据业务场景修改过客户端配置,请在重装客户端后再次修改客户端配置。
  • 批量升级MRS集群客户端 以待安装客户端的用户登录客户端下载节点。 执行以下命令进行升级。 sh client_batch_upgrade.sh -u -f /tmp/ FusionInsight -Client/FusionInsight_Cluster_1_Services_Client.tar -g /tmp/FusionInsight-Client/FusionInsight_Cluster_1_Services_ClientConfig/batch_upgrade/client-info.cfg 由于配置了密码信息,执行完升级后建议尽快删除client-info.cfg文件。 升级执行完成后确认结果。确保客户端升级无误后执行sh client_batch_upgrade.sh -c,确认升级结果。 如果客户端升级后存在问题,可以执行sh client_batch_upgrade.sh -s,回滚客户端。 客户端批量升级工具本身是将原客户端move至备份目录,然后再使用-f参数指定的客户端包再次安装客户端。因此若原客户端中有定制的内容,请在执行-c命令之前,将定制的内容从备份目录手动保存或者移至升级后的客户端目录。客户端备份路径为:{原客户端路径}-backup。 参数-u是-c和-s的前提,必须在-u命令执行了升级之后,才能选择是要执行-c进行提交还是-s进行回滚。 升级命令(-u)可以多次执行,每次执行只升级前面升级失败的客户端,跳过升级成功的客户端。 客户端批量升级工具也支持升级之前的旧客户端。 执行非root用户安装的客户端升级时,请确保相应用户在目标节点客户端所在目录及父目录的读写权限,否则会升级失败。 -f参数输入的客户端包必须为全量客户端,不支持单组件或部分组件客户端包作为输入。
  • 批量刷新hosts文件 执行批量升级前准备操作。 检查需要更新“/etc/hosts”文件的节点的配置用户是否为“root”。 是,执行3。 否,更改配置用户为“root”,再执行3。 执行以下命令,批量刷新客户端所在节点的“/etc/hosts”文件。 sh client_batch_upgrade.sh -r -f /tmp/FusionInsight-Client/FusionInsight_Cluster_1_Services_Client.tar -g /tmp/FusionInsight-Client/FusionInsight_Cluster_1_Services_ClientConfig/batch_upgrade/client-info.cfg 执行批量刷新“/etc/hosts”文件时,输入的客户端包可以是完整客户端,也可以是仅包含配置文件的客户端软件包,推荐使用仅包含配置文件的客户端软件包。 需要更新“/etc/hosts”文件的主机所配置的用户必须为root用户,否则会刷新失败。
  • 配置Controller与Agent间数据传输加密 以omm用户登录到主管理节点。 执行以下命令,防止超时退出。 TMOUT=0 执行完本章节操作后,请及时恢复超时退出时间,执行命令TMOUT=超时退出时间。例如:TMOUT=600,表示用户无操作600秒后超时退出。 执行以下命令,切换目录。 cd ${CONTROLLER_HOME}/sbin 执行以下命令启用通信加密: ./enableRPCEncrypt.sh -t 执行sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh,查看主管理节点Controller的“ResHAStatus”是否为“Normal”,并可以重新登录FusionInsight Manager表示更改成功。 如果需要关闭加密模式,执行以下命令: ./enableRPCEncrypt.sh -f 执行sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh,查看主管理节点Controller的“ResHAStatus”是否为“Normal”,并可以重新登录FusionInsight Manager表示更改成功。
  • 前提条件 如果数据要备份至远端HDFS中,需满足以下条件: 准备一个用于备份数据的备集群,认证模式需要与主集群相同。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 如果要备份到HDFS,需要安装HDFS,Yarn服务。 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。MRS 3.5.0及之后版本支持备份数据到OBS。
  • 前提条件 检查Flink元数据备份文件保存路径。 恢复Flink元数据需要先停止Flink服务。 如果需要从远端HDFS恢复数据,需要准备备集群,且已完成数据备份,详细操作请参见备份Flink元数据。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。
  • 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员需要对Flink进行重大操作(如升级或迁移等)后,系统数据出现异常或未达到预期结果,导致Flink组件全部故障无法使用,或者迁移数据到新集群的场景中,需要对Flink元数据进行恢复数据操作。 系统管理员可以通过FusionInsight Manager创建恢复Flink任务。只支持创建任务手动恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复Flink元数据,建议手动备份最新Flink元数据后,再执行恢复Flink元数据操作。否则会丢失从备份时刻到恢复时刻之间的Flink元数据。 Flink元数据恢复和业务数据恢复不能同时进行操作,否则会导致业务数据恢复失败。建议元数据恢复完成后再进行业务数据恢复。
  • MRS集群常见事件列表 表3 MRS集群事件列表 事件ID 组件 事件名称 事件级别 12019 Manager 停止服务 提示 12021 Manager 停止实例 提示 12023 Manager 删除节点 提示 12024 Manager 重启服务 提示 12025 Manager 重启实例 提示 12026 Manager Manager主备倒换 次要 12065 Manager 进程重新启动 次要 12070 Manager 作业执行成功 提示 12071 Manager 作业执行失败 提示 12072 Manager 作业被终止 提示 12082 Manager 慢盘自动隔离中止 重要 12083 Manager 慢盘隔离成功 重要 12084 Manager 慢盘数据均衡失败 重要 12085 Manager 慢盘隔离恢复 重要 12086 Manager Agent进程重启 提示 12087 Manager 慢盘取消隔离失败 重要 12088 Manager 慢盘取消隔离成功 重要 12089 Manager 慢盘隔离失败 重要 12090 Manager 慢盘节点隔离成功 重要 12091 Manager 慢盘节点取消隔离成功 重要 12092 Manager 慢盘节点实例启动成功 重要 12093 Manager 慢盘节点隔离失败 重要 12094 Manager 慢盘节点实例启动失败 重要 12095 Manager 慢盘节点取消隔离失败 重要 12096 Manager 慢盘节点已恢复 重要 12152 Manager 启动周期性复制 次要 12153 Manager 周期性复制完成 次要 12154 Manager 启动流式复制 次要 12155 Manager 重启流式复制 次要 12156 Manager 停止流式复制 次要 12157 Manager 周期性同步跳过 次要 12158 Manager 主机信息丢失 次要 14005 HDFS NameNode主备倒换 次要 14028 HDFS HDFS磁盘均衡任务 次要 14029 HDFS 主NameNode进入安全模式并生成新的FSimage 次要 17001 Oozie Oozie工作流执行失败 重要 17002 Oozie Oozie定时任务执行失败 重要 18001 Yarn ResourceManager主备倒换 次要 18004 Mapreduce JobHistoryServer主备倒换 次要 18029 Yarn 作业占用存储资源过多 次要 19001 HBase HMaster主备倒换 次要 19027 HBase RegionServer级别热点转移 重要 19028 HBase 热点Region分裂 重要 19029 HBase 热点Region隔离 重要 20003 Hue Hue发生主备切换 次要 23002 Loader Loader主备倒换 重要 24002 Flume Flume Channel溢出 重要 25001 LdapServer LdapServer主备倒换 次要 27000 DBService DBServer主备倒换 次要 38003 Kafka Topic数据保存周期配置调整 提示 43014 Spark Spark 数据倾斜 提示 43015 Spark Spark SQL 超大查询结果 提示 43016 Spark Spark SQL执行超时 提示 43024 Spark 启动JD BCS erver 提示 43025 Spark 停止JDB CS erver 提示 43026 Spark ZooKeeper连接成功 提示 43027 Spark ZooKeeper连接异常 提示 43601 GraphBase GraphBase主备切换 次要 45002 HetuEngine QAS主备倒换 次要 45597 IoTDB Region 副本补齐事件 提示 45651 Flink FlinkServer主备切换 次要
  • 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群,且已完成数据备份,详细操作请参见备份HDFS业务数据。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 检查HDFS备份文件保存路径。 停止HDFS的上层应用。
  • 操作场景 为了确保IoTDB元数据安全,防止因IoTDB的文件损坏等导致IoTDB服务不可用时,需要对IoTDB元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight Manager创建恢复IoTDB任务。只支持创建任务手动恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的IoTDB数据。 建议一个恢复任务只恢复一个组件的元数据,避免因停止某个服务或实例影响其他组件的数据恢复。同时恢复多个组件数据,可能导致数据恢复失败。
  • 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对HDFS进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对HDFS进行恢复数据操作。 系统管理员可以通过FusionInsight Manager创建恢复HDFS任务。只支持创建任务手动恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的HDFS数据。 对于Yarn任务运行时使用的目录(例如“/tmp/logs”、“/tmp/archived”、“/tmp/hadoop-yarn/staging”),不能进行HDFS恢复操作,否则进行恢复的Distcp任务会由于文件丢失而导致恢复失败。
  • 加固Tomcat 在FusionInsight Manager软件安装及使用过程中,针对Tomcat基于开源做了如下功能增强: 升级Tomcat版本为官方稳定版本。 设置应用程序之下的目录权限为500,对部分目录支持写权限。 系统软件安装完成后自动清除Tomcat安装包。 应用程序目录下针对工程禁用自动部署功能,只部署了web、cas和client三个工程。 禁用部分未使用的HTTP方法,防止被他人利用攻击。 更改Tomcat服务器默认shutdown端口号和命令,避免被黑客捕获利用关闭服务器,降低对服务器和应用的威胁。 出于安全考虑,更改“maxHttpHeaderSize”的取值,给服务器管理员更大的可控性,以控制客户端不正常的请求行为。 安装Tomcat后,修改Tomcat版本描述文件。 为了避免暴露Tomcat自身的信息,更改Connector的Server属性值,使攻击者不易获知服务器的相关信息。 控制Tomcat自身配置文件、可执行文件、日志目录、临时目录等文件和目录的权限。 关闭会话facade回收重用功能,避免请求泄漏风险。 CookieProcessor使用LegacyCookieProcessor,避免cookie中的敏感数据泄漏。
  • 加固JDK 如果客户端程序使用了AES256加密算法,则需要对JDK进行安全加固,具体操作如下: 获取与JDK版本对应的JCE(Java Cryptography Extension)文件。JCE文件解压后包含“local_policy.jar”和“US_export_policy.jar”。复制此jar包到如下路径并替换文件: Linux:“JDK安装目录/jre/lib/security” Windows:“JDK安装目录\jre\lib\security” 请访问Open JDK开源社区获取JCE文件。 如果客户端程序需要支持SM4加密算法,则需要更新Jar包: 在“客户端安装目录/JDK/jdk/jre/lib/ext/”目录下获取“ SMS 4JA.jar”,并复制到如下目录: Linux:“JDK安装目录/jre/lib/ext/” Windows:“JDK安装目录\jre\lib\ext\”
  • MRS集群元数据概述 MRS的数据连接用于管理集群中组件使用的外部源连接,如Hive的元数据可以通过数据连接关联使用外部的关系型数据库。 本地元数据:元数据存储于集群内自带的本地 GaussDB 中,当集群删除时元数据同时被删除,如需保存元数据,需提前前往数据库手动保存元数据。 外置数据连接:可以为MRS集群选择关联与当前MRS集群同一虚拟私有云和子网的外置数据连接。元数据将存储于关联的数据库中,不会随当前MRS集群的删除而删除,多个MRS集群可共享同一份元数据。 MRS集群支持的外置数据连接类型为: 安装了Hive组件的集群支持连接“RDS服务PostgreSQL数据库”,且Postgres数据库版本号为PostgreSQL14。 安装了Hive或Ranger组件的集群支持连接“RDS服务MySQL数据库”,且MySQL数据库版本为MySQL 5.7.x/MySQL 8.0。 仅MRS 3.1.2-LTS.3、MRS 3.1.5和MRS 3.3.0-LTS版本集群支持连接“云数据库GaussDB(for MySQL)”。 集群支持对接LakeFormation时,可选择“LakeFormation”数据连接。 不同集群间Hive元数据切换时,MRS当前只对Hive组件自身的元数据数据库中的权限进行同步。这是由于当前MRS上的权限模型是在Manager上维护的,所以不同集群间的Hive元数据切换,不能自动把用户/用户组的权限同步到另一个集群的Manager上。 父主题: 管理MRS集群元数据
  • 加固LDAP 在安装完集群后,针对LDAP做了如下功能增强: LDAP配置文件中管理员密码使用SHA加密,当升级openldap版本为2.4.39或更高时,主备LDAP节点服务自动采用SASL External机制进行数据同步,避免密码信息被非法获取。 集群中的LDAP服务默认支持SSLv3协议,可安全使用。当升级openldap版本为2.4.39或更高时,LDAP将自动使用TLS1.0以上的协议通讯,避免未知的安全风险。
  • 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群,且已完成数据备份,详细操作请参见备份Kafka元数据。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 先停止Kafka服务,待恢复完成后,再启动Kafka服务。
  • 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对ZooKeeper进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,导致Kafka组件全部故障无法使用,或者迁移数据到新集群的场景中,需要对Kafka元数据进行恢复数据操作。 系统管理员可以通过FusionInsight Manager创建恢复Kafka任务。只支持创建任务手动恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复Kafka元数据,建议手动备份最新Kafka元数据后,再执行恢复操作。否则会丢失从备份时刻到恢复时刻之间的Kafka元数据信息。
  • 如何配置网络ACL出规则? 方案一: 放通网络ACL所有出站流量,此方案能保证集群正常创建与使用,优先建议使用此方案。 图3 放通网络ACL所有出站流量配置示例 方案二: 放通保证集群创建成功的最小出规则,此方案可能在后续使用中因出方向规则遗漏导致集群使用问题,不建议使用方案。若出现集群使用问题请联系运维人员支撑处理。 配置示例:参照方案一中示例,配置策略为“允许”,目的地址为通信安全授权地址、NTP、OBS、Openstack及 DNS地址 的出方向规则。
  • 克隆MRS集群作业 本章节介绍如何克隆作业列表中的作业。 用户每次只能克隆1个作业,单击克隆后的作业信息不再区分显示运行程序参数和执行程序参数,而是合并显示为命令参考。 DistCp、SQL类(SparkSQL、HiveSQL等)作业类型无法克隆。 该功能暂时仅在北京四region开放,如需体验,请联系运维人员。 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 选择“作业管理”。 在需要克隆作业的对应的“操作”列中,单击“克隆”,弹出“克隆作业”对话框。 配置克隆参数。 若无参数修改,无需执行本步骤。 若有参数修改,根据实际情况填写参数,单击“确定”下发克隆作业。 命令参考(由添加作业时的“运行程序参数”与“执行程序参数”组成):在原有的命令后,按“, {新参数}”的格式继续新增参数。 增加新的运行程序参数:新的命令参考是“运行程序参数, {新的运行程序参数}, 执行程序参数”。 增加新的执行程序参数:新的命令参考是“运行程序参数, 执行程序参数, {新的执行程序参数}”。 比如原有的命令参考为: -D, 10, -F, 12, abc ,增加新的运行程序参数时,则新的命令参考为:-D, 10, -F, 12, -G, 18, abc;增加新的执行程序参数时,则新的命令参考为:-D, 10, -F, 12, abc, efg。用户根据实际需求按照该规则(, 新参数)追加新的参数。 服务配置参数:在原有的参数后,按“, {key}={value}”的格式添加新的服务配置参数。比如原有参数为appender.out.strategy.max=10,则新的服务参数为:appender.out.strategy.max=10, appender.err.strategy.max=15。用户根据实际需求按照该规则(, {key}={value})追加新的参数。 克隆作业时,逗号+空格的格式只能在两个参数间存在;若存在于参数中,作业可能执行失败。 在原有参数后继续添加参数,逗号后需要有空格,否则作业可能执行失败。 克隆的作业返回参数不含有fs.obs.access.key、fs.obs.secret.key,若需要fs.obs.access.key、fs.obs.secret.key,需在“服务配置参数”中添加。 单击“确定”下发克隆作业。 作业克隆成功后,作业状态为“已完成”状态。 父主题: 管理MRS集群作业
  • 修改MRS集群NTP服务器步骤 登录FusionInsight Manager,查看是否存在未清除的告警? 是,请修复告警。告警处理完毕后,执行2。 否,执行2。 以omm用户分别登录主备管理节点。 在主管理节点执行以下命令查看管理平面网关。 cat ${BIGDATA_HOME}/om-server/OMS/workspace/conf/oms-config.ini | grep om_gateway 在主备管理节点分别执行ping 管理平面网关,检查节点是否与管理平面网关连通? 是,执行5。 否,请联系网络管理员修复网络故障,处理完毕后,执行5。 在主管理节点执行以下命令,获取当前环境NTP服务器 域名 。 本章节后续步骤中将以“ntp.myhuaweicloud.com”为例 cat /opt/Bigdata_func/cloudinit/cloudinit_params | grep ntpserver 在主管理节点执行以下命令,检查集群时间与新的NTP服务器时间偏差。单位为秒。 例如,检查与NTP服务器“ntp.myhuaweicloud.com”的时间差,执行ntpdate -d ntp.myhuaweicloud.com命令,界面显示: 6 Dec 15:16:10 ntpdate[2861453]: step time server 10.79.3.251 offset +2.118107 sec 其中+2.118107 sec表示时间偏差。正数表示NTP服务器时间比集群当前时间快,负数表示NTP服务器时间比集群当前时间慢。 ntp的版本号可以使用ntpq -v或者ntpq --version命令查询,具体显示信息以实际环境为准。 ntpq -v界面显示: 10.1.1.112: ~# ntpq -vntpq - standard NTP query program - Ver. 4.2.4p8 ntpq --version界面显示: 10.1.1.112: ~# ntpq --versionntpq 4.2.8p10@1.3728-o Mon Jun 6 08:01:59 UTC 2016 (1) 检查时间偏差的绝对值是否超过“150”。 是,执行8。 否,时间偏差的绝对值不超过“150”,以omm用户执行10。 确认是否可以停止集群。 是,停止上层业务并停止集群,然后执行9。 否,任务结束。 确认NTP服务器时间是否比集群当前时间慢? 是,NTP服务器时间慢,停止集群界面显示“操作成功”后需等待,间隔大约为6得到的时间偏差,再以omm用户执行11。 否,NTP服务器时间快,停止集群界面显示“操作成功”后直接以omm用户执行11。 在主管理节点执行以下命令,更换NTP服务器,任务结束。 sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip ntp.myhuaweicloud.com NTP服务器IP地址不可以设置为集群内节点IP地址,否则可能会导致节点与主备oms节点业务网络断连。 在主管理节点执行以下命令,从NTP服务器“ntp.myhuaweicloud.com”立即强制同步时间并更换NTP服务器,任务结束。 sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip ntp.myhuaweicloud.com --force_sync_time 如果停止了集群,在更换NTP服务器后需要重新启动集群。 执行强制同步时间命令后,集群节点大约需要5分钟完成时间同步。
  • 前提条件 目前IoTDB仅支持备份业务数据到远端HDFS中,且需满足以下条件: 准备一个用于备份数据的备集群,认证模式需要与主集群相同。 若IoTDB所在集群为普通模式,则不支持备份业务数据到安全模式集群的HDFS中。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 检查备集群HDFS是否有充足的空间,备份文件保存的目录建议使用用户自定义的目录。
  • 前提条件 如果数据要备份至远端HDFS中,需满足以下条件: 准备一个用于备份数据的备集群,认证模式需要与主集群相同。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。
  • 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群,且已完成数据备份,详细操作请参见备份HDFS NameNode元数据。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 在FusionInsight Manager停止所有待恢复数据的NameNode角色实例,其他的HDFS角色实例必须保持正常运行,恢复数据后重启NameNode。NameNode角色实例重启前无法访问。 检查NameNode备份文件保存路径是否保存在主管理节点“数据存放路径/LocalBackup/”。
  • 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对NameNode进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对NameNode进行恢复数据操作。 系统管理员可以通过FusionInsight Manager创建恢复NameNode任务并恢复数据。只支持创建任务手动恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的NameNode数据。 建议一个恢复任务只恢复一个组件的元数据,避免因停止某个服务或实例影响其他组件的数据恢复。同时恢复多个组件数据,可能导致数据恢复失败。 HBase元数据不能与NameNode元数据同时恢复,会导致数据恢复失败。
  • 操作场景 为了确保CDL日常数据安全,或者系统管理员需要对CDL进行重大操作(如升级或迁移等)时,需要对CDL数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 CDL的数据存储在DBService与Kafka服务中,系统管理员可以通过FusionInsight Manager创建备份DBService和Kafka任务并备份数据。支持创建任务自动或手动备份数据。
  • 前提条件 如果数据要备份至远端HDFS中,需满足以下条件: 准备一个用于备份数据的备集群,认证模式需要与主集群相同。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全