华为云用户手册

  • 回退HDFS上的组件包 登录集群主节点并执行以下命令: su - omm cd /opt/Bigdata/patches/{ MRS 补丁版本号}/client/ source /opt/Bigdata/client/bigdata_env 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如: cd /opt/Bigdata/patches/MRS_3.3.1-LTS.1.2/client/ 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令进行回退(卸载完补丁后执行): sh rollback_hdfs_file.sh 回退完成后需要在 FusionInsight Manager界面上重启Spark的JD BCS erver2x实例。
  • 升级组件安装包 该操作可以解决添加服务、添加实例、新下载客户端场景下的补丁安装。 登录集群主 OMS 节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3.1.0.0.16/package sh update_package.sh 登录集群备OMS节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3.1.0.0.16/package sh update_package.sh
  • 回退组件安装包 若安装时执行了升级组件安装包步骤,则卸载后需要回退 登录集群主OMS节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3.1.0.0.16/package sh rollback_package.sh 登录集群备OMS节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3.1.0.0.16/package sh rollback_package.sh
  • 补丁基本信息说明 表1 补丁基本信息 补丁号 MRS 3.1.0.0.16 发布时间 2024-11-25 解决的问题 提交Spark SQL作业,中文冒号被转换成英文冒号。 Spark SQL外表动态分区执行insert overwrite报错。 Spark JDBC产生空指针报错。 Spark JDB CS erver任务并发长稳运行出现端口冲突,导致连接失败。 Spark Streaming写HBase换盘场景中,加入黑名单中的Executor会残留。 MRS集群Spark2x的“listing.ldb”文件夹不自动清理,导致根目录写满。 Spark数据保护黑名单中防止创建表Location指定路径到库后,导致删除表之后库数据丢失。 Spark启用Ranger鉴权场景中的show tables性能增强。 Spark查询数据量与Hive查询数据量不一致。 DGC并发提交Flink作业偶现下载keytab文件失败。 Impala异常重启。Impala queries页面采集数据时和提交SQL查询时读取了同一个vector容器,导致查询queries数据时coredump重启。 开启haproxyfloatname的Kerberos Principal后,Impala服务不可用,Impalad实例亚健康。 Yarn ResourceManager内存占满触发Full GC 100+s,不能及时进行主备倒换。 Yarn NodeManager心跳丢失。 Yarn ResourceManager偶现空指针报错导致重启。 Yarn ResourceManager内存泄漏。 Yarn客户侧ResourceManager报错空指针并发生主备倒换。 重启Router或者NameNode时延高时,作业有概率在new状态卡顿。 结束有预留资源的任务后,Yarn上预留资源累加不释放。 主备容灾场景中,备集群MapReduce临时任务日志无法进行定期删除,使得日志目录会堆满,导致容灾任务失败。 Yarn资源池可用资源指标异常,导致弹性伸缩触发异常。 Yarn ResourceManager长时间运行后发现大量ContainerIdPBImpl对象占用内存,可能是内存泄漏。 HDFS客户端leaserenewer线程泄漏。 HDFS重启后权限属性丢失,导致数据无法读取。 备NameNnode处于安全模式,但集群没有上报告警。 Hadoop安全漏洞问题修改。 HBase NettyRpc connection未正常关闭。 HBase WAL未正常滚动,导致产生超大WAL。 HBase Netty连接存在内存泄漏。 HBase健康检查脚本调用超时导致误上报服务不可用告警。 HBase支持过载保护流控和告警。 HBase主备倒换后,RSGroup显示DEAD REGIONSERVERS错误。 Spark执行任务时,报错Ranger策略为空,导致批量Spark任务失败。 Manager主机资源概况页面中条数切换后数据不显示。 Manager创建用户调用adduser.sh脚本不输出日志。 NodeAgent进程偶现故障,不发送心跳,产生服务不可用告警。 Manager主备节点同步数据异常,pms目录下存在脏数据。 集群节点隔离后频繁上报节点故障告警。 集群退订节点过程中偶现产生误告警。 Manager上配置NAS备份进程不结束,导致节点内存升高。 NodeAgent偶现会修改nodagent.properties,有可能导致文件丢失。 MRS集群节点内存占满,磁盘出现踢盘,盘分区丢失。 LdapServer数据一致性检查增强。LDAP主备关键数据不一致,未能及时上报告警。 Kafka Topic名称带有短横线分隔符,磁盘隔离后自动恢复失败。 Kafka新增时延监控转告警,包括Topic数量监控、分区数量监控、请求时延监控,以增强定位定界功能。 Kafka慢盘隔离场景中,当data1目录被隔离后,data1x目录会被误隔离。 ClickHouse TTL到期的过期数据未清理。 ClickHouse内存越界导致服务重启。 ClickHouse数据磁盘存在误隔离。 ClickHouse服务健康检查机制优化。 ClickHouse多实例负载不均衡。 未开启Kerberos认证的集群,“/tmp/hive-scratch”目录被删后Hive重建的权限不正确,导致Hive一直异常。 重启Zookeeper节点后Hive SQL执行失败。 Hive on Spark作业并发较高时,会占用很高的Master节点内存。 Tez引擎在开启和关闭“hive.merge.nway.joins”运行结果不一致。 Hive viewfs修改表路径后,指定分区insert、load插入数据,分区路径会发生改变。 Hive MetaStore偶现死锁。 Hive varchar类型数据查询不支持下推,并发较大时可能导致内存问题。 Hive支持对自读自写的SQL进行拦截。 Hive需要把.db库加入数据保护黑名单中,防止创建表Location指定路径到库后,删除表后导致库数据丢失。 Hive并发overwrite写入后,执行overwrite的任务支持拦截。 Hive并发插入不同分区数据,存在分区数据丢失问题。 Hive监控告警增强,新增MetaStore只操作DB接口的耗时、HiveServer建立连接/关闭连接耗时 、MetaStore操作DB接口的耗时监控。 Hive新增MetaStore连接数监控告警、SQL平均运行时间监控、扫描分区数监控和user、IP维度监控。 Hive开启并发执行时,偶现insert执行结果无数据。 消除Kudu Tserver版本号显示的dirty。 Kudu支持慢盘隔离。 Manager慢盘检测脚本日志打印增加压缩归档功能。 补丁兼容关系 MRS 3.1.0.0.16补丁包中包含所有MRS 3.1.0版本单点问题修复补丁。 父主题: MRS 3.1.0.0.16补丁说明
  • 回退HDFS上的组件包 登录安装补丁时升级HDFS上的组件包的节点,执行以下命令: su - omm cd /opt/Bigdata/patches/{MRS补丁版本号}/client/ source /opt/Bigdata/client/bigdata_env 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如: cd /opt/Bigdata/patches/MRS_3.1.0.0.16/client/ 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令进行回退(卸载完补丁后执行): sh rollback_hdfs_file.sh 回退完成后需要在FusionInsight Manager界面上重启Spark的JDBCServer2x实例。
  • 升级HDFS上组件的zip包 登录集群主节点并执行以下命令: su - omm cd /opt/Bigdata/patches/{MRS补丁版本号}/client/ source /opt/Bigdata/client/bigdata_env 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如: cd /opt/Bigdata/patches/MRS_3.1.0.0.16/client/ 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令升级HDFS上的zip包: sh update_hdfs_file.sh 升级完成后需要在FusionInsight Manager界面上重启Spark的JDBCServer2x实例。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.3 发布时间 2020-04-29 解决的问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.3补丁包中包含MRS 2.1.0版本发布的所有补丁内容。
  • 安装补丁的影响 安装MRS 2.1.0.3补丁期间会重启MRS Manager,滚动重启Hive、Spark、HDFS、Yarn、Mapreduce、Presto、HBase以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 2.1.0.3补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 普通模式(不启用Kerberos认证) 普通模式集群,MRS集群各组件使用原生开源的认证机制,一般为Simple认证方式。而Simple认证,在客户端连接服务端的过程中,默认以客户端执行用户(例如操作系统用户“root”等)自动完成认证,管理员或业务用户不显示感知认证。而且客户端在运行时,甚至可以通过注入UserGroupInformation来伪装成任意用户(包括superuser),集群资源管理接口和数据控制接口在服务端无认证和鉴权控制,很容易被黑客利用和攻击。 所以在普通模式下,建议单用户场景下使用,必须通过严格限定网络访问权限来保障集群的安全。 尽量将业务应用程序部署在同VPC和子网下的ECS中,避免通过外网访问MRS集群。 配置严格限制访问范围的安全组规则,禁止对MRS集群的入方向端口配置允许Any或0.0.0.0的访问规则。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.2.2 发布时间 2021-05-18 解决的问题 MRS Manager 解决sudo提权漏洞 解决扩容刷新队列会导致队列丢失问题 MRS大数据组件 解决Hive on Spark任务报block id乱码,导致任务卡住问题 Hive中增加自研的接口 解决map.xml无法读取的问题 Hive har特性优化 解决ZK脏数据导致Yarn服务不可用问题 OBS包升级 JDK版本升级 解决Yarn的ResourceManager内存泄漏问题 增加对调用ECS getSecuritykey接口异常的监控 优化刷新临时AK/Sk流程 解决ResourceManager内存泄露问题 解决Hive union语句合并小文件报错问题 解决Hadoop的task任务报空间不足失败问题 解决hive作业成功无数据生成问题 补丁兼容关系 无。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.3.1 发布时间 2020-09-04 解决的问题 MRS Manager 解决自定义集群缩容Task节点失败问题 MRS大数据组件 解决Hive和Spark路径下adapter-hadoop-wrapper-file-system包版本错误问题 解决HBase服务Manager上保存多命名空间,后台不生效问题 新增HDFSWrapper支持AbstractFileSystem 补丁兼容关系 无。
  • 安全模式(启用Kerberos认证) 安全模式的MRS集群统一使用Kerberos认证协议进行安全认证。Kerberos协议支持客户端与服务端进行相互认证,提高了安全性,可有效消除使用网络发送用户凭据进行模拟认证的安全风险。集群中由KrbServer服务提供Kerberos认证支持。 Kerberos用户对象 Kerberos协议中,每个用户对象即一个principal。一个完整的用户对象包含两个部分信息:用户名和 域名 。在运维管理或应用开发的场景中,需要在客户端认证用户身份后才能连接到集群服务端。系统操作运维与业务场景中主要使用的用户分为“人机”用户和“机机”用户。二者主要区别在于“机机”用户密码由系统随机生成。 Kerberos认证 Kerberos认证支持两种方式:密码认证及keytab认证,认证有效时间默认为24小时。 密码认证:通过输入用户正确的密码完成身份认证。主要在运维管理场景中使用“人机”用户进行认证,客户端命令为kinit 用户名。 keytab认证:keytab文件包含了用户principal和用户凭据的加密信息。使用keytab文件认证时,系统自动使用加密的凭据信息进行认证无需输入用户密码。主要在组件应用开发场景中使用“机机”用户进行认证。keytab文件也支持在kinit命令中使用。
  • 安装补丁的影响 安装MRS 1.9.2.2补丁期间会重启MRS Manager,滚动重启Hadoop、Hive、Spark、Kafka、Ranger、Presto以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.2.2补丁安装后,需要重启OMS服务。 使用root用户登录主备OMS节点,切换至omm用户,执行命令sh ${BIGDATA_HOME}/om-0.0.1/sbin/restart-oms.sh重启OMS服务。 主备OMS节点都需要重启。 MRS 1.9.2.2补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 安装补丁的影响 安装MRS 1.9.3.1补丁期间会重启MRS Manager,滚动重启Hadoop、HDFS、Hive、Spark及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.3.1补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 配置集群外节点用户访问普通模式集群资源 以root用户登录到需要添加用户的节点。 执行以下命令: rpm -qa | grep pam rpm -qa| grep krb5-client 界面一共显示以下rpm包: pam_krb5-32bit-2.3.1-47.12.1 pam-modules-32bit-11-1.22.1 yast2-pam-2.17.3-0.5.211 pam-32bit-1.1.5-0.10.17 pam_mount-32bit-0.47-13.16.1 pam-config-0.79-2.5.58 pam_krb5-2.3.1-47.12.1 pam-doc-1.1.5-0.10.17 pam-modules-11-1.22.1 pam_mount-0.47-13.16.1 pam_ldap-184-147.20 pam-1.1.5-0.10.17 krb5-client-1.6.3 检查操作系统实际是否已安装清单中的rpm包? 是,执行5。 否,执行4。 从操作系统镜像中获取缺少的rpm包,并上传文件到当前目录,然后执行以下命令安装rpm包: rpm -ivh *.rpm 安装的RPM包可能带来安全风险,请用户对操作系统进行加固时考虑安装这些RPM包所带来的风险。 安装完成后执行5。 执行以下命令,配置pam使用Kerberos认证。 pam-config --add --krb5 如果需要在非集群节点取消Kerberos认证与系统用户登录,以“root”用户执行pam-config --delete --krb5命令。 解压认证凭据文件得到“krb5.conf”,并使用WinSCP将此配置文件上传到集群外节点的“/etc”目录,执行以下命令设置权限使其他用户可以访问,例如“604”: chmod 604 /etc/krb5.conf 以root用户继续在连接会话中执行以下命令为“人机”用户添加对应的操作系统用户,并指定用户主组为“root”。 此操作系统用户密码与在Manager创建“人机”用户时设置的初始密码相同。 useradd 用户名 -m -d /home/admin_test -g root -s /bin/bash 例如,“人机”用户名为“admin_test”,执行以下命令: useradd admin_test -m -d /home/admin_test -g root -s /bin/bash 第一次使用新添加的操作系统用户通过SSH协议登录节点时,首次输入用户密码系统提示密码过期,第二次输入用户密码后系统提示修改密码。请输入一个同时满足节点操作系统及集群密码复杂度的新密码。
  • 配置告警屏蔽及告警平滑次数 该操作仅适用MRS 3.5.0及之后版本集群。 MRS支持在后台配置告警屏蔽状态和平滑次数,告警产生次数小于等于平滑次数时不上报告警信息。 使用PuTTY工具,以omm用户登录主OMS节点。 执行以下命令修改alarm_filter_config.json配置文件,若此文件不存在,则新建此文件。 vi $BIGDATA_HOME/om-server/OMS/workspace/conf/fms/alarm_filter_config.json 根据实际需要配置或新增参数。 告警ID:待配置告警的ID,例如“12016”。 is_filtered:是否屏蔽告警。“true”表示屏蔽告警,不上报告警;“false”表示经过平滑次数后上报。 smoothing_times:平滑次数,告警产生次数小于等于此平滑次数时,不上报告警信息,取值为整型且大于0。 “is_filtered”参数优先级高于“smoothing_times”参数。 例如配置如下,表示屏蔽“12016”告警,“12017”告警在产生次数超过3次后上报: { "12016": { "is_filtered": true, "smoothing_times": 1 }, "12017": { "is_filtered": false, "smoothing_times": 3 } } 使用omm用户重启主OMS节点上fms服务,使修改生效。 sh $BIGDATA_HOME/om-server/OMS/workspace/bin/omm_s_fm_ctl.sh restart 使用PuTTY工具,以omm用户登录备OMS节点,执行2~3。
  • SQL防御功能介绍 MRS在主力SQL引擎(Hive、Spark、HetuEngine、ClickHouse、Doris(MRS 3.5.0及之后版本))中增加SQL防御能力,基于用户可理解的SQL防御策略,实现对典型大SQL、低质量SQL的主动防御,包括事前拦截和事中熔断,并不强制改变用户的SQL提交方式、SQL语法,对业务零改动且易落地。 支持管理员界面化配置SQL防御策略,同时可支持防御规则的查询和修改。 每个SQL引擎在进行SQL业务响应、执行过程中,基于SQL防御策略进行主动防御行为。 管理员可将SQL防御行为在“提示”、“拦截”、“熔断”选项之间进行灵活切换,系统会将发生的SQL防御事件实时写入到防御审计日志中。运维人员可进行 日志分析 ,评估现网SQL质量,提前感知潜在SQL风险,并做出有效预防措施。 SQL防御规则包含以下类型: 静态拦截规则:基于纯粹的SQL语法规则进行拦截或提示。 动态拦截规则:基于与数据表的统计信息、元数据信息等内容有关的规则进行拦截或提示。 运行熔断规则:基于SQL语句运行时的系统动态信息(如CPU、内存、IO等)的规则进行阻断。 对于静态拦截规则、动态拦截规则,系统在SQL请求满足条件时,可对该请求进行中止或者提示处理。对于运行熔断规则,系统在SQL请求满足条件时,会阻断该SQL任务。
  • 配置定时备份告警与审计信息 用户通过修改配置文件,实现定时备份FusionInsight Manager的告警信息、Manager审计信息以及所有服务的审计信息到指定的存储位置。 备份支持使用SFTP协议或FTP协议,FTP协议未加密数据可能存在安全风险,建议使用SFTP。 本章节适用于MRS 3.x及以后版本。 以omm用户登录主管理节点。 用户只需在主管理节点执行此操作,不支持在备管理节点上配置定时备份。 执行以下命令,切换目录。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,配置定时备份Manager告警、审计或者服务审计信息。 ./setNorthBound.sh -t 信息类型 -i 远程服务器IP -p 服务器使用的SFTP或FTP端口 -u 用户名 -d 保存信息的路径 -c 时间间隔(分钟) -m 每个保存文件的信息记录数 -s 备份启停开关 -e 指定的协议 例如: ./setNorthBound.sh -t alarm -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改告警信息备份配置文件“alarm_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改审计信息备份配置文件“audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t service_audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改服务审计信息备份配置文件“service_audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 根据界面提示输入用户的密码。密码将加密保存在配置文件中。 Please input sftp/ftp server password: 显示如下结果,说明修改成功。备管理节点将自动同步配置文件。 execute command syncfile successfully. Config Succeed. 父主题: 查看与配置MRS告警事件
  • 配置ClickHouse SQL防御前提条件 已安装包含ClickHouse服务的集群客户端,例如安装目录为“/opt/hadoopclient”。 ClickHouse逻辑集群运行状态正常。 对于开启了Kerberos认证的集群,需要创建具有ClickHouse表操作权限的业务用户,例如创建人机用户“clickhouseuser”。 已创建关联了ClickHouse服务的租户,并与ClickHouse业务用户关联,具体请参见添加MRS租户章节。
  • 升级客户端 如果有使用自主安装的客户端(集群内、外新下载客户端),需要执行客户端升级操作。 登录集群主节点并执行以下命令: cd /opt/Bigdata/patches/{MRS补丁版本号}/download/ 将补丁安装包拷贝到客户端机器/opt/目录下: scp patch.tar.gz {客户端机器IP}:/opt/ 例如: scp patch.tar.gz 127.0.0.1:/opt/ 登录客户端所在节点。 执行以下命令创建补丁目录并解压补丁包: mkdir /opt/{MRS补丁版本号} tar -zxf /opt/patch.tar.gz -C /opt/{MRS补丁版本号} 执行客户端补丁升级。 登录客户端所在节点,并执行以下命令: cd /opt/{MRS补丁版本号}/client sh upgrade_client.sh upgrade {客户端安装目录} 例如: sh upgrade_client.sh upgrade /opt/client/
  • 升级HDFS上组件的zip包 登录集群主节点并执行以下命令: su - omm cd /opt/Bigdata/patches/{MRS补丁版本号}/client/ source /opt/Bigdata/client/bigdata_env 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如: cd /opt/Bigdata/patches/MRS_3.3.1-LTS.1.2/client/ 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令升级HDFS上的zip包: sh update_hdfs_file.sh 升级完成后需要在FusionInsight Manager界面上重启Spark的JDBCServer2x实例。
  • 回滚补丁 执行卸载脚本。 su - omm cd /home/omm/MRS_3.1.0_TROS_Tools_patch_20240430 vi ips.ini 在ips.ini中配置需要卸载的节点IP(只会卸载填写IP的节点)。 每行配置一个IP,中间不能有空行。 nohup sh install.sh rollback & 通过tail -f nohup.out查看执行情况(打印“rollback patch success.”表示执行完成)。 父主题: 回滚补丁
  • 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。 如果任务失败,选择“重试卸载”,只有当“状态”显示为“可用”时,才能进入下一步操作。 卸载失败或者重试后仍然失败,不能直接再点安装,请联系运维人员。
  • 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。 如果任务失败,选择“重试卸载”,只有当“状态”显示为“可用”时,才能进入下一步操作。 卸载失败或者重试后仍然失败,不能直接再点安装,请联系运维人员。
  • 补丁基本信息说明 表1 补丁基本信息 补丁号 MRS 3.3.1-LTS.1.2 发布时间 2024-08-19 解决的问题 MRS 3.3.1-LTS.1.2修复问题列表: 解决Doris集群产生RFC请求耗时超过阈值的误告警问题 解决Doris的BE实例crash重启的问题 解决Doris物化视图测试时出现过crash重启的问题 解决Doris审计日志SQL截断的问题 解决Doris coredump文件内存打印未关联源码位置的问题 解决Doris 某个tablet的副本数据查询不一致的问题 解决Doris UDF异常数据处理的问题,该问题需要在安装补丁前删掉UDF函数,打完补丁重新创建UDF函数 解决Doris开源问题 解决Doris 执行select * from quires() 存在kill失败的慢查询记录的问题 解决Hudi隐式分区refresh table导致作业异常的问题 解决HBase Cache key had block type null日志打印过多,影响性能的问题 解决HBase偶现Ranger协处理器抛NullPointerException,导致regionserver重启的问题 解决HBase修改log4j动态配置未重启实例时,日志未脱敏的问题 [Hidden partitioning] identity(col) function doesn't support the timestamp type [Hidden partitioning] Check fields exist in table schema [Hidden partitioning] Incorrect partition rules in CREATE TABLE should be restricted [Hidden partitioning] Partitioned table can enable hidden partitioning, which needs to be restricted [Hidden partitioning] Sql execution INSERT OVERWRITE will overwrite the entire table time travel 和delta保存兼容性 解决Hudi海量分区场景查询过滤不带分区条件,查询性能慢的问题 Identical substrings in primary keys with bucket index cause duplicate keys error 解决Hudi删除外表之后重建报错的问题 解决Hive查询Hudi特殊场景下失败的问题 [Hidden partitioning] Fix Job fails for non-partitioned table for streaming read 解决Flink on hudi模块存在默认密码硬编码的问题 增加新的call命令,清除所有历史版本数据,仅保留所有最新的fileslice,同时清理timeline文件,仅保留一个最新的commit 单条数据大小估算时跳过包含delete操作的commit [Hidden partitioning] RENAME and DROP hidden partition column is prohibited [Hidden partitioning] Clustering with hidden partition field order is prohibited [Hidden partitioning] Support newline char in hidden partition rule [Hidden partitioning] Change hidden partition properties is forbidden 解决Flink流读Hudi非分区表带过滤条件,流读失败的问题 解决HetuEngine访问Hudi带log文件失败的问题 解决Hudi表执行drop partition后重新写入相同分区的数据,分区无法添加到MetaStore,导致Hive/HetuEngine读不到新数据的问题 解决Flink创建Hudi隐式分区表失败的问题 解决Hive使用Tez引擎执行了union all后生产了HIVE_UNION_DIR目录,后面再使用concatenate语句对分区执行小文件合并时必现数据丢失的问题 解决更改集群ntp服务器失败的问题 解决未配置ntp时钟源ip地址的问题 解决Kudu 45476告警资料跟告警无法对应的问题 解决Kudu英文资料存在huawei字样的问题 解决Impala租户资源配置Manager页面报错的问题 解决Kudu和Impala客户端过大的问题 解决Impala开启Ldap后上报服务亚健康检查告警的问题 解决Impala并发把资源池打满,导致服务健康检查失败,Impalad实例重启的问题 Knox支持@符号转化成中划线,支持邮箱形式账号提交作业 解决Hudi的bucket(col,N)函数不支持timestamp字段类型,建表后插入数据,数据转换错误的问题 解决Hudi的identity(col)函数不支持date字段类型,转换出来的隐式分区显示default的问题 解决Hudi的truncate(col, W)函数,W在建表时可以为负数的问题 解决Hudi分区规则属性包含5个以上的规则应建表失败的问题 父主题: MRS 3.3.1-LTS.1.2补丁说明
  • 检查集群是否已经支持root补丁特性 集群是否已经安装了MRS 3.2.0-LTS.1.6及之后版本的任意一个补丁。 是,可以直接安装MRS_3.2.0-LTS.1.10补丁,此时安装MRS_3.2.0-LTS.1.10补丁会提示需要用户输入root密码或者密钥。 否,需要先安装MRS 3.2.0-LTS.1.8补丁,安装完需要重启相关服务,具体请参考MRS 3.2.0-LTS.1.8版本补丁说明。
  • 安装补丁过程中对现行系统的影响 安装补丁过程中会重启OMS,会导致MRS Manager页面无法访问,预计持续10-20分钟。 安装补丁过程中会影响弹性伸缩以及MRS Manager上正在运行的任务,升级前请确认已经关闭弹性伸缩,并且MRS Manager上没有正在运行的任务。 安装补丁过程中,不允许在作业管理页面提交作业。 安装补丁过程包括组件重启,支持滚动重启和离线重启,请选择合适的方法,重启过程不能省略。 补丁安装后操作不能省略,若没有执行此操作,会影响Spark、HDFS、Flink等组件的补丁生效,会导致Spark client模式的作业运行失败。
  • 检查集群是否是使用密钥创建的集群 检查集群是否是使用密钥创建的集群。 是,需要先给集群安装MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz补丁,以支持密钥方式的root补丁特性。 软件包获取地址: 华东-上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华北-北京金融二:https://mrs-container1-patch-cn-north-219.10.187.142.61/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 西南-贵阳一:https://mrs-container1-patch-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华北-北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 亚太-香港:https://mrs-container1-patch-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 亚太-新加坡:https://mrs-container1-patch-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 亚太-曼谷:https://mrs-container1-patch-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华北-乌兰察布一:https://mrs-container1-patch-cn-north-9.obs.cn-north-9.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 俄罗斯-莫斯科二:https://mrs-container1-patch-ru-northwest-2.obs.ru-northwest-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 非洲-约翰内斯堡:https://mrs-container1-patch-af-south-1.obs.af-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 拉美-圣地亚哥:https://mrs-container1-patch-la-south-2.obs.la-south-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 安装指导:解压软件包后,获取README.txt并参考指导进行操作。 否,跳过此步骤。
  • 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。 如果任务失败,选择“重试卸载”,只有当“状态”显示为“可用”时,才能进入下一步操作。 卸载失败或者重试后仍然失败,不能直接再点安装,请联系运维人员。
  • 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。 如果任务失败,选择“重试卸载”,只有当“状态”显示为“可用”时,才能进入下一步操作。 卸载失败或者重试后仍然失败,不能直接再点安装,请联系运维人员。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全