华为云用户手册

MapReduce服务 MRS-TimelineServer目录文件数量到达上限:原因分析

原因分析 TimelineServer在 MRS 3.x版本会使用一个HDFS的目录（例如以上报错中的“/tmp/hadoop-omm/yarn/timeline/generic-history/ApplicationHistoryDataRoot”路径）来存放历史任务信息，导致该目录下的文件不断累积，直到到达HDFS配置的目录数量上限（“dfs.namenode.fs-limits.max-directory-items”默认为“1048576”）。此时请将“yarn.timeline-service.generic-application-history.enabled”（客户端查询app任务数据时是否从TimelineServer服务获取）参数设置为“false”，直接从ResourceManager上面获取app任务数据。

MapReduce服务 MRS
MapReduce服务 MRS-通过Yarn WebUI页面查看作业日志提示“ERROR 500”错误:处理步骤

处理步骤以root用户登录安装了Spark2x/Spark客户端的节点。执行以下命令编辑文件。 vim $SPARK_HOME/conf/log4j-executor.properties 调小“log4j.appender.sparklog.MaxFileSize”参数值（表示生成一份日志文件的最大存储大小，默认为50MB），例如修改为“20MB”。调小“log4j.appender.sparklog.MaxBackupIndex”参数值（表示滚动保存的文件数量，最大为10个文件，达到第11个覆盖第一个生成的文件），例如修改为“5”。保存文件。重新提交作业，作业运行正常。

MapReduce服务 MRS
MapReduce服务 MRS-升级Python后无法登录Manager页面:处理步骤

处理步骤以root用户登录集群的Master节点。执行chmod 755 /usr/bin/openssl命令，修改/usr/bin/openssl的文件目录权限为755。执行su omm命令，切换到omm用户。执行openssl命令，查看是否能够进入openssl模式。如果能够成功进入，则表示权限修改成功，如果不能进入，则表示权限未修改成功。如果权限未修改成功，请检查执行的命令是否正确，或者联系运维人员。权限修改成功后会重启LdapServer服务，请等待LdapServer服务重启成功后，重新登录MRS Manager。

MapReduce服务 MRS
MapReduce服务 MRS-生成HA证书时报错“symbol xxx not defined in file libcrypto.so.1.1”:用户问题

用户问题更换HA证书时，执行sh ${ OMS _RUN_PATH}/workspace/ha/module/hacom/script/gen-cert.sh --root-ca --country=CN --state=state --city=city --company=company --organize=organize --common-name=commonname --email=集群用户邮箱命令在主管理节点“${OMS_RUN_PATH}/workspace0/ha/local/cert”目录生成“root-ca.crt”和“root-ca.pem”时，发生以下报错： openssl: relocation error: openssl: symbol BIO_new_dgram_sctp version OPENSSL_1_1_0 not defined in file libcrypto.so.1.1 with link time referencecreate server private key failed.

MapReduce服务 MRS
MapReduce服务 MRS-【Hue WebUI】访问Hue WebUI页面报错“Proxy Error”:处理步骤

处理步骤登录 FusionInsight Manager检查是否存在网络故障、时钟跳变或Hue服务相关的告警，若存在问题则联系管理员进行处理，重试打开Hue页面确认是否正常。是，处理结束。否，执行2。获取当前工作的Httpd服务器地址，为打开Hue页面URL中主机地址，即如果打开Hue的Url为“https://192.168.0.1:21201”，Httpd服务地址则为“192.168.0.1”。登录Httpd服务器，排查“/var/log/Bigdata/httpd/error_log”中的日志。确认“error_log”中是否存在“AH01102: error reading status line from remote server”和“AH00898: Error reading from remote server”字样的报错（可以多试几次打开Hue页面以确认情况）。是，通过FusionInsight Manager重启Hue服务，执行5。否，执行6。重启Hue服务后，再次打开Hue页面。是，处理结束。否，执行6。联系运维。

MapReduce服务 MRS
MapReduce服务 MRS-无法访问MRS集群Manager页面如何处理？:排查思路

排查思路检查集群状态：Manager页面无法正常访问，请首先确认MRS集群状态是否正常，如果集群已关闭或者正在创建中，或集群正在发生主备倒换，将无法访问Manager。检查用户权限：当前用户是否有访问Manager的权限，“ReadOnlyAccess”表示MRS的只读权限，拥有该权限的用户仅能查看MRS的资源，无法访问Manager页面。检查是否绑定弹性IP：如果需要从本地访问Manager，需要对集群绑定弹性IP且弹性IP可用才可访问。检查安全组：MRS集群对应的安全组规则中，需要对当前用户开放9022端口。安全组规则中添加的用户本地IP是否发生变化。检查浏览器：检查本地浏览器是否正常，例如是否配置了内部网络代理、是否添加了会拦截用户Token的安全设置。检查Manager：EIP、安全组等相关网络配置正常的情况下，检查Manager是否运行正常。检查用户密码：登录Manager使用的用户密码错误或失效。

MapReduce服务 MRS Web页面访问类
MapReduce服务 MRS-MRS集群所在VPC部署了VPCEP后集群补丁安装失败:解决办法

解决办法在集群所在VPC对应重点节点策略中，将当前Region的补丁桶放通，以保证MRS集群节点可以正常获取补丁文件。使用具有管理权限的用户登录终端节点控制台。单击管理控制台左上角的Region信息，选择区域和项目。在终端节点列表中，单击终端节点ID。选择进入“策略”页面，单击“编辑”，修改策略信息。例如只允许VPC1内的服务器下载账号A的桶mybucket中的对象。其中VPC1的ID为：4dad1f75-0361-4aa4-ac75-1ffdda3a0fec，账号A的账号ID为：783fc6652cf246c096ea836694f71855。 [ { "Action": [ "obs:object:GetObject" ], "Resource": [ "obs:*:783fc6652cf246c096ea836694f71855:object:mybucket/*" ], "Effect": "Allow" }] 更多VPCEP策略配置说明可参考https://support.huaweicloud.com/usermanual-vpcep/vpcep_03_3002.html。 MRS集群各Region中补丁对应OBS文件桶信息如下：华东-上海一：mrs-container1-patch-cn-east-3 西南-贵阳一：mrs-container1-patch-cn-southwest-2 华北-北京四：mrs-container1-patch-cn-north-4 华北-北京一：mrs-container1-patch-cn-north-1 华北-北京二：mrs-container1-patch-cn-north-2 华东-上海二：mrs-container1-patch-cn-east-2 华南-广州：mrs-container1-patch-cn-south-1 单击“完成”。

MapReduce服务 MRS
MapReduce服务 MRS-使用admin用户访问组件的WebUI界面报错或部分功能不可用:答：

答：访问HDFS、Hue、Yarn、Flink、HetuEngine等组件的WebUI的用户不具备对应组件的管理权限，导致界面报错或部分功能不可用。例如：使用当前用户登录Flink WebUI后，部分内容不能正常显示，且没有权限创建应用、创建集群连接、创建数据连接等：使用当前用户访问HDFS WebUI报错：Failed to retrieve data from /jmx?qry=java.lang:type=Memory, cause: Forbidden 使用当前用户访问Yarn WebUI界面，无法查看作业信息：使用当前用户登录Hue WebUI后，在界面左侧导航栏单击，选择“Workflow”后报错：建议使用新建的具有对于组件管理权限的用户访问，此时可以参考创建用户章节，创建一个业务用户，例如创建一个具有HDFS管理权限的用户登录并访问HDFS WebUI界面。

MapReduce服务 MRS
MapReduce服务 MRS-由于主备Master节点时间未同步导致ZooKeeper服务不可用:解决办法

解决办法以root用户登录主OMS节点执行ifconfig命令，查找当前节点的浮动IP。例如执行后结果如下，则当前节点的浮动IP为192.168.0.3。登录NTP时间异常的Master节点，执行以下命令关闭NTP服务。 service ntpd stop 执行以下命令手动同步主、备Master节点的时间。 /usr/sbin/ntpdate 1查询到的浮动IP 执行以下命令启动NTP服务。 service ntpd start 执行ntpstat命令查看时间同步结果。

MapReduce服务 MRS
MapReduce服务 MRS-HBase文件丢失导致Region状态长时间为RIT:原因分析

原因分析登录到集群的Core节点查看RegionServer日志，报错： “Region‘3b3ae24c65fc5094bc2acfebaa7a56de’”打开失败，Region状态被设置为FAILED_OPEN。 “Region‘b7b3faab86527b88a92f2a248a54d3dc’”下的一个文件找不到报错FileNotFoundException。在HBase客户端中执行hbase hbck命令检查Region，报错： ERROR: Found lingering reference file hdfs://hacluster/hbase/news_user_actions/3b3ae24c65fc5094bc2acfebaa7a56de/meta/0f47cda55fa44cf9aa2599079894aed6.b7b3faab86527b88a92f2a248a54d3dc 从引用文件可以看出，‘3b3ae24c65fc5094bc2acfebaa7a56de’Region是‘ b7b3faab86527b88a92f2a248a54d3dc’的子Region，子Region引用了父Region的文件，父Region的文件在迁移过程中因为未知原因丢失了，导致子Region找不到引用文件。这种异常并不能通过简单的重试可解决，所以Region会长时间处于RIT状态。

MapReduce服务 MRS
MapReduce服务 MRS-Manager页面加载卡顿:处理步骤

处理步骤以omm用户登录主管理节点。执行以下命令打开application.properties文件。 vi ${BIGDATA_HOME}/om-server_*/OMS/workspace0/conf/pms/application.properties 将PMS进程的内存配置参数“pms.mem”根据实际情况调大，保存并退出。 ...pms.mem=800m 修改的新值的增长量不能大于操作系统可用剩余内存。执行以下命令查找PMS进程的PID，并终止PMS进程，等待进程重新启动。 ps -ef | grep pms kill -9 PID 登录Manager页面，查看卡顿情况消失。

MapReduce服务 MRS
MapReduce服务 MRS-【HBase WebUI】无法从HBase WebUI界面跳转到RegionServer WebUI:操作步骤

操作步骤以root用户登录主OMS所在节点，执行以下命令获取RegionServer对应的URL。 cat /opt/Bigdata/Apache-httpd*/conf/whitelist.txt |grep RegionServer 修改HBase WebUI的HMaser的访问地址，将“/HMaster/ID/master-status”修改为“/RegionServer/ID/rs-status”，即可直接访问RegionServer信息页。其中，“/RegionServer/ID/rs-status”中的“ID”为1查看到的RegionServer主机名称对应的ID。例如，若查看到的RegionServer的URL为“/HBase/RegionServer/44”，则访问地址为“https://100.94.xxx.xxx:9022/component/HBase/RegionServer/44/rs-status”。

MapReduce服务 MRS
MapReduce服务 MRS-macOS使用浏览器访问MRS Manager:处理步骤

处理步骤复制MRS Manager的登录链接，使用Chrome浏览器访问。显示MRS Manager登录页面，此时Chrome浏览器暂时还不能登录MRS Manager页面，请继续操作后续步骤。查找证书。单击浏览器左上角，单击“证书无效”所在行的。获取证书。选中该证书拖动到电脑桌面，即可获得证书。在Mac应用中选择钥匙串访问。 “钥匙串”选择“登录”，“种类”选择“证书”。将步骤3获得的证书拖动到钥匙串列表中。双击证书将该证书设置为“始终信任”并关闭弹窗。在出现的确认框中输入登录密码，此时在Chrome中即可访问MRS Manager。

MapReduce服务 MRS
MapReduce服务 MRS-HBase文件丢失导致Region状态长时间为RIT:处理步骤

处理步骤在HDFS客户端执行以下命令删除2查看到的残留文件： hdfs dfs -rmr 残留文件所在的HDFS路径例如： hdfs dfs -rmr /hbase/news_user_actions/3b3ae24c65fc5094bc2acfebaa7a56de/meta/0f47cda55fa44cf9aa2599079894aed6.b7b3faab86527b88a92f2a248a54d3dc

MapReduce服务 MRS
MapReduce服务 MRS-通过Sqoop迁移数据库数据时报错:用户问题

用户问题 MRS Sqoop迁移数据库数据报错如下： Communications link failure;The driver has not received any packets from the server；源端为DWS数据库时报错如下： got exception running sqoop .java.lang.Runtime.Exception, could not load db driver class。图1 Sqoop迁移数据库数据报错图2 源端为DWS时报错

MapReduce服务 MRS
MapReduce服务 MRS-通过Sqoop迁移数据库数据时报错:处理步骤

处理步骤检查源端数据库端口对集群节点均放通。若使用EIP公网通信，那么集群节点均需要绑定公网，尤其是分析节点，必须绑定公网才能保证作业正常运行。 sqoop实例一般分布在Master节点，但作业真正运行在分析节点，因此创建数据库连接，是和Master节点通信，作业是通过Yarn任务分发到分析节点执行。检查Sqoop实例安装目录下是否放置数据库驱动jar包，并保证jar包路径正确，文件权限及属主属组正确；配置文件正确配置；保证这些后需要重启Sqoop实例后才可以正常加载驱动。 MRS 3.X集群驱动路径为：/opt/Bigdata/FusionInsight_Current/1_xx_LoaderServer/install/FusionInsight-Sqoop-1.99.3/server/webapps/loader/WEB-INF/ext-lib/ MRS3.X之前版本集群驱动路径为：/opt/Bigdata/MRS_XXX/install/FusionInsight-Sqoop-1.99.7/FusionInsight-Sqoop-1.99.7/server/jdbc/ 3.x之前版本需要修改配置文件。如果是命令行提交作业，建议指定--driver参数。如源端是DWS时命令行加：--driver com.xxx.gauss200.jdbc.Driver ，如下图。图3 源端是dws时driver参数其他数据库根据实际情况填写--driver参数。

MapReduce服务 MRS
MapReduce服务 MRS-集群出现ALM-14012 Journalnode数据不同步告警:原因分析

原因分析登录告警节点，查找日志路径“/var/log/Bigdata/hdfs/nn”下Journalnode实例的startDetail.log日志信息，发现Journalnode实例停止过。分别查看告警节点和其他JournalNode节点的“/srv/BigData/journalnode/hacluster/current”路径下最新的edits日志文件，发现告警节点与其他节点存在不同步的情况。

MapReduce服务 MRS
MapReduce服务 MRS-访问MRS Manager页面报错“502 Bad Gateway”:处理步骤

处理步骤以root用户登录到所有Master节点。进入/opt/knox/conf/目录，找到ext.properties文件。修改所有Master节点中的ext.properties配置中的“console-emr”为 “mrs”。进入/opt/knox/bin/ 目录，并执行su - omm命令切换到omm用户。执行脚本restart-knox.sh重启knox服务。再次访问MRS Manager页面即可正常跳转。

MapReduce服务 MRS 登录集群Manager常见异常问题
MapReduce服务 MRS-由于HDFS块丢失导致DataNode退服失败:解决办法

解决办法请确认该损坏的块是否可以删除。是，执行2。否，请联系技术支持。执行以下命令进入HDFS客户端。 cd HDFS客户端安装目录 source bigdata_env kinit 业务用户执行以下命令删除之前记录的损坏的块。 hdfs dfs -rm -skipTrash /tmp/hive-scratch/omm/_tez_session_dir/xxx-resources/xxx.jar 执行命令查看HDFS状态是否恢复为“HEALTHY”。 hdfs fsck / 再次执行DataNode退服操作。

MapReduce服务 MRS
MapReduce服务 MRS-NameNode节点存在ALM-12027主机PID使用率超过阈值告警:原因分析

原因分析使用以下命令统计节点进程的线程数并排序。 ps -efT | awk '{print $2}' |sort -n |uniq -c |sort -n 执行后结果如下：查看启动线程数最多的进程，案例中进程2346为NameNode进程，启动了5.4万线程，且持续增长。多次打印对应进程的jstack日志，根据jstack日志信息发现，NameNode存在大量线程处于WAITING，且长期不释放。结合以上问题分析如下：NameNode存在内置机制，根据WARN日志信息自动开启DEBUG日志，在环境中由于选择副本失败，导致一直启动Debug日志，不停地修改log4j，修改组件的log4j后进程会自动加载该配置文件，此时就会有新的线程自动产生，长时间后就会触发该告警。出现这种情况时，将内置机制关闭，禁止自动修改日志级别即可恢复。

MapReduce服务 MRS
MapReduce服务 MRS-Sqoop读取MySQL数据到HBase时报HBaseAdmin.<init>方法找不到异常:处理步骤

处理步骤 Sqoop客户端安装完成之后，没有直接引入HBase相关的依赖jar包，需要通过手动导入指定低版本的HBase相关依赖jar包。解决方法步骤如下：确认Sqoop客户端和HBase客户端是否在同一个路径下。是，执行2。否，删除原有的Sqoop和HBase客户端文件，从FusionInsight Manager上下载完整的客户端安装在同一路径下，执行2。以root用户登录Sqoop客户端安装节点。下载以下HBase 1.6.0版本的jar包上传到Sqoop客户端的“lib”目录下。 hbase-client-1.6.0.jar hbase-common-1.6.0.jar hbase-protocol-1.6.0.jar hbase-server-1.6.0.jar 上传包之后，修改包的权限，可以设置为755，具体执行命令为： chmod 755 包名称在客户端目录下执行以下命令刷新Sqoop客户端： source bigdata_env 重新执行sqoop命令。

MapReduce服务 MRS
MapReduce服务 MRS-HDFS写并发较大时报副本不足:解决办法

解决办法登录HDFS的WebUI页面，进入DataNode的JMX页面。在HDFS原生界面，选择Datanodes页面。找到对应的DataNode节点，单击Http Address地址进入DataNode详情。将url的“datanode.html”改为“jmx”就能获取到DataNode的JMX信息。搜索“XceiverCount”指标，当该指标的值*Block块的大小超过DataNode磁盘的容量，就说明预约写Block的磁盘空间不足。发生该问题，通常有以下两种方法来解决：方法一：降低业务的并发度。方法二：减少业务写文件的数目，将多个文件合并成一个文件来写。

MapReduce服务 MRS
MapReduce服务 MRS-通过sqoop import命令从PgSQL导出数据到Hive时报错:处理步骤

处理步骤用户在“pg_hba.conf”文件配置白名单。驱动重复，集群自带，将其余驱动清除，所有Core节点上的gsjdbc4 jar包去掉，在sqoop/lib目录下添加PgSQL Jar包即可。 mv /opt/Bigdata/FusionInsight_HD_*/1_*_NodeManager/install/hadoop/share/hadoop/common/lib/gsjdbc4-*.jar /tmp

MapReduce服务 MRS
MapReduce服务 MRS-HDFS写并发较大时报副本不足:原因分析

原因分析 HDFS写文件的预约机制：无论文件是10 MB还是1 GB，开始写的每个块都会被预约128 MB。如果需要写入一个10 MB的文件，HDFS会预约一个块来写，当文件写完后，这个块只占实际大小10 MB，释放多余预约的118 MB空间。如果需要写入一个1 GB的文件，HDFS还是会预约一个块来写，这个块写完后再开启下一个块，文件写完后，实际占用1 GB磁盘，释放多余预约的空间。该异常通常是因为业务写文件的并发量太高，预约写Block的磁盘空间不足，导致写文件失败。

MapReduce服务 MRS
MapReduce服务 MRS-集群扩容之后新节点HRegionServer启动失败:问题现象

问题现象集群扩容完成之后，新节点的HRegionserver启动失败，一直处于异常状态，无法正常提供服务。登录故障RegionServer所在节点，jps查看RegionServer进程没有启动，在Manager上手动重启故障的RegionServer实例失败，查看对应RegionServer节点/var/log/Bigdata/hbase/rs/hbase-omm-regionserver-node-ana-coreqRvt.log日志，有报错信息“ClassNotFound：org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec”。 Manager上，可以看到RegionServer有如下自定义配置：

MapReduce服务 MRS
MapReduce服务 MRS-Sqoop如何连接MySQL:处理步骤

处理步骤在集群上安装客户端，查看客户端“sqoop/lib”目录下是否有MySQL驱动包。在客户端目录下加载环境变量。 source bigdata_env 执行Kerberos用户认证。如果集群已启用Kerberos认证，执行以下命令认证具有操作权限的用户，否则跳过此步骤。 kinit MRS集群用户连接数据库。命令中如果携带认证密码信息可能存在安全风险，在执行命令前建议关闭系统的history命令记录功能，避免信息泄露。 sqoop list-databases --connect jdbc:mysql://数据库IP地址:3306/ --username 数据库登录用户名 --password 密码上图所示则代表sqoop连接MySQL成功。

MapReduce服务 MRS
MapReduce服务 MRS-集群扩容之后新节点HRegionServer启动失败:处理步骤

处理步骤登录到正常的RegionServer节点，执行以下命令。 grep -Rn ‘org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec’ /opt/Bigdata/MRS_Current/1_16_RegionServer/ 查询出/opt/Bigdata/MRS_Current/1_16_RegionServer/install/hbase/lib目录下面有两个Phoenix包（phoenix-4.14.1-server.jar和phoenix-core-4.14.1.jar）包含这个类。使用scp命令将上述两个包拷贝到异常RegionServer节点上相同目录下，重启故障的RegionServer，恢复正常。

MapReduce服务 MRS
MapReduce服务 MRS-HDFS写并发较大时报副本不足:问题背景与现象

问题背景与现象用户运行作业时写文件到HDFS，偶现写文件失败的情况。操作日志如下： 105 | INFO | IPC Server handler 23 on 25000 | IPC Server handler 23 on 25000, call org.apache.hadoop.hdfs.protocol.ClientProtocol.addBlock from 192.168.1.96:47728 Call#1461167 Retry#0 | Server.java:2278 java.io.IOException: File /hive/warehouse/000000_0.835bf64f-4103 could only be replicated to 0 nodes instead of minReplication (=1). There are 3 datanode(s) running and 3 node(s) are excluded in this operation.

MapReduce服务 MRS
MapReduce服务 MRS-通过sqoop import命令从PgSQL导出数据到Hive时报错:原因分析

原因分析连接PgSQL MD5认证不通过，需要在“pg_hba.conf”中配置白名单。在执行sqoop import命令时，会启动MapReduce任务，由于MRS Hadoop安装目下（例如“/opt/Bigdata/FusionInsight_HD_*/1_*_NodeManager/install/hadoop/share/hadoop/common/lib”）自带了PgSQL驱动包“gsjdbc4-*.jar”，与开源PgSQL服务不兼容导致报错。

MapReduce服务 MRS
MapReduce服务 MRS-mapred-default.xml文件解析异常导致WebHCat启动失败:原因分析

原因分析登录Master2节点，查看“/var/log/Bigdata/hive/hiveserver/hive.log”日志，发现HiveServer一直加载“/opt/Bigdata/*/*_HiveServer/etc/hive-site.xml”；查看HiveServer退出时的“/var/log/Bigdata/hive/hiveserver/hiveserver.out”日志，发现解析“mapred-default.xml”文件异常。

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！