华为云用户手册

  • 原因分析 TimelineServer在 MRS 3.x版本会使用一个HDFS的目录(例如以上报错中的“/tmp/hadoop-omm/yarn/timeline/generic-history/ApplicationHistoryDataRoot”路径)来存放历史任务信息,导致该目录下的文件不断累积,直到到达HDFS配置的目录数量上限(“dfs.namenode.fs-limits.max-directory-items”默认为“1048576”)。 此时请将“yarn.timeline-service.generic-application-history.enabled”(客户端查询app任务数据时是否从TimelineServer服务获取)参数设置为“false”,直接从ResourceManager上面获取app任务数据。
  • 处理步骤 以root用户登录安装了Spark2x/Spark客户端的节点。 执行以下命令编辑文件。 vim $SPARK_HOME/conf/log4j-executor.properties 调小“log4j.appender.sparklog.MaxFileSize”参数值(表示生成一份日志文件的最大存储大小,默认为50MB),例如修改为“20MB”。 调小“log4j.appender.sparklog.MaxBackupIndex”参数值(表示滚动保存的文件数量,最大为10个文件,达到第11个覆盖第一个生成的文件),例如修改为“5”。 保存文件。 重新提交作业,作业运行正常。
  • 处理步骤 以root用户登录集群的Master节点。 执行chmod 755 /usr/bin/openssl命令,修改/usr/bin/openssl的文件目录权限为755。 执行su omm命令,切换到omm用户。 执行openssl命令,查看是否能够进入openssl模式。 如果能够成功进入,则表示权限修改成功,如果不能进入,则表示权限未修改成功。 如果权限未修改成功,请检查执行的命令是否正确,或者联系运维人员。 权限修改成功后会重启LdapServer服务,请等待LdapServer服务重启成功后,重新登录MRS Manager。
  • 用户问题 更换HA证书时,执行sh ${ OMS _RUN_PATH}/workspace/ha/module/hacom/script/gen-cert.sh --root-ca --country=CN --state=state --city=city --company=company --organize=organize --common-name=commonname --email=集群用户邮箱命令在主管理节点“${OMS_RUN_PATH}/workspace0/ha/local/cert”目录生成“root-ca.crt”和“root-ca.pem”时,发生以下报错: openssl: relocation error: openssl: symbol BIO_new_dgram_sctp version OPENSSL_1_1_0 not defined in file libcrypto.so.1.1 with link time referencecreate server private key failed.
  • 处理步骤 登录 FusionInsight Manager检查是否存在网络故障、时钟跳变或Hue服务相关的告警,若存在问题则联系管理员进行处理,重试打开Hue页面确认是否正常。 是,处理结束。 否,执行2。 获取当前工作的Httpd服务器地址,为打开Hue页面URL中主机地址,即如果打开Hue的Url为“https://192.168.0.1:21201”,Httpd服务地址则为“192.168.0.1”。 登录Httpd服务器,排查“/var/log/Bigdata/httpd/error_log”中的日志。 确认“error_log”中是否存在“AH01102: error reading status line from remote server”和“AH00898: Error reading from remote server”字样的报错(可以多试几次打开Hue页面以确认情况)。 是,通过FusionInsight Manager重启Hue服务,执行5。 否,执行6。 重启Hue服务后,再次打开Hue页面。 是,处理结束。 否,执行6。 联系运维。
  • 排查思路 检查集群状态:Manager页面无法正常访问,请首先确认MRS集群状态是否正常,如果集群已关闭或者正在创建中,或集群正在发生主备倒换,将无法访问Manager。 检查用户权限:当前用户是否有访问Manager的权限,“ReadOnlyAccess”表示MRS的只读权限,拥有该权限的用户仅能查看MRS的资源,无法访问Manager页面。 检查是否绑定弹性IP:如果需要从本地访问Manager,需要对集群绑定弹性IP且弹性IP可用才可访问。 检查安全组:MRS集群对应的安全组规则中,需要对当前用户开放9022端口。安全组规则中添加的用户本地IP是否发生变化。 检查浏览器:检查本地浏览器是否正常,例如是否配置了内部网络代理、是否添加了会拦截用户Token的安全设置。 检查Manager:EIP、安全组等相关网络配置正常的情况下,检查Manager是否运行正常。 检查用户密码:登录Manager使用的用户密码错误或失效。
  • 解决办法 在集群所在VPC对应重点节点策略中,将当前Region的补丁桶放通,以保证MRS集群节点可以正常获取补丁文件。 使用具有管理权限的用户登录终端节点控制台。 单击管理控制台左上角的Region信息,选择区域和项目。 在终端节点列表中,单击终端节点ID。 选择进入“策略”页面,单击“编辑”,修改策略信息。 例如只允许VPC1内的服务器下载账号A的桶mybucket中的对象。 其中VPC1的ID为:4dad1f75-0361-4aa4-ac75-1ffdda3a0fec,账号A的账号ID为:783fc6652cf246c096ea836694f71855。 [ { "Action": [ "obs:object:GetObject" ], "Resource": [ "obs:*:783fc6652cf246c096ea836694f71855:object:mybucket/*" ], "Effect": "Allow" }] 更多VPCEP策略配置说明可参考https://support.huaweicloud.com/usermanual-vpcep/vpcep_03_3002.html。 MRS集群各Region中补丁对应OBS文件桶信息如下: 华东-上海一:mrs-container1-patch-cn-east-3 西南-贵阳一:mrs-container1-patch-cn-southwest-2 华北-北京四:mrs-container1-patch-cn-north-4 华北-北京一:mrs-container1-patch-cn-north-1 华北-北京二:mrs-container1-patch-cn-north-2 华东-上海二:mrs-container1-patch-cn-east-2 华南-广州:mrs-container1-patch-cn-south-1 单击“完成”。
  • 答: 访问HDFS、Hue、Yarn、Flink、HetuEngine等组件的WebUI的用户不具备对应组件的管理权限,导致界面报错或部分功能不可用。 例如: 使用当前用户登录Flink WebUI后,部分内容不能正常显示,且没有权限创建应用、创建集群连接、创建数据连接等: 使用当前用户访问HDFS WebUI报错:Failed to retrieve data from /jmx?qry=java.lang:type=Memory, cause: Forbidden 使用当前用户访问Yarn WebUI界面,无法查看作业信息: 使用当前用户登录Hue WebUI后,在界面左侧导航栏单击 ,选择“Workflow”后报错: 建议使用新建的具有对于组件管理权限的用户访问,此时可以参考创建用户章节,创建一个业务用户,例如创建一个具有HDFS管理权限的用户登录并访问HDFS WebUI界面。
  • 解决办法 以root用户登录主OMS节点执行ifconfig命令,查找当前节点的浮动IP。 例如执行后结果如下,则当前节点的浮动IP为192.168.0.3。 登录NTP时间异常的Master节点,执行以下命令关闭NTP服务。 service ntpd stop 执行以下命令手动同步主、备Master节点的时间。 /usr/sbin/ntpdate 1查询到的浮动IP 执行以下命令启动NTP服务。 service ntpd start 执行ntpstat命令查看时间同步结果。
  • 原因分析 登录到集群的Core节点查看RegionServer日志,报错: “Region‘3b3ae24c65fc5094bc2acfebaa7a56de’”打开失败,Region状态被设置为FAILED_OPEN。 “Region‘b7b3faab86527b88a92f2a248a54d3dc’”下的一个文件找不到报错FileNotFoundException。 在HBase客户端中执行hbase hbck命令检查Region,报错: ERROR: Found lingering reference file hdfs://hacluster/hbase/news_user_actions/3b3ae24c65fc5094bc2acfebaa7a56de/meta/0f47cda55fa44cf9aa2599079894aed6.b7b3faab86527b88a92f2a248a54d3dc 从引用文件可以看出,‘3b3ae24c65fc5094bc2acfebaa7a56de’Region是‘ b7b3faab86527b88a92f2a248a54d3dc’的子Region,子Region引用了父Region的文件,父Region的文件在迁移过程中因为未知原因丢失了,导致子Region找不到引用文件。 这种异常并不能通过简单的重试可解决,所以Region会长时间处于RIT状态。
  • 处理步骤 以omm用户登录主管理节点。 执行以下命令打开application.properties文件。 vi ${BIGDATA_HOME}/om-server_*/OMS/workspace0/conf/pms/application.properties 将PMS进程的内存配置参数“pms.mem”根据实际情况调大,保存并退出。 ...pms.mem=800m 修改的新值的增长量不能大于操作系统可用剩余内存。 执行以下命令查找PMS进程的PID,并终止PMS进程,等待进程重新启动。 ps -ef | grep pms kill -9 PID 登录Manager页面,查看卡顿情况消失。
  • 操作步骤 以root用户登录主OMS所在节点,执行以下命令获取RegionServer对应的URL。 cat /opt/Bigdata/Apache-httpd*/conf/whitelist.txt |grep RegionServer 修改HBase WebUI的HMaser的访问地址,将“/HMaster/ID/master-status”修改为“/RegionServer/ID/rs-status”,即可直接访问RegionServer信息页。其中,“/RegionServer/ID/rs-status”中的“ID”为1查看到的RegionServer主机名称对应的ID。 例如,若查看到的RegionServer的URL为“/HBase/RegionServer/44”,则访问地址为“https://100.94.xxx.xxx:9022/component/HBase/RegionServer/44/rs-status”。
  • 处理步骤 复制MRS Manager的登录链接,使用Chrome浏览器访问。 显示MRS Manager登录页面,此时Chrome浏览器暂时还不能登录MRS Manager页面,请继续操作后续步骤。 查找证书。 单击浏览器左上角,单击“证书无效”所在行的。 获取证书。 选中该证书拖动到电脑桌面,即可获得证书。 在Mac应用中选择钥匙串访问。 “钥匙串”选择“登录”,“种类”选择“证书”。 将步骤3获得的证书拖动到钥匙串列表中。 双击证书将该证书设置为“始终信任”并关闭弹窗。 在出现的确认框中输入登录密码,此时在Chrome中即可访问MRS Manager。
  • 处理步骤 在HDFS客户端执行以下命令删除2查看到的残留文件: hdfs dfs -rmr 残留文件所在的HDFS路径 例如: hdfs dfs -rmr /hbase/news_user_actions/3b3ae24c65fc5094bc2acfebaa7a56de/meta/0f47cda55fa44cf9aa2599079894aed6.b7b3faab86527b88a92f2a248a54d3dc
  • 用户问题 MRS Sqoop迁移数据库数据报错如下: Communications link failure;The driver has not received any packets from the server; 源端为DWS数据库时报错如下: got exception running sqoop .java.lang.Runtime.Exception, could not load db driver class。 图1 Sqoop迁移数据库数据报错 图2 源端为DWS时报错
  • 处理步骤 检查源端数据库端口对集群节点均放通。 若使用EIP公网通信,那么集群节点均需要绑定公网,尤其是分析节点,必须绑定公网才能保证作业正常运行。 sqoop实例一般分布在Master节点,但作业真正运行在分析节点,因此创建数据库连接,是和Master节点通信,作业是通过Yarn任务分发到分析节点执行。 检查Sqoop实例安装目录下是否放置数据库驱动jar包,并保证jar包路径正确,文件权限及属主属组正确;配置文件正确配置;保证这些后需要重启Sqoop实例后才可以正常加载驱动。 MRS 3.X集群驱动路径为:/opt/Bigdata/FusionInsight_Current/1_xx_LoaderServer/install/FusionInsight-Sqoop-1.99.3/server/webapps/loader/WEB-INF/ext-lib/ MRS3.X之前版本集群驱动路径为:/opt/Bigdata/MRS_XXX/install/FusionInsight-Sqoop-1.99.7/FusionInsight-Sqoop-1.99.7/server/jdbc/ 3.x之前版本需要修改配置文件。 如果是命令行提交作业,建议指定--driver参数。 如源端是DWS时命令行加:--driver com.xxx.gauss200.jdbc.Driver ,如下图。 图3 源端是dws时driver参数 其他数据库根据实际情况填写--driver参数。
  • 原因分析 登录告警节点,查找日志路径“/var/log/Bigdata/hdfs/nn”下Journalnode实例的startDetail.log日志信息,发现Journalnode实例停止过。 分别查看告警节点和其他JournalNode节点的“/srv/BigData/journalnode/hacluster/current”路径下最新的edits日志文件,发现告警节点与其他节点存在不同步的情况。
  • 处理步骤 以root用户登录到所有Master节点。 进入/opt/knox/conf/目录,找到ext.properties文件。 修改所有Master节点中的ext.properties配置中的“console-emr”为 “mrs”。 进入/opt/knox/bin/ 目录,并执行su - omm命令切换到omm用户。 执行脚本restart-knox.sh重启knox服务。 再次访问MRS Manager页面即可正常跳转。
  • 解决办法 请确认该损坏的块是否可以删除。 是,执行2。 否,请联系技术支持。 执行以下命令进入HDFS客户端。 cd HDFS客户端安装目录 source bigdata_env kinit 业务用户 执行以下命令删除之前记录的损坏的块。 hdfs dfs -rm -skipTrash /tmp/hive-scratch/omm/_tez_session_dir/xxx-resources/xxx.jar 执行命令查看HDFS状态是否恢复为“HEALTHY”。 hdfs fsck / 再次执行DataNode退服操作。
  • 原因分析 使用以下命令统计节点进程的线程数并排序。 ps -efT | awk '{print $2}' |sort -n |uniq -c |sort -n 执行后结果如下: 查看启动线程数最多的进程,案例中进程2346为NameNode进程,启动了5.4万线程,且持续增长。 多次打印对应进程的jstack日志,根据jstack日志信息发现,NameNode存在大量线程处于WAITING,且长期不释放。 结合以上问题分析如下:NameNode存在内置机制,根据WARN日志信息自动开启DEBUG日志,在环境中由于选择副本失败,导致一直启动Debug日志,不停地修改log4j,修改组件的log4j后进程会自动加载该配置文件,此时就会有新的线程自动产生,长时间后就会触发该告警。 出现这种情况时,将内置机制关闭,禁止自动修改日志级别即可恢复。
  • 处理步骤 Sqoop客户端安装完成之后,没有直接引入HBase相关的依赖jar包,需要通过手动导入指定低版本的HBase相关依赖jar包。解决方法步骤如下: 确认Sqoop客户端和HBase客户端是否在同一个路径下。 是,执行2。 否,删除原有的Sqoop和HBase客户端文件,从FusionInsight Manager上下载完整的客户端安装在同一路径下,执行2。 以root用户登录Sqoop客户端安装节点。 下载以下HBase 1.6.0版本的jar包上传到Sqoop客户端的“lib”目录下。 hbase-client-1.6.0.jar hbase-common-1.6.0.jar hbase-protocol-1.6.0.jar hbase-server-1.6.0.jar 上传包之后,修改包的权限,可以设置为755,具体执行命令为: chmod 755 包名称 在客户端目录下执行以下命令刷新Sqoop客户端: source bigdata_env 重新执行sqoop命令。
  • 解决办法 登录HDFS的WebUI页面,进入DataNode的JMX页面。 在HDFS原生界面,选择Datanodes页面。 找到对应的DataNode节点,单击Http Address地址进入DataNode详情。 将url的“datanode.html”改为“jmx”就能获取到DataNode的JMX信息。 搜索“XceiverCount”指标,当该指标的值*Block块的大小超过DataNode磁盘的容量,就说明预约写Block的磁盘空间不足。 发生该问题,通常有以下两种方法来解决: 方法一:降低业务的并发度。 方法二:减少业务写文件的数目,将多个文件合并成一个文件来写。
  • 处理步骤 用户在“pg_hba.conf”文件配置白名单。 驱动重复,集群自带,将其余驱动清除,所有Core节点上的gsjdbc4 jar包去掉,在sqoop/lib目录下添加PgSQL Jar包即可。 mv /opt/Bigdata/FusionInsight_HD_*/1_*_NodeManager/install/hadoop/share/hadoop/common/lib/gsjdbc4-*.jar /tmp
  • 原因分析 HDFS写文件的预约机制:无论文件是10 MB还是1 GB,开始写的每个块都会被预约128 MB。如果需要写入一个10 MB的文件,HDFS会预约一个块来写,当文件写完后,这个块只占实际大小10 MB,释放多余预约的118 MB空间。如果需要写入一个1 GB的文件,HDFS还是会预约一个块来写,这个块写完后再开启下一个块,文件写完后,实际占用1 GB磁盘,释放多余预约的空间。 该异常通常是因为业务写文件的并发量太高,预约写Block的磁盘空间不足,导致写文件失败。
  • 问题现象 集群扩容完成之后,新节点的HRegionserver启动失败,一直处于异常状态,无法正常提供服务。 登录故障RegionServer所在节点,jps查看RegionServer进程没有启动,在Manager上手动重启故障的RegionServer实例失败,查看对应RegionServer节点/var/log/Bigdata/hbase/rs/hbase-omm-regionserver-node-ana-coreqRvt.log日志,有报错信息“ClassNotFound:org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec”。 Manager上,可以看到RegionServer有如下自定义配置:
  • 处理步骤 在集群上安装客户端,查看客户端“sqoop/lib”目录下是否有MySQL驱动包。 在客户端目录下加载环境变量。 source bigdata_env 执行Kerberos用户认证。 如果集群已启用Kerberos认证,执行以下命令认证具有操作权限的用户,否则跳过此步骤。 kinit MRS集群用户 连接数据库。命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 sqoop list-databases --connect jdbc:mysql://数据库IP地址:3306/ --username 数据库登录用户名 --password 密码 上图所示则代表sqoop连接MySQL成功。
  • 处理步骤 登录到正常的RegionServer节点,执行以下命令。 grep -Rn ‘org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec’ /opt/Bigdata/MRS_Current/1_16_RegionServer/ 查询出/opt/Bigdata/MRS_Current/1_16_RegionServer/install/hbase/lib目录下面有两个Phoenix包(phoenix-4.14.1-server.jar和phoenix-core-4.14.1.jar)包含这个类。 使用scp命令将上述两个包拷贝到异常RegionServer节点上相同目录下,重启故障的RegionServer,恢复正常。
  • 问题背景与现象 用户运行作业时写文件到HDFS,偶现写文件失败的情况。 操作日志如下: 105 | INFO | IPC Server handler 23 on 25000 | IPC Server handler 23 on 25000, call org.apache.hadoop.hdfs.protocol.ClientProtocol.addBlock from 192.168.1.96:47728 Call#1461167 Retry#0 | Server.java:2278 java.io.IOException: File /hive/warehouse/000000_0.835bf64f-4103 could only be replicated to 0 nodes instead of minReplication (=1). There are 3 datanode(s) running and 3 node(s) are excluded in this operation.
  • 原因分析 连接PgSQL MD5认证不通过,需要在“pg_hba.conf”中配置白名单。 在执行sqoop import命令时,会启动MapReduce任务,由于MRS Hadoop安装目下(例如“/opt/Bigdata/FusionInsight_HD_*/1_*_NodeManager/install/hadoop/share/hadoop/common/lib”)自带了PgSQL驱动包“gsjdbc4-*.jar”,与开源PgSQL服务不兼容导致报错。
  • 原因分析 登录Master2节点,查看“/var/log/Bigdata/hive/hiveserver/hive.log”日志,发现HiveServer一直加载“/opt/Bigdata/*/*_HiveServer/etc/hive-site.xml”;查看HiveServer退出时的“/var/log/Bigdata/hive/hiveserver/hiveserver.out”日志,发现解析“mapred-default.xml”文件异常。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全