华为云用户手册

MapReduce服务 MRS-如何修复Overlap状态的HBase Region:问题

问题使用hbck工具检查Region状态，如果日志中存在“ERROR: (regions region1 and region2) There is an overlap in the region chain.”或者“ERROR: (region region1) Multiple regions have the same startkey: xxx”信息，表示某些region存在overlap的问题，需要如何解决？

MapReduce服务 MRS
MapReduce服务 MRS-HBase占用网络端口，连接数过大会导致其他服务不稳定:回答

回答使用操作系统命令lsof或者netstat发现大量TCP连接处于CLOSE_WAIT状态，且连接持有者为HBase RegionServer，可能导致网络端口耗尽或HDFS连接超限，那样可能会导致其他服务不稳定。HBase CLOSE_WAIT现象为HBase机制。 HBase CLOSE_WAIT产生原因：HBase数据以HFile形式存储在HDFS上，这里可以叫StoreFiles，HBase作为HDFS的客户端，HBase在创建StoreFile或启动加载StoreFile时创建了HDFS连接，当创建StoreFile或加载StoreFile完成时，HDFS方面认为任务已完成，将连接关闭权交给HBase，但HBase为了保证实时响应，有请求时就可以连接对应数据文件，需要保持连接，选择不关闭连接，所以连接状态为CLOSE_WAIT（需客户端关闭）。什么时候会创建StoreFile：当HBase执行Flush时。什么时候执行Flush：HBase写入数据首先会存在内存MemStore，只有内存使用达到阈值或手动执行flush命令时会触发flush操作，将数据写入HDFS。解决方法：由于HBase连接机制，如果想减小HBase端口占用，则需控制StoreFile数量，具体可以通过触发HBase的compaction动作完成，即触发HBase文件合并，方法如下：方法1：使用HBase shell客户端，在客户端手动执行major_compact操作。方法2：编写HBase客户端代码，调用HBaseAdmin类中的compact方法触发HBase的compaction动作。如果compact无法解决HBase端口占用现象，说明HBase使用情况已经达到瓶颈，需考虑如下几点： table的Region数初始设置是否合适。是否存在无用数据。如果存在无用数据，可删除对应数据以减小HBase存储文件数量，如果以上情况都不满足，则需考虑扩容。

MapReduce服务 MRS
MapReduce服务 MRS-在启动HBase shell时报错“java.lang.UnsatisfiedLinkError: Permission denied”:回答

回答在执行HBase shell期间，JRuby会在“java.io.tmpdir”路径下创建一个临时文件，该路径的默认值为“/tmp”。如果为“/tmp”目录设置NOEXEC权限，然后HBase shell会启动失败并发生“java.lang.UnsatisfiedLinkError: Permission denied”异常。因此，如果为“/tmp”目录设置了NOEXEC权限，那么“java.io.tmpdir”必须设置为HBASE_OPTS/CLIENT_GC_OPTS中不同的路径。

MapReduce服务 MRS
MapReduce服务 MRS-优化HDFS NameNode RPC的服务质量:配置场景

配置场景本章节适用于 MRS 3.x及后续版本。数个成品Hadoop集群由于NameNode超负荷运行并失去响应而发生故障。这种阻塞现象是由于Hadoop的初始设计造成的。在Hadoop中，NameNode作为单独的机器，在其namespace内协调HDFS的各种操作。这些操作包括获取数据块位置，列出目录及创建文件。NameNode接受HDFS的操作，将其视作RPC调用并置入FIFO调用队列，供读取线程处理。虽然FIFO在先到先服务的情况下足够公平，但如果用户执行的I/O操作较多，相比I/O操作较少的用户，将获得更多的服务。在这种情况下，FIFO有失公平并且会导致延迟增加。图1 基于FIFO调用队列的NameNode请求处理如果将FIFO队列替换为一种被称作FairCallQueue的新型队列，这种情况就能够得到改善。按照这种方法，FAIR队列会根据调用者的调用规模将传入的RPC调用分配至多个队列中。调度模块会跟踪最新的调用，并为调用量较小的用户分配更高的优先级。图2 基于FAIRCallQueue的NameNode请求处理

MapReduce服务 MRS
MapReduce服务 MRS-基于分区的任务黑名单异常如何处理:回答

回答当集群中有超过阈值的节点都被加入黑名单时，黑名单会释放这些节点，其中阈值为故障节点数与集群总节点数的比值。现在每个节点都有其标签表达式，黑名单阈值应根据有效节点标签表达式关联的节点数进行计算，其值为故障节点数与有效节点标签表达式关联的节点数的比值。假设集群中有100个节点，其中有10个节点为有效节点标签表达式关联的节点（labelA）。其中所有有效节点标签表达式关联的节点都已经故障，黑名单节点释放阈值默认值为0.33，按照传统的计算方式，10/100=0.1，远小于该阈值。这就造成这10个节点永远无法得到释放，Map&Reduce任务一直无法获取节点，应用程序无法正常运行。实际需要根据与Map&Reduce任务的有效节点关联的节点总数进行计算，即10/10=1，大于黑名单节点释放阈值，节点被释放。因此即使故障节点数与集群总节点数的比值没有超过阈值，也存在黑名单将这些节点释放的情况。

MapReduce服务 MRS
MapReduce服务 MRS-配置HDFS DiskBalancer磁盘均衡:配置描述

配置描述请参考修改集群服务配置参数，进入HDFS的“全部配置”页面，在搜索框中输入参数名称。表1 参数说明参数描述默认值 dfs.disk.balancer.auto.enabled 是否开启自动执行HDFS DiskBalancer特性。默认值为“false”，表示关闭该特性。 false dfs.disk.balancer.auto.cron.expression HDFS 磁盘均衡操作的CRON表达式，用于控制均衡操作的开始时间。仅当dfs.disk.balancer.auto.enabled设置为true时才有效。默认值“0 1 * * 6”表示在每周六的1点执行任务。表达式的具体含义可参见表2。 0 1 * * 6 dfs.disk.balancer.max.disk.throughputInMBperSec 执行磁盘数据均衡时可使用的最大磁盘带宽。单位为MB/s，默认值为10，可依据集群的实际磁盘条件设置。 10 dfs.disk.balancer.max.disk.errors 设置能够容忍的在指定的移动过程中出现的最大错误次数，超过此阈值则移动失败。 5 dfs.disk.balancer.block.tolerance.percent 设置磁盘之间进行数据均衡操作时，各个磁盘的数据存储量与理想状态之间的差异阈值。例如，各个磁盘的理想数据存储量为1TB，此参数设置为10。那么，当目标磁盘的数据存储量达到900GB时，就认为该磁盘的存储状态就已经足够好了。取值范围[1-100]。 10 dfs.disk.balancer.plan.threshold.percent 设置在磁盘数据均衡中可容忍的两磁盘之间的数据密度阈值差。如果任意两个磁盘数据密度差值的绝对值超过了此阈值，意味着对应的磁盘应该进行数据均衡。取值范围[1-100]。 10 dfs.disk.balancer.top.nodes.number 该参数用来指定集群中需要执行磁盘数据均衡的Top N 节点。 5 表2为HDFS磁盘均衡操作的CRON表达式。使用此功能时，需要先将参数dfs.disk.balancer.auto.enabled设置为true。其它参数依据集群状况设置。表2 CRON表达式解释列说明第1列分钟，参数值为0~59。第2列小时，参数值为0~23。第3列日期，参数值为1~31。第4列月份，参数值为1~12。第5列星期，参数值为0~6，0表示星期日。

MapReduce服务 MRS
MapReduce服务 MRS-配置DataNode预留磁盘百分比:配置场景

配置场景当Yarn本地目录和DataNode目录配置在同一个磁盘时，具有较大容量的磁盘可以运行更多的任务，因此将有更多的中间数据存储在Yarn本地目录。目前DataNode支持通过配置“dfs.datanode.du.reserved”来配置预留磁盘空间大小。配置较小的数值不能满足更大的磁盘要求。但对于更小的磁盘配置更大的数值将浪费大量的空间。为了避免这种情况，添加一个新的参数“dfs.datanode.du.reserved.percentage”来配置预留磁盘空间占总磁盘空间大小的百分比，那样可以基于总的磁盘空间来预留磁盘百分比。如果用户同时配置“dfs.datanode.du.reserved.percentage”和“dfs.datanode.du.reserved”，则采用这两个参数较大的数值作为DataNode的预留空间大小。建议基于磁盘空间设置“dfs.datanode.du.reserved”或者“dfs.datanode.du.reserved.percentage”。

MapReduce服务 MRS
MapReduce服务 MRS-删除大量文件后重启NameNode耗时长:回答

回答由于在删除了大量文件之后，DataNode需要时间去删除对应的Block。当立刻重启NameNode时，NameNode会去检查所有DataNode上报的Block信息，发现已删除的Block时，会输出对应的INFO日志信息，如下所示： 2015-06-10 19:25:50,215 | INFO | IPC Server handler 36 on 25000 | BLOCK* processReport: blk_1075861877_2121067 on node 10.91.8.218:9866 size 10249 does not belong to any file | org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.processReport(BlockManager.java:1854) 每一个被删除的Block会产生一条日志信息，一个文件可能会存在一个或多个Block。当删除的文件数过多时，NameNode会花大量的时间打印日志，然后导致NameNode启动慢。当出现这种现象时，您可以通过如下方式提升NameNode的启动速度。删除大量文件时，不要立刻重启NameNode，待DataNode删除了对应的Block后重启NameNode，即不会存在这种情况。您可以通过hdfs dfsadmin -report命令来查看磁盘空间，检查文件是否删除完毕。如已大量出现以上日志，您可以将NameNode的日志级别修改为ERROR，NameNode不会再打印此日志信息。等待NameNode启动完毕后，再将此日志级别修改为INFO。修改日志级别后无需重启服务。

MapReduce服务 MRS
MapReduce服务 MRS-配置NameNode黑名单功能:配置描述

配置描述请参考修改集群服务配置参数，进入HDFS的“全部配置”页面，在搜索框中输入参数名称。表1 NameNode blacklisting的相关参数参数描述默认值 dfs.client.failover.proxy.provider.[nameservice ID] 利用已通过的协议创建namenode代理的Client Failover proxy provider类。将参数值设置为“org.apache.hadoop.hdfs.server.namenode.ha.BlackListingFailoverProxyProvider”，可使用从NameNode支持读的特性。 org.apache.hadoop.hdfs.server.namenode.ha.AdaptiveFailoverProxyProvider

MapReduce服务 MRS
MapReduce服务 MRS-HDFS调用FileInputFormat的getsplit的时候出现数组越界:问题

问题 HDFS调用FileInputFormat的getSplit方法的时候，出现ArrayIndexOutOfBoundsException: 0，日志如下： java.lang.ArrayIndexOutOfBoundsException: 0at org.apache.hadoop.mapred.FileInputFormat.identifyHosts(FileInputFormat.java:708)at org.apache.hadoop.mapred.FileInputFormat.getSplitHostsAndCachedHosts(FileInputFormat.java:675)at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:359)at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:210)at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)at scala.Option.getOrElse(Option.scala:120)at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)

MapReduce服务 MRS
MapReduce服务 MRS-NameNode节点长时间满负载导致客户端无响应:回答

回答目前出现上述问题时使用的是默认配置，如表1所示，HDFS客户端到NameNode的RPC连接存在keep alive机制，保持连接不会超时，尽力等待服务器的响应，因此导致已经连接的HDFS客户端的操作会长时间无响应。对于已经长时间无响应的HDFS客户端，可以进行如下操作：等待NameNode响应，一旦NameNode所在节点的CPU利用率回落，NameNode可以重新获得CPU资源时，HDFS客户端即可得到响应。如果无法等待更长时间，需要重启HDFS客户端所在的应用程序进程，使得HDFS客户端重新连接空闲的NameNode。解决措施：为了避免该问题出现，可以在“客户端安装路径/HDFS/hadoop/etc/hadoop/core-site.xml”中做如下配置。表1 参数说明参数描述默认值 ipc.client.ping 当配置为true时，客户端会尽力等待服务端响应，定期发送ping消息，使得连接不会因为tcp timeout而断开。当配置为false时，客户端会使用配置项“ipc.ping.interval”对应的值，作为timeout时间，在该时间内没有得到响应，即会超时。在上述问题场景下，建议配置为false。 true ipc.ping.interval 当“ipc.client.ping”配置为true时，表示发送ping消息的周期。当“ipc.client.ping”设置为false时，表示连接的超时时间。在上述问题场景下，建议配置一个较大的超时时间，避免服务繁忙时的超时，建议配置为900000，单位为ms。 60000

MapReduce服务 MRS
MapReduce服务 MRS-如何在Hive自定义函数中操作本地文件:回答

回答默认情况下，可以在UDF中用文件的相对路径来操作文件，如下示例代码： public String evaluate(String text) { // some logic File file = new File("foo.txt"); // some logic // do return here} 在Hive中使用时，将UDF中用到的文件“foo.txt”上传到HDFS上，如上传到“hdfs://hacluster/tmp/foo.txt”，使用以下语句创建UDF，在UDF中就可以直接操作“foo.txt”文件了： create function testFunc as 'some.class' using jar 'hdfs://hacluster/somejar.jar', file 'hdfs://hacluster/tmp/foo.txt'; 例外情况下，如果“hive.fetch.task.conversion”参数的值为“more”，在UDF中不能再使用相对路径来操作文件，而要使用绝对路径，并且保证所有的HiveServer节点和NodeManager节点上该文件是存在的且omm用户对该文件有相应的权限，才能正常在UDF中操作本地文件。

MapReduce服务 MRS
MapReduce服务 MRS-为什么主NameNode重启后系统出现双备现象:回答

回答原因分析 NameNode的主节点重启后，之前在ZooKeeper上建立的临时节点（/hadoop-ha/hacluster/ActiveStandbyElectorLock）就会被清理。同时，NameNode备节点发现该信息后进行抢占希望升主，所以它重新在ZooKeeper上建立了active的节点/hadoop-ha/hacluster/ActiveStandbyElectorLock。但是NameNode备节点通过客户端（ZKFC）与ZooKeeper建立连接时，由于网络问题、CPU使用率高、集群压力大等原因，出现了客户端（ZKFC）的session（0x144cb2b3e4b36ae4）与ZooKeeper服务端的session（0x164cb2b3e4b36ae4）不一致的问题，导致NameNode备节点的watcher没有感知到自己已经成功建立临时节点，依然认为自己还是备。而NameNode主节点启动后，发现/hadoop-ha/hacluster目录下已经有active的节点，所以也无法升主，导致两个节点都为备。解决方法建议通过在 FusionInsight Manager界面上重启HDFS的两个ZKFC加以解决。

MapReduce服务 MRS
MapReduce服务 MRS-使用Oozie客户端提交Loader任务:操作步骤

操作步骤以客户端安装用户，登录安装Oozie客户端的节点。执行以下命令，获取安装环境信息。其中“/opt/client”为客户端安装路径，该操作的客户端目录只是举例，请根据实际安装目录修改。 source /opt/client/bigdata_env 判断集群认证模式。安全模式，执行kinit命令进行用户认证。例如，使用oozieuser用户进行认证。 kinit oozieuser 普通模式，执行4。执行以下命令，进入样例目录。 cd /opt/client/Oozie/oozie-client-*/examples/apps/sqoop/ 该目录下需关注文件如表1所示。表1 文件说明文件名称描述 job.properties 工作流的参数变量定义文件。 workflow.xml 工作流的规则定制文件。执行以下命令，编辑“job.properties”文件。 vi job.properties 修改如下内容：更改“userName”的参数值为提交任务的人机用户名，例如“userName=oozieuser”。执行以下命令，编辑“workflow.xml”文件。 vi workflow.xml 修改如下内容： “command”的值修改为需要调度的已有Loader作业ID，例如1。将“workflow.xml”文件上传至 "job.properties" 文件中的HDFS路径。 hdfs dfs -put -f workflow.xml /user/userName/examples/apps/sqoop 执行oozie job命令，运行工作流文件。 oozie job -oozie https://oozie角色的主机名:21003/oozie/ -config job.properties -run 命令参数解释如下： -oozie 实际执行任务的Oozie服务器URL -config 工作流属性文件 -run 运行工作流执行完工作流文件，显示job id表示提交成功，例如：job: 0000021-140222101051722-oozie-omm-W。登录Oozie管理页面，查看运行情况。使用oozieuser用户，登录Oozie WebUI页面：https://oozie角色的ip地址:21003/oozie 。 Oozie的WebUI界面中，可在页面表格根据jobid查看已提交的工作流信息。

MapReduce服务 MRS
MapReduce服务 MRS-Loader常用参数:参数说明

参数说明表1 Loader常用参数配置参数说明默认值范围 mapreduce.client.submit.file.replication MapReduce任务在运行时依赖的相关job文件在HDFS上的副本数。当集群中DataNode个数小于该参数值时，副本数等于DataNode的个数。当DataNode个数大于或等于该参数值，副本数为该参数值。 10 3～256 loader.fault.tolerance.rate 容错率。值大于0时使能容错机制。使能容错机制时建议将作业的Map数设置为大于等于3，推荐在作业数据量大的场景下使用。 0 0～1.0 loader.input.field.separator 默认的输入字段分隔符，需要配置输入与输出转换步骤才生效，转换步骤的内容可以为空；如果作业的转换步骤中没有配置分隔符，则以此处的默认分隔符为准。 , - loader.input.line.separator 默认的输入行分隔符，需要配置输入与输出转换步骤才生效，转换步骤的内容可以为空；如果作业的转换步骤中没有配置分隔符，则以此处的默认分隔符为准。 - - loader.output.field.separator 默认的输出字段分隔符，需要配置输入与输出转换步骤才生效，转换步骤的内容可以为空；如果作业的转换步骤中没有配置分隔符，则以此处的默认分隔符为准。 , - loader.output.line.separator Loader输出数据的行分隔符。 - - 由于容错率的统计需要时间，为保证使用效果，建议在作业运行时间在2分钟以上时使用“loader.fault.tolerance.rate”参数。此处参数设置的为Loader全局的默认分隔符，如果作业的转换步骤中配置了分隔符，则以转换步骤为准，转换步骤中没有配置分隔符则以此处的默认分隔符为准。

MapReduce服务 MRS Loader运维管理
MapReduce服务 MRS-有210000个map和10000个reduce的HBase BulkLoad任务运行失败:回答

回答 ZooKeeper IO瓶颈观测手段：通过Manager的监控页面查看单个节点上ZooKeeper请求监控，判断是否严重超出规格限制。通过观测ZooKeeper的日志以及HBase的日志，查看是否有大量的IO Exception Timeout或者SocketTimeout Exception异常。调优建议：将ZooKeeper实例个数调整为5个及以上，可以通过设置peerType=observer来增加observer的数目。通过控制单个任务并发的map数或减少每个节点下运行task的内存，降低节点负载。升级ZooKeeper数据磁盘，如SSD等。

MapReduce服务 MRS
MapReduce服务 MRS-客户端查询HBase出现SocketTimeoutException异常:问题

问题使用HBase客户端操作表数据的时候客户端出现类似如下异常： 2015-12-15 02:41:14,054 | WARN | [task-result-getter-2] | Lost task 2.0 in stage 58.0 (TID 3288, linux-175): org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=36, exceptions:Tue Dec 15 02:41:14 CS T 2015, null, java.net.SocketTimeoutException: callTimeout=60000, callDuration=60303: row 'xxxxxx' on table 'xxxxxx' at region=xxxxxx,\x05\x1E\x80\x00\x00\x00\x80\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00\x00\x00\x00\x00\x000\x00\x80\x00\x00\x00\x80\x00\x00\x00\x80\x00\x00,1449912620868.6a6b7d0c272803d8186930a3bfdb10a9., hostname=xxxxxx,16020,1449941841479, seqNum=5at org.apache.hadoop.hbase.client.RpcRetryingCallerWithReadReplicas.throwEnrichedException(RpcRetryingCallerWithReadReplicas.java:275)at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas.call(ScannerCallableWithReplicas.java:223)at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas.call(ScannerCallableWithReplicas.java:61)at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithoutRetries(RpcRetryingCaller.java:200)at org.apache.hadoop.hbase.client.ClientScanner.call(ClientScanner.java:323)

MapReduce服务 MRS
MapReduce服务 MRS-使用HBase BulkLoad功能提示权限不足如何处理:回答

回答创建租户的时候需要关联HBase服务和Yarn队列。例如：新建用户user并绑定租户同名的角色。用户user需要使用bulkload功能还需要额外权限。以下以用户user为例：参见“批量导入数据”章节举例，以下是一些差异点。将数据文件目录建在“/tmp”目录下，执行以下命令： hdfs dfs -mkdir /tmp/datadirImport hdfs dfs -put data.txt /tmp/datadirImport 生成HFile的时候使用HDFS的“/tmp”目录： hbase com.huawei.hadoop.hbase.tools.bulkload.ImportData -Dimport.skip.bad.lines=true -Dimport.separator=',' -Dimport.bad.lines.output=/tmp/badline -Dimport.hfile.output=/tmp/hfile configuration.xml ImportTable /tmp/datadirImport 导入HFile的时候使用HDFS的“/tmp”目录： hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /tmp/hfile ImportTable

MapReduce服务 MRS
MapReduce服务 MRS-客户端查询HBase出现SocketTimeoutException异常:回答

回答出现该问题的主要原因为RegionServer分配的内存过小、Region数量过大导致在运行过程中内存不足，服务端对客户端的响应过慢。在RegionServer的配置文件“hbase-site.xml”中需要调整如下对应的内存分配参数。表1 RegionServer内存调整参数参数描述默认值 GC_OPTS 在启动参数中给RegionServer分配的初始内存和最大内存。 -Xms8G -Xmx8G hfile.block.cache.size 分配给HFile/StoreFile所使用的块缓存的最大heap（-Xmx setting）的百分比。当offheap关闭时，默认值为0.25。当offheap开启时，默认值是0.1。

MapReduce服务 MRS
MapReduce服务 MRS-使用Oozie客户端提交Loader任务:前提条件

前提条件 Loader和Oozie组件及客户端已经安装，并且正常运行。已创建或获取访问Oozie服务的人机用户账号及密码。该用户需要从属于hadoop、supergroup、hive组，同时添加Oozie的角色操作权限。如果使用Hive多实例，该用户还需要从属于具体的Hive实例组，如hive3。用户同时还需要至少有manager_viewer权限的角色。获取运行状态的Oozie服务器（任意实例）URL，如“https://10.1.130.10:21003/oozie”。获取运行状态的Oozie服务器主机名，如“10-1-130-10”。获取Yarn ResourceManager主节点IP，如10.1.130.11。创建需要调度的Loader作业，并获取该作业ID。

MapReduce服务 MRS
MapReduce服务 MRS-为什么存储小文件过程中，缓存中的数据会丢失:回答

回答由于断电，当写操作完成之后，缓存中的block不会立即被写入磁盘，如果要同步地将缓存的block写入磁盘，用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site.xml”中的“dfs.datanode.synconclose”设置为“true”。默认情况下，“dfs.datanode.synconclose”为“false”，虽然性能很高，但是断电之后，存储在缓存中的数据会丢失。将“dfs.datanode.synconclose”设置为“true”，可以解决此问题，但对性能有很大影响。请根据具体的应用场景决定是否开启该参数。

MapReduce服务 MRS
MapReduce服务 MRS-是否可以手动调整DataNode数据存储目录:回答

回答 “dfs.datanode.data.dir”配置项用于指定数据块在DataNode上的存储目录，在系统安装时需要指定根目录，并且可以指定多个根目录。请谨慎修改该配置项，可以添加新的数据根目录。禁止删除原有存储目录，否则会造成数据块丢失，导致文件无法正常读写。禁止手动删除或修改存储目录下的数据块，否则可能会造成数据块丢失。 NameNode和JournalNode存在类似的配置项，也同样禁止删除原有存储目录，禁止手动删除或修改存储目录下的数据块。 dfs.namenode.edits.dir dfs.namenode.name.dir dfs.journalnode.edits.dir

MapReduce服务 MRS
MapReduce服务 MRS-优化HDFS DataNode RPC的服务质量:配置步骤

配置步骤 MRS引入配置参数“dfs.pipeline.ecn”。当该配置启用时，DataNode会在写入通道超出负荷时从其中发出信号。客户端可以基于该阻塞信号进行退避，从而防止系统超出负荷。引入该配置参数的目的是为了使通道更加稳定，并减少不必要的取消或恢复操作。收到信号后，客户端会退避一定的时间（5000ms），然后根据相关过滤器调整退避时间（单次退避最长时间为50000ms）。请参考修改集群服务配置参数，进入HDFS的“全部配置”页面，在搜索框中输入参数名称。表1 NameNode ECN配置参数描述缺省值 dfs.pipeline.ecn 进行该配置后，DataNode能够向客户端发送阻塞通知。 false

MapReduce服务 MRS
MapReduce服务 MRS-ResourceManager进行主备切换后，任务中断后运行时间过长:回答

回答因为ResourceManager HA已启用，但是Work-preserving RM restart功能未启用。如果Work-preserving RM restart功能未启用，ResourceManager切换时container会被kill，然后导致Application Master超时。Work-preserving RM restart功能介绍请参见： MRS 3.2.0之前版本：http://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/ResourceManagerRestart.html MRS 3.2.0及之后版本：https://hadoop.apache.org/docs/r3.3.1/hadoop-yarn/hadoop-yarn-site/ResourceManagerRestart.html

MapReduce服务 MRS
MapReduce服务 MRS-开发和部署对接HetuEngine的Hive UDF:配置Hive UDF

配置Hive UDF 用户通过在配置文件“udf.properties”中添加注册信息来注册Hive UDF，需按“函数名称类路径”格式添加每一行内容：以“udf.properties” 为例，已明确要注册的四个Hive UDF： booleanudf io.hetu.core.hive.dynamicfunctions.examples.udf.BooleanUDFshortudf io.hetu.core.hive.dynamicfunctions.examples.udf.ShortUDFbyteudf io.hetu.core.hive.dynamicfunctions.examples.udf.ByteUDFintudf io.hetu.core.hive.dynamicfunctions.examples.udf.IntUDF 如果用户添加的Hive UDF注册信息有误，比如错误的格式或者不存在的类路径，系统将忽略这些错误的注册信息，并打印相应日志。如果用户注册重复的Hive UDF，系统将只注册一次，并忽略重复的注册。如果用户注册的Hive UDF与系统内部注册的相同，系统将会发生异常并无法正常启动。解决该异常需要用户删除对应的Hive UDF注册信息。

MapReduce服务 MRS
MapReduce服务 MRS-MapReduce任务运行失败，ApplicationMaster出现物理内存溢出异常:回答

回答这是性能规格的问题，MapReduce任务运行失败的根本原因是由于ApplicationMaster的内存溢出导致的，即物理内存溢出导致被NodeManager kill。解决方案：将ApplicationMaster的内存配置调大，在客户端“客户端安装路径/Yarn/config/mapred-site.xml”配置文件中优化如下参数： “yarn.app.mapreduce.am.resource.mb” “yarn.app.mapreduce.am.command-opts”，该参数中-Xmx值建议为0.8*“yarn.app.mapreduce.am.resource.mb”

MapReduce服务 MRS
MapReduce服务 MRS-使用HBase BulkLoad导入数据成功，执行相同的查询时却返回不同的结果:回答

回答正常情况下，相同rowkey值的数据加载到HBase是有先后顺序的，HBase以最近的时间戳的数据为最新数据，一般的默认查询中，没有指定时间戳的，就会对相同rowkey值的数据仅返回最新数据。使用bulkload加载数据，由于数据在内存中处理生成HFile，速度是很快的，很可能出现相同rowkey值的数据具有相同时间戳，从而造成查询结果混乱的情况。建议在建表和数据加载时，设计好rowkey值，尽量避免在同一个数据文件中存在相同rowkey值的情况。

MapReduce服务 MRS
MapReduce服务 MRS-访问HBase Phoenix提示权限不足如何处理:回答

回答创建租户的时候需要关联HBase服务和Yarn队列。租户要操作Phoenix还需要额外操作的权限，即Phoenix系统表的RWX权限。例如：创建好的租户为hbase，使用admin用户登录hbase shell，执行scan 'hbase:acl'命令查询租户对应的角色为hbase_1450761169920（格式为：租户名_时间戳）。执行以下命令进行授权（如果还没有生成Phoenix系统表，请用admin用户登录Phoenix客户端后再回到hbase shell里授权）： grant '@hbase_1450761169920','RWX','SYSTEM.CATA LOG ' grant '@hbase_1450761169920','RWX','SYSTEM.FUNCTION' grant '@hbase_1450761169920','RWX','SYSTEM.SEQUENCE' grant '@hbase_1450761169920','RWX','SYSTEM.STATS' 新建用户phoenix并绑定租户hbase，该用户phoenix就可以用来访问Phoenix客户端。

MapReduce服务 MRS
MapReduce服务 MRS-使用Oozie客户端提交其他任务:前提条件

前提条件 Oozie组件及客户端已经安装，并且正常运行。已创建或获取访问Oozie服务的人机用户账号及密码。 Shell任务：该用户需要从属于hadoop、supergroup组，添加Oozie的角色操作权限，并确保Shell脚本在每个nodemanager节点都有执行权限。 SSH任务：该用户需要从属于hadoop、supergroup组，添加Oozie的角色操作权限，并完成互信配置。其他任务：该用户需要从属于hadoop、supergroup组，添加Oozie的角色操作权限，并具备对应任务类型所需的权限。用户同时还需要至少manager_viewer权限的角色。获取运行状态的Oozie服务器（任意实例）URL，如“https://10.1.130.10:21003/oozie”。获取运行状态的Oozie服务器主机名，如“10-1-130-10”。获取Yarn ResourceManager主节点IP，如10.1.130.11。

MapReduce服务 MRS
MapReduce服务 MRS-使用Oozie客户端提交其他任务:操作步骤

操作步骤以客户端安装用户，登录安装Oozie客户端的节点。执行以下命令，获取安装环境信息。其中“/opt/client”为客户端安装路径，该操作的客户端目录只是举例，请根据实际安装目录修改。 source /opt/client/bigdata_env 判断集群认证模式。安全模式，执行kinit命令进行用户认证。例如，使用oozieuser用户进行认证。 kinit oozieuser 普通模式，执行4。根据提交任务类型，进入对应样例目录。表1 样例目录列表任务类型样例目录 Mapreduce任务客户端安装目录/Oozie/oozie-client-*/examples/apps/map-reduce Java任务客户端安装目录/Oozie/oozie-client-*/examples/apps/java-main Shell任务客户端安装目录/Oozie/oozie-client-*/examples/apps/shell Streaming任务客户端安装目录/Oozie/oozie-client-*/examples/apps/streaming SubWorkflow任务客户端安装目录/Oozie/oozie-client-*/examples/apps/subwf SSH任务客户端安装目录/Oozie/oozie-client-*/examples/apps/ssh 定时任务客户端安装目录/Oozie/oozie-client-*/examples/apps/cron 其他任务样例中已包含HDFS任务样例。样例目录下需关注文件如表2所示。表2 文件说明文件名称描述 job.properties 工作流的参数变量定义文件。 workflow.xml 工作流的规则定制文件。 lib 工作流运行依赖的jar包目录。 coordinator.xml “cron”目录下存在，定时任务配置文件，用于设置定时策略。 oozie_shell.sh “shell”目录下存在，提交Shell任务需要的Shell脚本文件。执行以下命令，编辑“job.properties”文件。 vi job.properties 修改如下内容：更改“userName”的参数值为提交任务的人机用户名，例如“userName=oozieuser”。执行oozie job命令，运行工作流文件。 oozie job -oozie https://oozie角色的主机名:21003/oozie -config job.properties文件所在路径 -run 例如： oozie job -oozie https://10-1-130-10:21003/oozie -config /opt/client/Oozie/oozie-client-*/examples/apps/map-reduce/job.properties -run 命令参数解释如下： -oozie 实际执行任务的Oozie服务器URL -config 工作流属性文件 -run 运行工作流执行完工作流文件，显示job id表示提交成功，例如：job: 0000021-140222101051722-oozie-omm-W。登录Oozie管理页面，查看运行情况。使用oozieuser用户，登录Oozie WebUI页面：https://oozie角色的ip地址:21003/oozie 。 Oozie的WebUI界面中，可在页面表格根据jobid查看已提交的工作流信息。

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！