华为云用户手册

MapReduce服务 MRS-设置HBase和HDFS的句柄数限制:设置HBase和HDFS的句柄数限制

设置HBase和HDFS的句柄数限制联系集群管理员增加各用户的句柄数。该配置为操作系统的配置，并非HBase或者HDFS的配置。建议集群管理员根据HBase和HDFS的业务量及各操作系统用户的权限进行句柄数设置。如果某一个用户需对业务量很大的HDFS进行很频繁且很多的操作，则为此用户设置较大的句柄数，避免出现以上错误。使用root用户登录集群所有节点机器或者客户端机器的操作系统，并进入“/etc/security”目录。执行如下命令编辑“limits.conf”文件。 vi limits.conf 新增如下内容： hdfs - nofile 32768 hbase - nofile 32768 其中“hdfs”和“hbase”表示业务中用到的操作系统用户名称。只有root用户有权限编辑“limits.conf”文件。如果修改的配置不生效，请确认“/etc/security/limits.d”目录下是否有针对操作系统用户的其他nofile值。这样的值可能会覆盖“/etc/security/limits.conf”中配置的值。如果用户需要对HBase进行操作，建议将该用户的句柄数设置为“10000”以上。如果用户需要对HDFS进行操作，建议根据业务量大小设置对应的句柄数，建议不要给太小的值。如果用户需要对HBase和HDFS操作，建议设置较大的值，例如“32768”。使用如下命令查看某一用户的句柄数限制。 su - user_name ulimit -n 界面会返回此用户的句柄数限制值。如下所示： 8194

MapReduce服务 MRS
MapReduce服务 MRS-HDFS日志介绍:日志级别

日志级别 HDFS中提供了如表2所示的日志级别，日志级别优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG，程序会打印高于或等于所设置级别的日志，设置的日志等级越高，打印出来的日志就越少。表2 日志级别级别描述 FATAL FATAL表示系统运行的致命错误信息。 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示系统及各事件正常运行状态信息。 DEBUG DEBUG表示系统及系统调试信息。如果您需要修改日志级别，请执行如下操作：请参考修改集群服务配置参数，进入HDFS的“全部配置”页面。左边菜单栏中选择所需修改的角色所对应的日志菜单。选择所需修改的日志级别。保存配置，在弹出窗口中单击“确定”使配置生效。配置完成后立即生效，不需要重启服务。

MapReduce服务 MRS
MapReduce服务 MRS-配置MapReduce集群管理员列表:配置描述

配置描述进入Mapreduce服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。表1 参数描述参数描述默认值 mapreduce.cluster.acls.enabled 是否开启对Job History Server权限控制的开关。 true mapreduce.cluster.administrators 用于指定MapReduce集群管理员列表，可以配置用户和用户组，用户或者用户组之间用逗号间隔，用户和用户组之间用空格间隔，举例：userA,userB groupA,groupB。当配置为*时表示所有用户或用户组。 mapred supergroup,System_administrator_186

MapReduce服务 MRS
MapReduce服务 MRS-MapReduce任务commit阶段优化:操作步骤

操作步骤参数入口：进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。表1 参数说明参数描述默认值 mapreduce.fileoutputcommitter.algorithm.version 用于指定Job的最终输出文件提交的算法版本，取值为“1”或“2”。说明：版本2为建议的优化算法版本。该算法通过让任务直接将每个task的输出结果提交到最终的结果输出目录，从而减少大作业的输出提交时间。 2

MapReduce服务 MRS
MapReduce服务 MRS-配置Yarn权限控制开关:配置描述

配置描述查看Yarn服务配置参数参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入表1中参数名称。表1 参数描述参数描述默认值 yarn.acl.enable Yarn权限控制启用开关。 true yarn.webapp.filter-entity-list-by-user 严格视图启用开关，开启后，登录用户只能查看该用户有权限查看的内容。当要开启该功能时，同时需要设置参数“yarn.acl.enable”为true。 true 查看Mapreduce服务配置参数参考修改集群服务配置参数进入Mapreduce服务参数“全部配置”界面，在搜索框中输入表2中参数名称。表2 参数描述参数描述默认值 mapreduce.cluster.acls.enabled MR JobHistoryServer权限控制启用开关。该参数为客户端参数，当JobHistoryServer服务端开启权限控制之后该参数生效。 true yarn.webapp.filter-entity-list-by-user MR JobHistoryServer严格视图启用开关，开启后，登录用户只能查看该用户有权限查看的内容。该参数为JobHistoryServer的服务端参数，表示JHS开启了权限控制，但是否要对某一个特定的Application进行控制，是由客户端参数：“mapreduce.cluster.acls.enabled”决定。 true 以上配置会影响restful API和shell命令结果，即以上配置开启后，restful API调用和shell命令运行所返回的内容只包含调用用户有权查看的信息。当yarn.acl.enable或mapreduce.cluster.acls.enabled设置为false时，即关闭Yarn或Mapreduce的权限校验功能。此时任何用户都可以在Yarn或MapReduce上提交任务和查看任务信息，存在安全风险，请谨慎使用。

MapReduce服务 MRS
MapReduce服务 MRS-MapReduce任务commit阶段优化:操作场景

操作场景默认情况下，如果一个MR任务会产生大量的输出结果文件，那么该job在最后的commit阶段，会耗费较长的时间将每个task的临时输出结果commit到最终的结果输出目录。特别是在大集群中，大Job的commit过程会严重影响任务的性能表现。针对以上情况，可以通过将以下参数“mapreduce.fileoutputcommitter.algorithm.version”配置为“2”，来提升MR Job commit阶段的性能。

MapReduce服务 MRS
MapReduce服务 MRS-通过Slow Start调优MapReduce任务:操作场景

操作场景 Slow Start特性指定Map任务完成度为多少时Reduce任务可以启动，过早启动Reduce任务会导致资源占用，影响任务运行效率，但适当的提早启动Reduce任务会提高Shuffle阶段的资源利用率，提高任务运行效率。例如：某集群可启动10个Map任务，MapReduce作业共15个Map任务，那么在一轮Map任务执行完成后只剩5个Map任务，集群还有剩余资源，在这种场景下，配置Slow Start参数值小于1，比如0.8，则Reduce就可以利用集群剩余资源。

MapReduce服务 MRS
MapReduce服务 MRS-配置ResourceManager重启后自动加载Container信息:配置场景

配置场景 YARN Restart特性包含两部分内容：ResourceManager Restart和NodeManager Restart。当启用ResourceManager Restart时，升主后的ResourceManager就可以通过加载之前的主ResourceManager的状态信息，并通过接收所有NodeManager上container的状态信息，重构运行状态继续执行。这样应用程序通过定期执行检查点操作保存当前状态信息，就可以避免工作内容的丢失。当启用NodeManager Restart时，NodeManager在本地保存当前节点上运行的container信息，重启NodeManager服务后通过恢复此前保存的状态信息，就不会丢失在此节点上运行的container进度。

MapReduce服务 MRS
MapReduce服务 MRS-配置ResourceManager重启后自动加载Container信息:配置描述

配置描述参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。 ResourceManager Restart特性配置如下。表1 ResourceManager Restart参数配置参数描述默认值 yarn.resourcemanager.recovery.enabled 设置是否让ResourceManager在启动后恢复状态。如果设置为true，那yarn.resourcemanager.store.class也必须设置。 true yarn.resourcemanager.store.class 指定用于保存应用程序和任务状态以及证书内容的state-store类。 org.apache.hadoop.yarn.server.resourcemanager.recovery.AsyncZK RMS tateStore yarn.resourcemanager.zk-state-store.parent-path ZKRMStateStore在ZooKeeper上的保存目录。 /rmstore yarn.resourcemanager.work-preserving-recovery.enabled 启用ResourceManager Work preserving功能。该配置仅用于YARN特性验证。 true yarn.resourcemanager.state-store.async.load 对已完成的application采用ResourceManager异步恢复方式。 true yarn.resourcemanager.zk-state-store.num-fetch-threads 启用异步恢复功能，增加工作线程的数量可以加快恢复ZK中保存的任务信息的速度，取值范围大于0。 20 NodeManager Restart特性配置如下。表2 NodeManager Restart参数配置参数描述默认值 yarn.nodemanager.recovery.enabled 当Nodemanager重启时是否启用日志失败收集功能，是否恢复未完成的Application。 true yarn.nodemanager.recovery.dir NodeManager用于保存container状态的本地目录。 ${SRV_HOME}/tmp/yarn-nm-recovery yarn.nodemanager.recovery.supervised NodeManager是否在监控下运行。开启此特性后NodeManager在退出后不会清理containers，NodeManager会假设自己会立即重启和恢复containers。 true

MapReduce服务 MRS
MapReduce服务 MRS-HDFS网络不稳定场景调优:配置描述

配置描述请参考修改集群服务配置参数，进入HDFS的“全部配置”页面，在搜索框中输入参数名称。表1 参数说明参数描述默认值 ha.health-monitor.rpc-timeout.ms zkfc对NameNode健康状态检查的超时时间。增大该参数值，可以防止出现双Active NameNode，降低客户端应用运行异常的概率。单位：毫秒。取值范围：30000~3600000 180000 ipc.client.connect.max.retries.on.timeouts 客户端与服务端建立Socket连接超时时，客户端的重试次数。取值范围：1~256 45 ipc.client.connect.timeout 客户端与服务端建立socket连接的超时时间。增大该参数值，可以增加建立连接的超时时间。单位：毫秒。取值范围：1~3600000 20000

MapReduce服务 MRS
MapReduce服务 MRS-启用Yarn CGroups功能限制Container CPU使用率:配置描述

配置描述有关如何配置CPU隔离与安全的CGroups功能的详细信息，请参见Hadoop官网： MRS 3.2.0之前版本：http://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html MRS 3.2.0及之后版本：https://hadoop.apache.org/docs/r3.3.1/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html 由于CGroups为Linux内核特性，是通过LinuxContainerExecutor进行开放。请参考官网资料对LinuxContainerExecutor进行安全配置。您可通过官网资料了解系统用户和用户组配置对应的文件系统权限。详情请参见： MRS 3.2.0之前版本：http://hadoop.apache.org/docs/r3.1.1/hadoop-project-dist/hadoop-common/SecureMode.html#LinuxContainerExecutor MRS 3.2.0及之后版本：https://hadoop.apache.org/docs/r3.3.1/hadoop-project-dist/hadoop-common/SecureMode.html#LinuxContainerExecutor 请勿修改对应文件系统中各路径所属的用户、用户组及对应的权限，否则可能导致本功能异常。当参数“yarn.nodemanager.resource.percentage-physical-cpu-limit”配置过小，导致可使用的核不足1个时，例如4核节点，将此参数设置为20%，不足1个核，那么将会使用系统全部的核。Linux的一些版本不支持Quota模式，例如Cent OS。在这种情况下，可以使用CPUset模式。配置cpuset模式，即YARN只能使用配置的CPU，需要添加以下配置。表1 cpuset配置参数描述默认值 yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage 设置为“true”时，应用以cpuset模式运行。 false 配置strictcpuset模式，即container只能使用配置的CPU，需要添加以下配置。表2 CPU硬隔离参数配置参数描述默认值 yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage 设置为“true”时，应用以cpuset模式运行。 false yarn.nodemanager.linux-container-executor.cgroups.cpuset.strict.enabled 设置为true时，container只能使用配置的CPU。 false 要从cpuset模式切换到Quota模式，必须遵循以下条件：配置“yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage”=“false”。删除“/sys/fs/cgroup/cpuset/hadoop-yarn/”路径下container文件夹（如果存在）。删除“/sys/fs/cgroup/cpuset/hadoop-yarn/”路径下cpuset.cpus文件中设置的所有CPU。

MapReduce服务 MRS
MapReduce服务 MRS-调整Yarn任务抢占机制:操作步骤

操作步骤参数入口：参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。表1 Preemption配置参数描述默认值 yarn.resourcemanager.scheduler.monitor.enable 根据“yarn.resourcemanager.scheduler.monitor.policies”中的策略，启用新的scheduler监控。设置为“true”表示启用监控，并根据scheduler的信息，启动抢占的功能。设置为“false”表示不启用。 false yarn.resourcemanager.scheduler.monitor.policies 设置与scheduler配合的“SchedulingEditPolicy”的类的清单。 org.apache.hadoop.yarn.server.resourcemanager.monitor.capacity.ProportionalCapacityPreemptionPolicy yarn.resourcemanager.monitor.capacity.preemption.observe_only 设置为“true”，则执行策略，但是不对集群资源进程抢占操作。设置为“false”，则执行策略，且根据策略启用集群资源抢占的功能。 false yarn.resourcemanager.monitor.capacity.preemption.monitoring_interval 根据策略监控的时间间隔，单位为毫秒。如果将该参数设置为更大的值，容量检测将不那么频繁地运行。 3000 yarn.resourcemanager.monitor.capacity.preemption.max_wait_before_kill 应用发送抢占需求到停止container（释放资源）的时间间隔，单位为毫秒。取值范围大于等于0。默认情况下，如果ApplicationMaster15秒内没有终止container，ResourceManager等待15秒后会强制终止。 15000 yarn.resourcemanager.monitor.capacity.preemption.total_preemption_per_round 在一个周期内能够抢占资源的最大的比例。可使用这个值来限制从集群回收容器的速度。计算出了期望的总抢占值之后，策略会伸缩回这个限制。 0.1 yarn.resourcemanager.monitor.capacity.preemption.max_ignored_over_capacity 集群中资源总量乘以此配置项的值加上某个队列（例如队列A）原有的资源量为资源抢占盲区。当队列A中的任务实际使用的资源超过该抢占盲区时，超过部分的资源将会被抢占。取值范围：0~1。说明：设置的值越小越有利于资源抢占。 0 yarn.resourcemanager.monitor.capacity.preemption.natural_termination_factor 设置抢占目标，Container只会抢占所配置比例的资源。示例，如果设置为0.5，则在5*“yarn.resourcemanager.monitor.capacity.preemption.max_wait_before_kill”的时间内，任务会回收所抢占资源的近95%。即接连抢占5次，每次抢占待抢占资源的0.5，呈几何收敛，每次的时间间隔为“yarn.resourcemanager.monitor.capacity.preemption.max_wait_before_kill”。取值范围：0~1。 1 ss.engine.scheduler.preemption-enable 是否开启Superior调度器抢占。 false ss.engine.scheduler.preemption-interval-ms 触发抢占的最短时间间隔（即抢占周期），单位：毫秒。 3000 ss.engine.scheduler.preemption-max-per-interval 在一个抢占周期内能抢占Yarn容器的最大数量。默认值为-1，即无限制。 -1 ss.engine.scheduler.preemption-warn-period-ms 通知Application Master要被抢占的时间。如果被通知的Application Master在这个时间内未释放借到的资源，那么使用这部分资源运行的Yarn容器会被Resource Manager强制终止。单位：毫秒。 10000

MapReduce服务 MRS
MapReduce服务 MRS-配置HDFS文件回收站机制:配置描述

配置描述参数入口：请参考修改集群服务配置参数，进入HDFS的“全部配置”页面，在搜索框中输入参数名称。表1 参数说明参数描述默认值 fs.trash.interval 以分钟为单位的垃圾回收时间，垃圾站中数据超过此时间，会被删除。取值范围：1440～259200。 1440 fs.trash.checkpoint.interval 垃圾检查点间的间隔。单位：分钟。应小于等于“fs.trash.interval”的值。检查点程序每次运行时都会创建一个新的检查点并会移除fs.trash.interval分钟前创建的检查点。例如，系统每10分钟检测是否存在老化文件，如果发现有老化文件，则删除。对于未老化文件，则会存储在checkpoint列表中，等待下一次检查。如果此参数的值设置为0，则表示系统不会检查老化文件，所有老化文件会被保存在系统中。取值范围：0～fs.trash.interval。说明：不推荐将此参数值设置为0，这样系统的老化文件会一直存储下去，导致集群的磁盘空间不足。 60

MapReduce服务 MRS
MapReduce服务 MRS-配置使用分布式缓存执行MapReduce任务:配置场景

配置场景本章节操作适用于MRS 3.x及之后版本。分布式缓存在两种情况下非常有用。滚动升级在升级过程中，应用程序必须保持文字内容（jar文件或配置文件）不变。而这些内容并非基于当前版本的Yarn，而是要基于其提交时的版本。一般情况下，应用程序（例如MapReduce、Hive、Tez等）需要进行完整的本地安装，将库安装至所有的集群机器（客户端及服务器端机器）中。当集群内开始进行滚动升级或降级时，本地安装的库的版本必然会在应用运行过程时发生改变。在滚动升级过程中，首先只会对少数NodeManager进行升级，这些NodeManager会获得新版本的软件。这导致了行为的不一致，并可能发生运行时错误。同时存在多个Yarn版本集群管理员可能会在一个集群内运行使用多个版本Yarn及Hadoop jars的任务。这在当前很难实现，因为jars已被本地化且只有一个版本。 MapReduce应用框架可以通过分布式缓存进行部署，且无需依赖安装中复制的静态版本。因此，可以在HDFS中存放多版本的Hadoop，并通过配置“mapred-site.xml”文件指定任务默认使用的版本。只需设置适当的配置属性，用户就可以运行不同版本的MapReduce，而无需使用部署在集群中的版本。图1 具有多个版本NodeManagers及Applications的集群在图1中：可以看出，应用程序可以使用HDFS中的Hadoop jars，而无需使用本地版本。因此在滚动升级中，即使NodeManager已经升级，应用程序仍然可以运行旧版本的Hadoop。

MapReduce服务 MRS
MapReduce服务 MRS-多CPU内核下MapReduce调优配置:操作步骤

操作步骤以下参数有如下两个配置入口：服务器端配置进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。客户端配置直接在客户端中修改相应的配置文件。 HDFS客户端配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/hdfs-site.xml。 Yarn客户端配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/yarn-site.xml。 MapReduce客户端配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。表1 多CPU内核设置配置描述参数默认值 Server/Client 影响备注节点容器槽位数如下配置组合决定了每节点任务(map、reduce)的并发数。 “yarn.nodemanager.resource.memory-mb” “mapreduce.map.memory.mb” “mapreduce.reduce.memory.mb” yarn.nodemanager.resource.memory-mb 说明：需要在 FusionInsight Manager系统进行配置。 16384 Server 如果所有的任务(map/reduce)需要读写数据至磁盘，多个进程将会同时访问一个磁盘。这将会导致磁盘的IO性能非常低下。为了改善磁盘的性能，请确保客户端并发访问磁盘的数不大于3。最大并发的container数量应该为[2.5 * Hadoop中磁盘配置数 ]。 mapreduce.map.memory.mb 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。 4096 Client mapreduce.reduce.memory.mb 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。 4096 Client Map输出与压缩 Map任务所产生的输出可以在写入磁盘之前被压缩，这样可以节约磁盘空间并得到更快的写盘速度，同时可以减少至Reducer的数据传输量。需要在客户端进行配置。 mapreduce.map.output.compress指定了Map任务输出结果可以在网络传输前被压缩。这是一个per-job的配置。 mapreduce.map.output.compress.codec指定用于压缩的编解码器。 mapreduce.map.output.compress 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。 true Client 在这种情况下，磁盘的IO是主要瓶颈。所以可以选择一种压缩率非常高的压缩算法。编解码器可配置为Snappy，Benchmark测试结果显示Snappy是非常平衡以及高效的编码器。 mapreduce.map.output.compress.codec 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。 org.apache.hadoop.io.compress.Lz4Codec Client Spills mapreduce.map.sort.spill.percent mapreduce.map.sort.spill.percent 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。 0.8 Client 磁盘IO是主要瓶颈，合理配置“mapreduce.task.io.sort.mb”可以使溢出至磁盘的内容最小化。 - 数据包大小当HDFS客户端写数据至数据节点时，数据会被累积，直到形成一个包。然后这个数据包会通过网络传输。dfs.client-write-packet-size配置项可以指定该数据包的大小。这个可以通过每个job进行指定。 dfs.client-write-packet-size 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/hdfs-site.xml。 262144 Client 数据节点从HDFS客户端接收数据包，然后将数据包里的数据单线程写入磁盘。当磁盘处于并发写入状态时，增加数据包的大小可以减少磁盘寻道时间，从而提升IO性能。 dfs.client-write-packet-size = 262144

MapReduce服务 MRS
MapReduce服务 MRS-Yarn常用配置参数:在WebUI显示更多历史作业

在WebUI显示更多历史作业默认情况下，Yarn WebUI界面支持任务列表分页功能，每个分页最多显示5000条历史作业，总共最多保留10000条历史作业。如果您需要在WebUI上查看更多的作业，可以配置参数如表3。具体配置操作请参考修改集群服务配置参数。表3 参数说明配置参数说明默认值 yarn.resourcemanager.max-completed-applications 设置在WebUI总共显示的历史作业数量。 10000 yarn.resourcemanager.webapp.pagination.enable 是否开启Yarn WebUI的任务列表后台分页功能。 true yarn.resourcemanager.webapp.pagination.threshold 开启Yarn WebUI的任务列表后台分页功能后，每个分页显示的最大作业数量。 5000 显示更多的历史作业，会影响性能，增加打开Yarn WebUI的时间，建议开启后台分页功能，并根据实际硬件性能修改“yarn.resourcemanager.max-completed-applications”参数。修改参数值后，需重启Yarn服务使其生效。

MapReduce服务 MRS
MapReduce服务 MRS-Yarn常用配置参数:在UI显示container日志

在UI显示container日志默认情况下，系统会将container日志收集到HDFS中。如果您不需要将container日志收集到HDFS中，可以配置参数见表2。具体配置操作请参考修改集群服务配置参数。表2 参数说明配置参数说明默认值 yarn.log-aggregation-enable 设置是否将container日志收集到HDFS中。设置为true，表示日志会被收集到HDFS目录中。默认目录为“{yarn.nodemanager.remote-app-log-dir}/${user}/{thisParam}”，该路径可通过界面上的“yarn.nodemanager.remote-app-log-dir-suffix”参数进行配置。设置为false，表示日志不会收集到HDFS中。修改参数值后，需重启Yarn服务使其生效。说明：在修改值为false并生效后，生效前的日志无法在UI中获取。您可以在“yarn.nodemanager.remote-app-log-dir-suffix”参数指定的路径中获取到生效前的日志。如果需要在UI上查看之前产生的日志，建议将此参数设置为true。 true

MapReduce服务 MRS
MapReduce服务 MRS-配置AM失败重试次数:配置描述

配置描述参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面，在搜索框中输入表1中参数名称。表1 参数说明参数描述默认值 yarn.resourcemanager.am.max-attempts ApplicationMaster重试次数，增加重试次数，可以防止资源不足导致的AM启动失败问题。适用于所有ApplicationMaster的全局设置。每个ApplicationMaster都可以使用API设置一个单独的最大尝试次数，但这个次数不能大于全局的最大次数。如果大于了，那ResourceManager将会覆写这个单独的最大尝试次数。以允许至少一次重试。取值范围大于等于1。 5

MapReduce服务 MRS
MapReduce服务 MRS-Hive日志介绍:日志级别

日志级别 Hive提供了如表2所示的日志级别。运行日志的级别优先级从高到低分别是ERROR、WARN、INFO、DEBUG，程序会打印高于或等于所设置级别的日志，设置的日志等级越高，打印出来的日志就越少。表2 日志级别级别描述 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。如果您需要修改日志级别，请执行如下操作：参考修改集群服务配置参数，进入Hive服务“全部配置”页面。左边菜单栏中选择所需修改的角色所对应的日志菜单。选择所需修改的日志级别并保存。配置Hive日志级别后可立即生效，无需重启服务。

MapReduce服务 MRS
MapReduce服务 MRS-配置DataNode节点容量不一致时的副本放置策略:对系统的影响

对系统的影响修改磁盘选择策略为“节点磁盘可用空间块放置策略（org.apache.hadoop.hdfs.server.blockmanagement.AvailableSpaceBlockPlacementPolicy）”，经过测试验证，在该测试结果中，修改前后，HDFS写文件性能影响范围在3%以内。 NameNode默认的副本存储策略为：第一副本：存放到客户端所在节点。第二副本：远端机架的数据节点。第三副本：存放到客户端所在节点的相同机架的不同节点。如还有更多副本，则随机选择其它DataNode。 “节点磁盘可用空间块放置策略”的副本选择机制为：第一个副本：存放在客户端所在DataNode（和默认的存放策略一样）。第二个副本：选择存储节点的时候，先挑选2个满足要求的数据节点。比较这2个节点磁盘空间使用比例，如果磁盘空间使用率的相差小于5%，随机存放到第一个节点。如果磁盘空间使用率相差超过5%，即有60%（由dfs.namenode.available-space-block-placement-policy.balanced-space-preference-fraction指定，默认值0.6）的概率写到磁盘空间使用率低的节点。第三副本等其他后续副本的存储情况，也参考第二个副本的选择方式。

MapReduce服务 MRS
MapReduce服务 MRS-配置HDFS token的最大存活时间:配置描述

配置描述参数入口：请参考修改集群服务配置参数，进入HDFS的“全部配置”页面，在搜索框中输入参数名称。表1 参数说明参数描述默认值 dfs.namenode.delegation.token.max-lifetime 该参数为服务器端参数，设置Token的最大存活时间，单位为毫秒。取值范围：10000~10000000000000。 604800000 dfs.namenode.delegation.token.renew-interval 该参数为服务器端参数，设置Token renew的时间间隔，单位为毫秒。取值范围：10000~10000000000000。 86400000

MapReduce服务 MRS
MapReduce服务 MRS-配置DataNode节点容量不一致时的副本放置策略:操作步骤

操作步骤请参考修改集群服务配置参数，进入HDFS的“全部配置”页面。调整HDFS写数据时的依据的磁盘选择策略参数。搜索“dfs.block.replicator.classname”参数，并将参数的值改为“org.apache.hadoop.hdfs.server.blockmanagement.AvailableSpaceBlockPlacementPolicy”。表1 参数描述参数参数说明 dfs.block.replicator.classname 选择副本放置的DataNode的策略。默认值为“org.apache.hadoop.hdfs.server.blockmanagement.AvailableSpaceBlockPlacementPolicy”。保存修改的配置。保存完成后请重新启动配置过期的服务或实例以使配置生效。

MapReduce服务 MRS
MapReduce服务 MRS-配置MapReduce shuffle address:配置描述

配置描述当需要MapReduce shuffle服务绑定特定IP时，需要在NodeManager实例所在节点的配置文件“mapred-site.xml”中（例如路径为：${BIGDATA_HOME}/FusionInsight_HD_xxx/x_xx_NodeManager/etc/mapred-site.xml）设置如下参数。表1 参数描述参数描述默认值 mapreduce.shuffle.address 指定地址来运行shuffle服务，格式是IP:PORT，参数的默认值为空。当参数值为空时，将绑定localhost，默认端口为13562。说明：如果涉及到的PORT值和配置的mapreduce.shuffle.port值不一样时，mapreduce.shuffle.port将不会生效。 -

MapReduce服务 MRS 使用Mapreduce
MapReduce服务 MRS-降低MapReduce客户端运行任务失败率:配置描述

配置描述在客户端的“mapred-site.xml”配置文件中调整如下参数。 “mapred-site.xml”配置文件在客户端安装路径的conf目录下，例如“/opt/client/Yarn/config”。表1 参数说明参数描述默认值 mapreduce.reduce.shuffle.max-host-failures MR任务在reduce过程中读取远端shuffle数据允许失败的次数。当设置次数大于5时，可以降低客户端应用的失败率。该参数适用于MRS 3.x版本。 5 mapreduce.client.submit.file.replication MR任务在运行时依赖的相关job文件在HDFS上的备份。当备份数大于10时，可以降低客户端应用的失败率。 10

MapReduce服务 MRS
MapReduce服务 MRS-HBase JVM参数优化说明:操作步骤

操作步骤参数入口： HBase角色相关的JVM参数需要配置在安装有HBase服务的节点的“${BIGDATA_HOME}/FusionInsight_HD_*/install/FusionInsight-HBase-2.2.3/hbase/conf/”目录下的“hbase-env.sh”文件中。每个角色都有各自的JVM参数配置变量，如表1。表1 HBase相关JVM参数配置变量变量名变量影响的角色 HBASE_OPTS 该变量中设置的参数，将影响HBase的所有角色。 SERVER_GC_OPTS 该变量中设置的参数，将影响HBase Server端的所有角色，例如：Master、RegionServer等。 CLIENT_GC_OPTS 该变量中设置的参数，将影响HBase的Client进程。 HBASE_MASTER_OPTS 该变量中设置的参数，将影响HBase的Master。 HBASE_REGIONSERVER_OPTS 该变量中设置的参数，将影响HBase的RegionServer。 HBASE_THRIFT_OPTS 该变量中设置的参数，将影响HBase的Thrift。配置方式举例： export HADOOP_NAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_ LOG GER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_NAMENODE_OPTS"

MapReduce服务 MRS
MapReduce服务 MRS-Kafka业务规格说明:Topic和Partition的划分关系说明

Topic和Partition的划分关系说明假设集群中部署了K个Kafka节点，每个节点上配置的磁盘个数为N，每块磁盘大小为M，集群共有n个Topic（T1,T2…Tn），并且其中第m个Topic的每秒输入数据总流量为X(Tm) MB/s，配置的副本数为R(Tm)，配置数据保存时间为Y(Tm)小时，那么整体必须满足：假设单个磁盘大小为M，该磁盘上有n个Partition（P0,P1……Pn），并且其中第m个Partition的每秒写入数据流量为Q(Pm) MB/s（计算方法：所属Topic的数据流量除以Partition数）、数据保存时间为T(Pm)小时，那么单个磁盘必须满足：根据吞吐量粗略计算，假设生产者可以达到的吞吐量为P，消费者可以达到的吞吐量为C，预期Kafka吞吐量为T，那么建议该Topic的Partition数目设置为Max(T/P , T/C)。在Kafka集群中，分区越多吞吐量越高，但是分区过多也存在潜在影响，例如文件句柄增加、不可用性增加（如：某个节点故障后，部分Partition重选Leader后时间窗口会比较大）及端到端时延增加等。建议：单个Partition的磁盘占用最大不超过100GB；单节点上Partition数目不超过3000；整个集群的分区总数不超过10000。

MapReduce服务 MRS
MapReduce服务 MRS-Kafka性能调优:参数调优

参数调优修改服务配置参数，请参考修改集群服务配置参数。调优参数请参考表1。表1 调优参数配置参数缺省值调优场景 num.recovery.threads.per.data.dir 10 在Kafka启动过程中，数据量较大情况下，可调大此参数，可以提升启动速度。 background.threads 10 Broker后台任务处理的线程数目。数据量较大的情况下，可适当调大此参数，以提升Broker处理能力。 num.replica.fetchers 1 副本向Leader请求同步数据的线程数，增大这个数值会增加副本的I/O并发度。 num.io.threads 8 Broker用来处理磁盘I/O的线程数目，这个线程数目建议至少等于硬盘的个数。 KAFKA_HEAP_OPTS -Xmx6G -Xms6G Kafka JVM堆内存设置。当Broker上数据量较大时，应适当调整堆内存大小。

MapReduce服务 MRS
MapReduce服务 MRS-使用Kafka生产消费数据:前提条件

前提条件使用Kafka客户端时：已安装客户端，例如安装目录为“/opt/client”，以下操作的客户端目录只是举例，请根据实际安装目录修改。使用KafkaUI操作时：已创建具有KafkaUI页面访问权限的用户，如需在页面上进行相关操作，例如创建Topic，需同时授予用户相关权限，请参考Kafka用户权限说明。第一次访问Manager和KafkaUI，需要在浏览器中添加站点信任以继续访问KafkaUI。

MapReduce服务 MRS
MapReduce服务 MRS-配置Kafka数据安全传输协议:针对不同的Topic访问场景，Kafka中API使用说明

针对不同的Topic访问场景，Kafka中API使用说明场景一：访问设置了ACL的Topic 使用的API 用户属组客户端参数服务端参数访问的端口 API 用户需满足以下条件之一即可：加入System_administrator角色属于kafkaadmin组属于kafkasuperuser组被授权的kafka组的用户 security.inter.broker.protocol=SASL_PLAINTEXT sasl.kerberos.service.name = kafka - sasl.port（默认21007） security.protocol=SASL_SSL sasl.kerberos.service.name = kafka “ssl.mode.enable”配置为true sasl-ssl.port（默认21009）场景二：访问未设置ACL的Topic 使用的API 用户属组客户端参数服务端参数访问的端口 API 用户需满足以下条件之一：加入System_administrator角色属于kafkaadmin组属于kafkasuperuser组 security.protocol=SASL_PLAINTEXT sasl.kerberos.service.name = kafka - sasl.port（默认21007）用户属于kafka组 “allow.everyone.if.no.acl.found”配置为true 说明：普通集群下不涉及服务端参数“allow.everyone.if.no.acl.found”的修改 sasl.port（默认21007）用户需满足以下条件之一：加入System_administrator角色属于kafkaadmin组 kafkasuperuser组用户 security.protocol=SASL_SSL sasl.kerberos.service.name = kafka “ssl.mode.enable”配置为“true” sasl-ssl.port（默认21009）用户属于kafka组 “allow.everyone.if.no.acl.found”配置为“true” “ssl.mode.enable”配置为“true” sasl-ssl.port（默认21009） - security.protocol=PLAINTEXT “allow.everyone.if.no.acl.found”配置为“true” port（默认9092） - security.protocol=SSL “allow.everyone.if.no.acl.found”配置为“true” “ssl.mode.enable”配置为“true” ssl.port（默认9063）

MapReduce服务 MRS
MapReduce服务 MRS-配置Kafka数据安全传输协议:Kafka API简单说明

Kafka API简单说明 Producer API 指org.apache.kafka.clients.producer.KafkaProducer中定义的接口，在使用“kafka-console-producer.sh”时，默认使用此API。 Consumer API 指org.apache.kafka.clients.consumer.KafkaConsumer中定义的接口，在使用“kafka-console-consumer.sh”时，默认会调用此API。 MRS 3.x后，Kafka不支持旧Producer API和旧Consumer API。

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！