场景化参数-华为云

MAPREDUCE服务 MRS-配置WebUI上查看聚合后的container日志:配置描述

配置描述为了使WebUI页面显示日志，需要将聚合日志进行解析和展现。Spark是通过Hadoop的JobHistoryServer来解析聚合日志的，所以您可以通过“spark.jobhistory.address”参数，指定JobHistoryServer页面地址，即可完成解析和展现。参数入口：在应用提交时通过“--conf”设置这些参数，或者在客户端的“spark-defaults.conf”配置文件中调整如下参数。此功能依赖Hadoop中的JobHistoryServer服务，所以使用聚合日志之前需要保证JobHistoryServer服务已经运行正常。如果参数值为空，“AggregatedLogs”页签仍然存在，但是无法通过logs链接查看日志。只有当App已经running，HDFS上已经有该App的事件日志文件时才能查看到聚合的container日志。正在运行的任务的日志，用户可以通过“Executors”页面的日志链接进行查看，任务结束后日志会汇聚到HDFS上，“Executors”页面的日志链接就会失效，此时用户可以通过“AggregatedLogs”页面的logs链接查看聚合日志。表1 参数说明参数描述默认值 spark.jobhistory.address JobHistoryServer页面的地址，格式：http(s)://ip:port/jobhistory。例如，将参数值设置为“https://10.92.115.1:26014/jobhistory”。默认值为空，表示不能从WebUI查看container聚合日志。修改参数后，需重启服务使得配置生效。 -

MAPREDUCE服务 MRS 场景化参数

MAPREDUCE服务 MRS-配置WebUI上查看聚合后的container日志:配置场景

配置场景当Yarn配置“yarn.log-aggregation-enable”为“true”时，就开启了container日志聚合功能。日志聚合功能是指：当应用在Yarn上执行完成后，NodeManager将本节点中所有container的日志聚合到HDFS中，并删除本地日志。详情请参见配置Container日志聚合功能。然而，开启container日志聚合功能之后，其日志聚合至HDFS目录中，只能通过获取HDFS文件来查看日志。开源Spark和Yarn服务不支持通过WebUI查看聚合后的日志。因此，Spark在此基础上进行了功能增强。如图1所示，在HistoryServer页面添加“AggregatedLogs”页签，可以通过“logs”链接查看聚合的日志。图1 聚合日志显示页面

MAPREDUCE服务 MRS 场景化参数

MAPREDUCE服务 MRS-配置Kafka后进先出:配置场景

配置场景当Spark Streaming应用与Kafka对接，Spark Streaming应用异常终止并从checkpoint恢复重启后，对于进入Kafka数据的任务，系统默认优先处理应用终止前（A段时间）未完成的任务和应用终止到重启完成这段时间内（B段时间）进入Kafka数据生成的任务，最后再处理应用重启完成后（C段时间）进入Kafka数据生成的任务。并且对于B段时间进入Kafka的数据，Spark将按照终止时间（batch时间）生成相应个数的任务，其中第一个任务读取全部数据，其余任务可能不读取数据，造成任务处理压力不均匀。如果A段时间的任务和B段时间任务处理得较慢，则会影响C段时间任务的处理。针对上述场景，Spark提供Kafka后进先出功能。图1 Spark Streaming应用重启时间轴开启此功能后，Spark将优先调度C段时间内的任务，如果存在多个C段任务，则按照任务产生的先后顺序调度执行，再执行A段时间和B段时间的任务。另外，对于B段时间进入Kafka的数据，Spark除了按照终止时间生成相应任务，还将这个期间进入Kafka的所有数据均匀分配到各个任务，避免任务处理压力不均匀。约束条件：目前该功能只适用于Spark Streaming中的Direct方式，且执行结果与上一个batch时间处理结果没有依赖关系（即无state操作，如updatestatebykey）。对多条数据输入流，需要相对独立无依赖的状态，否则可能导致数据切分后结果发生变化。 Kafka后进先出功能的开启要求应用只能对接Kafka输入源。如果提交应用的同时开启Kafka后进先出和流控功能，对于B段时间进入Kafka的数据，将不启动流控功能，以确保读取这些数据的任务调度优先级最低。应用重新启动后C段时间的任务启用流控功能。

MAPREDUCE服务 MRS 场景化参数

MAPREDUCE服务 MRS-配置Kafka后进先出:配置描述

配置描述在Spark Driver端的“spark-defaults.conf”配置文件中进行设置。表1 参数说明参数说明默认值 spark.streaming.kafka.direct.lifo 配置是否开启Kafka后进先出功能。 false spark.streaming.kafka010.inputstream.class 获取解耦在FusionInsight侧的类 org.apache.spark.streaming.kafka010.xxDirectKafkaInputDStream

MAPREDUCE服务 MRS 场景化参数

MAPREDUCE服务 MRS-配置Spark2x Web UI ACL:配置场景

配置场景当Spark2x Web UI中有一些不允许其他用户看到的数据时，用户可能想对UI进行安全防护。用户一旦登录，Spark2x 可以比较与这个用户相对应的视图ACLs来确认是否授权用户访问 UI。 Spark2x存在两种类型的Web UI，一种为运行中任务的Web UI，可以通过Yarn原生页面的应用链接或者REST接口访问。一种为已结束任务的Web UI，可以通过Spark2x JobHistory服务或者REST接口访问。本章节仅支持安全模式（开启了Kerberos认证）集群。运行中任务Web UI ACL配置。运行中的任务，可通过服务端对如下参数进行配置。 “spark.admin.acls”：指定Web UI的管理员列表。 “spark.admin.acls.groups”：指定管理员组列表。 “spark.ui.view.acls”：指定yarn界面的访问者列表。 “spark.modify.acls.groups”：指定yarn界面的访问者组列表。 “spark.modify.acls”：指定Web UI的修改者列表。 “spark.ui.view.acls.groups”：指定Web UI的修改者组列表。运行结束后Web UI ACL配置。运行结束的任务通过客户端的参数“spark.history.ui.acls.enable”控制是否开启ACL访问权限。如果开启了ACL控制，由客户端的“spark.admin.acls”和“spark.admin.acls.groups”配置指定Web UI的管理员列表和管理员组列表，由客户端的“spark.ui.view.acls”和“spark.modify.acls.groups”配置指定查看Web UI任务明细的访问者列表和组列表，由客户端的“spark.modify.acls”和“spark.ui.view.acls.groups”配置指定修改Web UI任务明细的访问者列表和组列表。

MAPREDUCE服务 MRS 场景化参数

MapReduce服务 MRS-配置executor堆外内存大小:配置描述

配置描述参数入口：在应用提交时通过“--conf”设置这些参数，或者在客户端的“spark-defaults.conf”配置文件中调整如下参数。表1 参数说明参数说明默认值 spark.executor.memoryOverhead 用于指定每个executor的堆外内存大小(MB)，增大该参数值，可以防止物理内存超限。该值是通过max(384,executor-memory*0.1)计算所得，最小值为384。 1024

MapReduce服务 MRS 场景化参数

云服务器内容精选

场景化参数

7*24

备案

专业服务

退订

建议反馈

售前咨询热线