MAPREDUCE服务 MRS-执行大数据量的shuffle过程时Executor注册shuffle service失败:回答

时间:2024-04-10 09:06:36

回答

由于当前数据量较大,有50T数据导入,超过了shuffle的规格,shuffle负载过高,shuffle service服务处于过载状态,可能无法及时响应Executor的注册请求,从而出现上面的问题。

Executor注册shuffle service的超时时间是5秒,最多重试3次,该参数目前不可配。

建议适当调大task retry次数和Executor失败次数。

在客户端的“spark-defaults.conf”配置文件中配置如下参数。“spark.yarn.max.executor.failures”如果不存在,则手动添加该参数项。

表1 参数说明

参数

描述

默认

spark.task.maxFailures

task retry次数。

4

spark.yarn.max.executor.failures

Executor失败次数。

关闭Executor个数动态分配功能的场景即“spark.dynamicAllocation.enabled”参数设为“false”时。

numExecutors * 2, with minimum of 3

Executor失败次数。

开启Executor个数动态分配功能的场景即“spark.dynamicAllocation.enabled”参数设为“true”时。

3

support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_2018.html