MAPREDUCE服务 MRS-执行大数据量的shuffle过程时Executor注册shuffle service失败:回答

时间：2024-04-10 09:06:36

MAPREDUCE服务 MRS Spark Core

由于当前数据量较大，有50T数据导入，超过了shuffle的规格，shuffle负载过高，shuffle service服务处于过载状态，可能无法及时响应Executor的注册请求，从而出现上面的问题。

Executor注册shuffle service的超时时间是5秒，最多重试3次，该参数目前不可配。

建议适当调大task retry次数和Executor失败次数。

在客户端的“spark-defaults.conf”配置文件中配置如下参数。“spark.yarn.max.executor.failures”如果不存在，则手动添加该参数项。

表1 参数说明
参数	描述	默认值
spark.task.maxFailures	task retry次数。	4
spark.yarn.max.executor.failures	Executor失败次数。关闭Executor个数动态分配功能的场景即“spark.dynamicAllocation.enabled”参数设为“false”时。	numExecutors * 2, with minimum of 3
spark.yarn.max.executor.failures	Executor失败次数。开启Executor个数动态分配功能的场景即“spark.dynamicAllocation.enabled”参数设为“true”时。	3