MapReduce服务 MRS-由于Timeout waiting for task异常导致Shuffle FetchFailed:回答

时间:2023-11-01 16:25:25

回答

JDBCServer方式使用了ShuffleService功能,Reduce阶段所有的Executor会从NodeManager中获取数据,当数据量达到一个级别(10T级别),会出现NodeManager单点瓶颈(ShuffleService服务在NodeManager进程中),就会出现某些Task获取数据超时,从而出现该问题。

因此,当数据量达到10T级别以上的Spark任务,建议用户关闭ShuffleService功能,即在“Spark-defaults.conf”配置文件中将配置项“spark.shuffle.service.enabled”配置为“false”

support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_2016.html