MAPREDUCE服务 MRS-常用参数:普通Shuffle配置

时间:2023-11-02 19:23:18

普通Shuffle配置

表9 参数说明

参数

描述

默认值

spark.shuffle.spill

若设为“true”,通过将数据溢出至磁盘来限制reduce任务期间内存的使用量。

true

spark.shuffle.spill.compress

是否压缩shuffle期间溢出的数据。使用spark.io.compression.codec指定的算法进行数据压缩。

true

spark.shuffle.file.buffer

每个shuffle文件输出流的内存缓冲区大小(单位:KB)。这些缓冲区可以减少创建中间shuffle文件流过程中产生的磁盘寻道和系统调用次数。也可以通过配置项spark.shuffle.file.buffer.kb设置。

32KB

spark.shuffle.compress

是否压缩map任务输出文件。建议压缩。使用spark.io.compression.codec进行压缩。

true

spark.reducer.maxSizeInFlight

从每个reduce任务同时fetch的map任务输出最大值(单位:MB)。由于每个输出要求创建一个缓冲区进行接收,这代表了每个reduce任务固定的内存开销,所以除非拥有大量内存,否则保持低值。也可以通过配置项spark.reducer.maxMbInFlight设置。

48MB

support.huaweicloud.com/cmpntguide-mrs/mrs_01_1931.html