MAPREDUCE服务 MRS-常用参数:Broadcast

时间:2023-11-02 19:23:18

Broadcast

Broadcast用于Spark进程间数据块的传输。Spark中无论Jar包、文件还是闭包以及返回的结果都会使用Broadcast。目前的Broadcast支持两种方式,Torrent与HTTP。前者将会把数据切成小片,分布到集群中,有需要时从远程获取;后者将文件存入到本地磁盘,有需要时通过HTTP方式将整个文件传输到远端。前者稳定性优于后者,因此Torrent为默认的Broadcast方式。

表19 参数说明

参数

描述

默认值

spark.broadcast.factory

使用的广播方式。

org.apache.spark.broadcast.TorrentBroadcastFactory

spark.broadcast.blockSize

TorrentBroadcastFactory的块大小。该值过大会降低广播时的并行度(速度变慢),过小可能会影响BlockManager的性能。

4096

spark.broadcast.compress

在发送广播变量之前是否压缩。建议压缩。

true

support.huaweicloud.com/cmpntguide-mrs/mrs_01_1931.html