MAPREDUCE服务 MRS-常用参数:Broadcast
Broadcast
Broadcast用于Spark进程间数据块的传输。Spark中无论Jar包、文件还是闭包以及返回的结果都会使用Broadcast。目前的Broadcast支持两种方式,Torrent与HTTP。前者将会把数据切成小片,分布到集群中,有需要时从远程获取;后者将文件存入到本地磁盘,有需要时通过HTTP方式将整个文件传输到远端。前者稳定性优于后者,因此Torrent为默认的Broadcast方式。
参数 |
描述 |
默认值 |
---|---|---|
spark.broadcast.factory |
使用的广播方式。 |
org.apache.spark.broadcast.TorrentBroadcastFactory |
spark.broadcast.blockSize |
TorrentBroadcastFactory的块大小。该值过大会降低广播时的并行度(速度变慢),过小可能会影响BlockManager的性能。 |
4096 |
spark.broadcast.compress |
在发送广播变量之前是否压缩。建议压缩。 |
true |