MAPREDUCE服务 MRS-优化小文件场景下的Spark SQL性能:配置场景

时间:2025-05-12 17:09:42

配置场景

Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。

在小文件场景下,您可以通过如下配置手动指定每个Task的数据量(Split Size),确保不会产生过多的Task,提高性能。

support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_1988.html
提示

您即将访问非华为云网站,请注意账号财产安全