MAPREDUCE服务 MRS-优化小文件场景下的Spark SQL性能:配置描述

时间:2025-05-12 17:09:42

配置描述

要启动小文件优化,在Spark客户端的“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”配置文件中进行设置。

当SQL逻辑中不包含Shuffle操作时,设置此配置项,不会有明显的性能提升。

表1 参数说明

参数

描述

取值示例

spark.sql.files.maxPartitionBytes

在读取文件时,将单个分区打包的最大字节数。

单位:byte。

134217728(即128M)

spark.files.openCostInBytes

打开文件的预估成本, 按照同一时间能够扫描的字节数来测量。当一个分区写入多个文件时使用。高估更好,这样小文件分区将比大文件分区更先被调度。

4M

support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_1988.html
提示

您即将访问非华为云网站,请注意账号财产安全