华为云首页用户手册

MAPREDUCE服务 MRS-Spark On Hudi性能调优:优化shuffle并行度，提升Spark加工效率

MAPREDUCE服务 MRS-Spark On Hudi性能调优:优化shuffle并行度，提升Spark加工效率

时间：2024-05-16 10:54:25

MAPREDUCE服务 MRS Spark on Hudi开发规范

优化shuffle并行度，提升Spark加工效率

所谓的shuffle并发度如下图所示：

集群默认是200，作业可以单独设置。如果发现瓶颈stage（执行时间长），且分配给当前作业的核数大于当前的并发数，说明并发度不足。通过以下配置优化。

场景	配置项	集群默认值	调整后
Jar作业	spark.default.parallelism	200	按实际作业可用资源2倍设置
SQL作业	spark.sql.shuffle.partitions	200	按实际作业可用资源2倍设置
hudi入库作业	hoodie.upsert.shuffle.parallelism	200	非bucket表使用，按实际作业可用资源2倍设置

动态资源调度情况下（spark.dynamicAllocation.enabled= true）时，资源按照spark.dynamicAllocation.maxExecutors评估。

上一篇：MAPREDUCE服务 MRS-Spark On Hudi性能调优:Spark加工Hudi表时其他参数优化

下一篇：MAPREDUCE服务 MRS-Spark On Hudi性能调优:Spark加工Hudi表时其他参数优化

MAPREDUCE服务 MRS-Spark On Hudi性能调优:优化shuffle并行度，提升Spark加工效率

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题