云服务器内容精选

华为云首页用户手册

Spark Core性能调优

MAPREDUCE服务 MRS-使用External Shuffle Service提升Spark Core性能:操作场景

操作场景 Spark系统在运行含shuffle过程的应用时，Executor进程除了运行task，还要负责写shuffle数据以及给其他Executor提供shuffle数据。当Executor进程任务过重，导致触发GC（Garbage Collection）而不能为其他Executor提供shuffle数据时，会影响任务运行。 External shuffle Service是长期存在于NodeManager进程中的一个辅助服务。通过该服务来抓取shuffle数据，减少了Executor的压力，在Executor GC的时候也不会影响其他Executor的任务运行。

MAPREDUCE服务 MRS Spark Core性能调优
MAPREDUCE服务 MRS-经验总结:使用coalesce调整分片的数量

使用coalesce调整分片的数量 coalesce可以调整分片的数量。coalesce函数有两个参数： coalesce(numPartitions: Int, shuffle: Boolean = false) 当shuffle为true的时候，函数作用与repartition(numPartitions: Int)相同，会将数据通过Shuffle的方式重新分区；当shuffle为false的时候，则只是简单的将父RDD的多个partition合并到同一个task进行计算，shuffle为false时，如果numPartitions大于父RDD的切片数，那么分区不会重新调整。遇到下列场景，可选择使用coalesce算子：当之前的操作有很多filter时，使用coalesce减少空运行的任务数量。此时使用coalesce(numPartitions, false)，numPartitions小于父RDD切片数。当输入切片个数太大，导致程序无法正常运行时使用。当任务数过大时候Shuffle压力太大导致程序挂住不动，或者出现linux资源受限的问题。此时需要对数据重新进行分区，使用coalesce(numPartitions, true)。

MAPREDUCE服务 MRS Spark Core性能调优
MapReduce服务 MRS-配置Yarn模式下Spark动态资源调度:操作场景

操作场景对于Spark应用来说，资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务（比如JD BCS erver），若分配给它多个Executor，可是却没有任何任务分配给它，而此时有其他的应用却资源紧张，这就造成了很大的资源浪费和资源不合理的调度。动态资源调度就是为了解决这种场景，根据当前应用任务的负载情况，实时的增减Executor个数，从而实现动态分配资源，使整个Spark系统更加健康。

MapReduce服务 MRS Spark Core性能调优

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！