华为云首页用户手册 M

MapReduce服务 MRS-Spark与其他组件的关系:Spark和HDFS的关系

MapReduce服务 MRS-Spark与其他组件的关系:Spark和HDFS的关系

时间：2025-09-18 09:38:48

MapReduce服务 MRS Spark

Spark和HDFS的关系

通常，Spark中计算的数据可以来自多个数据源，如Local File、HDFS等。最常用的是HDFS，用户可以一次读取大规模的数据进行并行计算。在计算完成后，也可以将数据存储到HDFS。

分解来看，Spark分成控制端(Driver)和执行端（Executor）。控制端负责任务调度，执行端负责任务执行。

读取文件的过程如图读取文件过程所示。

图1 读取文件过程

读取文件步骤的详细描述如下所示：

Driver与HDFS交互获取File A的文件信息。
HDFS返回该文件具体的Block信息。
Driver根据具体的Block数据量，决定一个并行度，创建多个Task去读取这些文件Block。
在Executor端执行Task并读取具体的Block，作为RDD(弹性分布数据集)的一部分。

写入文件的过程如图写入文件过程所示。

图2 写入文件过程

HDFS文件写入的详细步骤如下所示：

Driver创建要写入文件的目录。
根据RDD分区分块情况，计算出写数据的Task数，并下发这些任务到Executor。
Executor执行这些Task，将具体RDD的数据写入到步骤1创建的目录下。

上一篇：MapReduce服务 MRS-应用场景:海量数据分析场景

下一篇：MapReduce服务 MRS-应用场景:实时数据处理

MapReduce服务 MRS-Spark与其他组件的关系:Spark和HDFS的关系

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题