MapReduce服务 MRS-常用概念:Spark Streaming常用概念

时间:2023-11-01 16:19:45

Spark Streaming常用概念

Dstream

DStream(又称Discretized Stream)是Spark Streaming提供的抽象概念。

DStream表示一个连续的数据流,是从数据源获取或者通过输入流转换生成的数据流。从本质上说,一个DStream表示一系列连续的RDD。RDD是一个只读的、可分区的分布式数据集。

DStream中的每个RDD包含了一个区间的数据。如图4所示。

图4 DStream与RDD关系

应用到DStream上的所有算子会被转译成下层RDD的算子操作,如图5所示。这些下层的RDD转换会通过Spark引擎进行计算。DStream算子隐藏大部分的操作细节,并且提供了方便的High-level API给开发者使用。

图5 DStream算子转译
support.huaweicloud.com/devg3-mrs/mrs_07_200003.html