Spark_Spark是什么_并行数据处理框架-华为云

华为云计算云知识 Spark

Spark

时间: 2020-10-30 15:50:39

猜你想看：

实时语音识别云服务器配置 CDN是什么意思视频点播加速什么是云桌面

Spark是一个开源的，并行数据处理框架，能够帮助用户简单的开发快速，统一的大数据应用，对数据进行，协处理，流式处理，交互式分析等等。

Spark提供了一个快速的计算，写入，以及交互式查询的框架。相比于Hadoop，Spark拥有明显的性能优势。Spark使用in-memory的计算方式，通过这种方式来避免一个MapReduce工作流中的多个任务对同一个数据集进行计算时的IO瓶颈。Spark利用Scala语言实现，Scala能够使得处理分布式数据集时，能够像处理本地化数据一样。除了交互式的数据分析，Spark还能够支持交互式的数据挖掘，由于Spark是基于内存的计算，很方便处理迭代计算，而数据挖掘的问题通常都是对同一份数据进行迭代计算。除此之外，Spark能够运行于安装Hadoop 2.0 Yarn的集群。之所以Spark能够在保留MapReduce容错性，数据本地化，可扩展性等特性的同时，能够保证性能的高效，并且避免繁忙的磁盘IO，主要原因是因为Spark创建了一种叫做RDD（Resilient Distributed Dataset）的内存抽象结构。

链接：https://support.huaweicloud.com/productdesc-mrs/mrs_08_000801.html

上一篇：脱离卡顿困扰！华为云视频直播Live让你的直播享受更流畅更清晰！下一篇：SFS、OBS和EVS的区别

最新文章