Spark - start

简介

Spark是一个集群计算的框架,类似于Hadoop. 其最大的优化是让计算任务的中间结果存储在内存中,不需要每次都写入HDFS。

Spark是基于RDD的核心编程,使用内存进行计算,比死板的MapReduce模型的性能大大提高。

Spark RDDs 弹性分布式数据集

一个可并行操作的有容错机制的数据集合。

Spark Streaming

对事实数据流进行处理,处理后的数据再应用。

一个处理过程。

Spark SQL

允许Spark执行用SQL, Scala等表示的关系查询。

GraphX

用于图和并行图计算。


Reference

https://www.w3cschool.cn/spark