简介
Spark是一个集群计算的框架,类似于Hadoop. 其最大的优化是让计算任务的中间结果存储在内存中,不需要每次都写入HDFS。
Spark是基于RDD的核心编程,使用内存进行计算,比死板的MapReduce模型的性能大大提高。
Spark RDDs 弹性分布式数据集
一个可并行操作的有容错机制的数据集合。
Spark Streaming
对事实数据流进行处理,处理后的数据再应用。
一个处理过程。
Spark SQL
允许Spark执行用SQL, Scala等表示的关系查询。
GraphX
用于图和并行图计算。
Reference
https://www.w3cschool.cn/spark