Spark - start

Posted on 01-27-2021 Edited on 01-29-2021 In Notebook Views:

简介

Spark是一个集群计算的框架，类似于Hadoop. 其最大的优化是让计算任务的中间结果存储在内存中，不需要每次都写入HDFS。

Spark是基于RDD的核心编程，使用内存进行计算，比死板的MapReduce模型的性能大大提高。

一个可并行操作的有容错机制的数据集合。

对事实数据流进行处理，处理后的数据再应用。

一个处理过程。

允许Spark执行用SQL, Scala等表示的关系查询。

用于图和并行图计算。

Reference

https://www.w3cschool.cn/spark