誕生於2009年，加州大學伯克利分校RAD實驗室的一個研究專案，最初是基於Hadoop Mapreduce 的，

發現Mapreduce在迭代式計算和互動式上低效，引入了記憶體儲存。

2010年3月份spark開源

2011年AMP實驗室在spark上開發高階元件，例如：spark Streaming

2013年轉移到了Apache下，不就成了頂級專案

1，spark是快速的： spark擴充了Mapreduce計算模型，spark是基於記憶體的運算；

2，spark是通用的：spark的設計容納了其他分散式系統擁有的功能，批處理，迭代式計算，互動查詢和流處理等，

優點：降低了維護成本。

spark包括多個緊密整合的元件

Spark Core:

包含spark的基本功能，包括任務排程，記憶體管理，容錯機制等，

內部定義了RDDs(彈性分散式資料集)

提供了很多APi來建立和操控這些RDDs

為其他元件提供底層的服務

Spark SQL :

spark處理結構化資料的庫，就行mysql，hive sql 一樣，

企業中用來做報表統計

Spark Streaming:

實時資料流處理元件，類似storm

其提高了api來提供實時流資料

企業主用來從kafka接受資料做實時統計

Mlib:

一個包含通用機器學習功能的包，Machine learning lib,

包含分類，聚類，歸類等，還包括模型評估和資料匯入，都支援叢集橫向擴充套件

Graphx:

圖形處理的庫，並進行圖的並行運算，像spark sql ,spark Streaming 一樣，它也繼承了RDDs API

提供了各種圖的操作，和常用的圖演算法，例如：PangeRank演算法,

應用場景：圖計算

Cluster Managers :

叢集管理，spark自帶一個叢集管理是單獨排程器，常見的叢集管理包括 Hadoop YARN , Apache mesos

作者：Alukar
連結：

spark簡單介紹（一）

相關文章