1.1 Spark是什麼?
Spark是一個用來實現快速而通用的叢集計算的平臺。
1.2 一個大一統的軟體棧
Spark專案包含多個緊密整合的元件。
1.2.1 Spark Core
Spark Core實現了Spark的基本功能, 包含任務排程、記憶體管理、錯誤恢復、與儲存系統互動等模組。Spark Core中還包含了對RDD的API定義。RDD表示分佈在多個計算節點上可以並行操作的元素集合,是Spark主要的變成抽象。
1.2.2 Spark SQL
Spark SQL是Spark用來操作結構化資料的程式包。
1.2.3 Spark Streaming
Spark Streaming是Spark提供的對實時資料進行流式計算的元件。
1.2.4 MLlib
MLlib是一個提供常見的機器學習功能的程式庫。
1.2.5 GraphX
GraphX是用來操作圖的程式庫,可以進行並行的圖計算。
1.2.6 叢集管理器
Spark支援在各種叢集管理器上執行。
1.3 Spark的使用者和用途
兩大目標群體: 資料科學家的工程師
兩大用途: 資料科學應用和資料處理應用
1.4 Spark簡史
略
1.5 Spark的版本和釋出
略
1.6 Spark的儲存層次
Spark不僅可以將任何Hadoop分散式檔案系統(HDFS)上的檔案讀取為分散式資料集,也可以支援其他支援Hadoop介面的系統。