Spark導論(Spark自學一)

右介發表於2017-10-10

1.1 Spark是什麼?

  Spark是一個用來實現快速而通用的叢集計算的平臺。

1.2 一個大一統的軟體棧

  Spark專案包含多個緊密整合的元件。

  1.2.1 Spark Core

    Spark Core實現了Spark的基本功能, 包含任務排程、記憶體管理、錯誤恢復、與儲存系統互動等模組。Spark Core中還包含了對RDD的API定義。RDD表示分佈在多個計算節點上可以並行操作的元素集合,是Spark主要的變成抽象。

  1.2.2 Spark SQL

    Spark SQL是Spark用來操作結構化資料的程式包。

  1.2.3 Spark Streaming

    Spark Streaming是Spark提供的對實時資料進行流式計算的元件。

  1.2.4 MLlib

    MLlib是一個提供常見的機器學習功能的程式庫。

  1.2.5 GraphX

    GraphX是用來操作圖的程式庫,可以進行並行的圖計算。

  1.2.6 叢集管理器

    Spark支援在各種叢集管理器上執行。

1.3 Spark的使用者和用途

  兩大目標群體: 資料科學家的工程師

  兩大用途: 資料科學應用和資料處理應用

1.4 Spark簡史

  略

1.5 Spark的版本和釋出

  略

1.6 Spark的儲存層次

  Spark不僅可以將任何Hadoop分散式檔案系統(HDFS)上的檔案讀取為分散式資料集,也可以支援其他支援Hadoop介面的系統。

    

  

相關文章