Spark相對於Hadoop有哪些優勢?

chenfeng發表於2016-08-17
Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的平行計算框架,是一個基於記憶體計算的開源的叢集計算系統,目的是讓資料分析更加快速,Spark是一種與Hadoop相似的開源叢集計算環境,Spark基於map reduce演算法實現的分散式計算,擁有Hadoop MapReduce所具有的優點;
但不同於MapReduce的是Job中間輸出結果可以儲存在記憶體中,從而不再需要讀寫HDFS,因此Spark能更好地適用於資料探勘與機器學習等需要迭代的map reduce的演算法。

相對於Hadoop,它主要有以下優勢:
  • 啟用了記憶體分佈資料集,除了能夠提供互動式查詢外,它還可以最佳化迭代工作負載。

  • 提供了高的效能和大資料處理能力,使得使用者可以快速得到反饋體驗更好。

  • 提供的資料集操作型別有很多種,不像Hadoop只提供了Map和Reduce兩種操作。

  • 出色的支援Interactive Query、流計算、圖計算等。

  • 在機器學習方面有著無與倫比的優勢,特別適合需要多次迭代計算的演算法。

  • 擁有非常出色的容錯和排程機制,確保系統的穩定執行。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/15498/viewspace-2123630/,如需轉載,請註明出處,否則將追究法律責任。

相關文章