Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的平行計算框架，是一個基於記憶體計算的開源的叢集計算系統，目的是讓資料分析更加快速,Spark是一種與Hadoop相似的開源叢集計算環境,Spark基於map reduce演算法實現的分散式計算，擁有Hadoop MapReduce所具有的優點；
但不同於MapReduce的是Job中間輸出結果可以儲存在記憶體中，從而不再需要讀寫HDFS，因此Spark能更好地適用於資料探勘與機器學習等需要迭代的map reduce的演算法。

相對於Hadoop,它主要有以下優勢:

啟用了記憶體分佈資料集，除了能夠提供互動式查詢外，它還可以最佳化迭代工作負載。

提供了高的效能和大資料處理能力，使得使用者可以快速得到反饋體驗更好。

提供的資料集操作型別有很多種，不像Hadoop只提供了Map和Reduce兩種操作。

出色的支援Interactive Query、流計算、圖計算等。

在機器學習方面有著無與倫比的優勢，特別適合需要多次迭代計算的演算法。

擁有非常出色的容錯和排程機制，確保系統的穩定執行。

Spark相對於Hadoop有哪些優勢?

相關文章