好程式設計師解密Spark是否可以替代hadoop

好程式設計師IT發表於2019-09-25

  好程式設計師解密Spark是否可以替代hadoop,首先這個問題,需要明確的是Hadoop是生態圈而Spark是計算框架是兩者是不同的,我們所使用Hadoop基本是建立一個完成的分散式資料基礎設施: 它將巨大的資料集分派到一個由普通計算機組成的叢集中的多個節點進行儲存,意味著您不需要購買和維護昂貴的伺服器硬體,而在Hadoop生態圈下,可以提供一些,對資料進行計算操作的方式包括MapReduce或Hive,其實Spark要是體態Hadoop應該是替其內部計算引擎。

  主要就是MapReduce,因為MapReduce本身是存在甚多缺點的,最大缺陷之一是Map + Reduce的模型。這個模型並不適合描述複雜的資料處理過程。

  而且MapReduce對資料處理時需要多次將計算的資料結果儲存到磁碟上,就會造成大量IO讀寫,發生計算效能下降。而Spark的資料物件儲存在分佈於資料叢集中的叫做彈性分散式資料集(RDD: Resilient Distributed Dataset)中。

  這些資料物件既可以放在記憶體,也可以放在磁碟,所以RDD同樣也可以提供完成的災難恢復功能。

  所以所Spark完全替代hadoop是不可能的


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913892/viewspace-2658228/,如需轉載,請註明出處,否則將追究法律責任。

相關文章