好程式設計師技術解析Hadoop和spark的效能比較

好程式設計師IT發表於2019-06-17

  好程式設計師技術解析   Hadoop和spark的效能比較, 大資料 培訓一度受到廣大 IT愛好者的追捧,成為最熱門的培訓學科!前景無需多述,高薪就業,職場一片坦途!今天好程式設計師就為大家講解下關於大資料的知識要點。問:

Hadoop和spark的效能 有何區別

  如果說 Hadoop是一家大型包工隊, 我們可以透過它組織人員進行合作,搬磚建造房屋,弊端在於速度較慢。

  Spark是另一家包工隊,成立 時間較晚, 但是他們搬磚 更為靈活 ,可以實時互動地蓋房子, 工作效率比 Hadoop快得多。

   Hadoop開始升級,指定排程專家YARN排程工人。Spark從多個倉庫搬磚(HDFS,Cassandra,S3,HBase),還允許不同專家如YARN/ MESOS對人員和任務進行排程。

   當然, Spark和Hadoop團隊 進行 合作,問題變得更加複雜。 作為兩個 獨立的包工隊, 二者 都有著各自的優缺點和特定的業務用例。

   因此,我們說 Hadoop和spark的效能 區別在於:

  Spark在記憶體中執行速度比Hadoop快100倍,在磁碟上執行速度快10倍。眾所周知,Spark在數量只有十分之一的機器上,對100TB資料進行排序的速度比Hadoop MapReduce快速3倍。此外,Spark在機器學習應用中的速度同樣更快,例如Naive Bayes和k-means。

  Spark效能之所以比Hadoop更優,原因 在於 每次執行 MapReduce任務時,Spark都不會受到輸入輸出的限制。事實證明,應用程式的速度要快得多。 再有 Spark的DAG可以在各個步驟之間進行最佳化。Hadoop在MapReduce步驟之間沒有任何週期性連線,這意味著在該級別不會發生效能調整。但是,如果Spark與其他共享服務在YARN上執行,則效能可能會降低並導致RAM開銷記憶體洩漏。出於這個原因,如果使用者有批處理的訴求,Hadoop被認為是更高效的系統。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913892/viewspace-2647417/,如需轉載,請註明出處,否則將追究法律責任。

相關文章