好程式設計師分享大資料入門教程:Hadoop和spark的效能比較

好程式設計師發表於2020-06-16

  好程式設計師分享 大資料入門 教程 Hadoop spark 的效能比較 大資料課程,一門看似很專業實際很複雜的學科,備受追捧。因為大資料的就業前景真的很誘惑人,單單是就業薪資就能讓人趨之若鶩。今天大資料講師給大家分享的技術知識是大資料入門課程之Hadoop spark 的效能比較。

   曾經看過一個非常有趣的比喻,Hadoop 是一家大型包工隊,可以組織一大堆人合作 (HDFS) 搬磚蓋房 ( MapReduce) ,但是速度比較慢。

   Spark 是另一家包工隊,雖然成立得晚一些,但是他們搬磚很快很靈活,可以實時互動地蓋房子,比 Hadoop 快得多。

   Hadoop 開始升級,指定排程專家 YARN 排程工人。 Spark 從多個倉庫搬磚 (HDFS Cassandra,S3 HBase) ,還允許不同專家如 YARN/ MESOS 對人員和任務進行排程。

   當然,他們兩家並不是水火不容。Spark 經常和 Hadoop 團隊合作,這讓問題變得更加複雜。不管怎麼說, Spark Hadoop 都是兩個獨立的包工隊,都有著各自的優缺點和特定的業務用例。

   Hadoop spark 的效能比較

   Spark 在記憶體中執行速度比 Hadoop 100 倍,在磁碟上執行速度快 10 倍。眾所周知, Spark 在數量只有十分之一的機器上,對 100TB 資料進行排序的速度比 Hadoop MapReduce 3 倍。此外, Spark 在機器學習應用中的速度同樣更快,例如 Naive Bayes k-means

   由處理速度衡量的Spark 效能之所以比 Hadoop 更優,原因如下:

   1 、每次執行 MapReduce 任務時, Spark 都不會受到輸入輸出的限制。事實證明,應用程式的速度要快得多。

   2 Spark DAG 可以在各個步驟之間進行最佳化。 Hadoop MapReduce 步驟之間沒有任何週期性連線,這意味著在該級別不會發生效能調整。

   但是,如果Spark 與其他共享服務在 YARN 上執行,則效能可能會降低並導致 RAM 開銷記憶體洩漏。出於這個原因,如果使用者有批處理的訴求, Hadoop 被認為是更高效的系統。

   文章寫到這也該結束了,如果你對這篇文章感到意猶未盡,對大資料感興趣,歡迎大家一起交流學習。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2698804/,如需轉載,請註明出處,否則將追究法律責任。

相關文章