好程式設計師分享大資料入門教程：Hadoop 和 spark 的效能比較，大資料課程，一門看似很專業實際很複雜的學科，備受追捧。因為大資料的就業前景真的很誘惑人，單單是就業薪資就能讓人趨之若鶩。今天大資料講師給大家分享的技術知識是大資料入門課程之Hadoop 和 spark 的效能比較。

　　曾經看過一個非常有趣的比喻，Hadoop 是一家大型包工隊，可以組織一大堆人合作 (HDFS) 搬磚蓋房 ( 用 MapReduce) ，但是速度比較慢。

　　 Spark 是另一家包工隊，雖然成立得晚一些，但是他們搬磚很快很靈活，可以實時互動地蓋房子，比 Hadoop 快得多。

　　 Hadoop 開始升級，指定排程專家 YARN 排程工人。 Spark 從多個倉庫搬磚 (HDFS ， Cassandra,S3 ， HBase) ，還允許不同專家如 YARN/ MESOS 對人員和任務進行排程。

　　當然，他們兩家並不是水火不容。Spark 經常和 Hadoop 團隊合作，這讓問題變得更加複雜。不管怎麼說， Spark 和 Hadoop 都是兩個獨立的包工隊，都有著各自的優缺點和特定的業務用例。

　　 Hadoop 和 spark 的效能比較

　　 Spark 在記憶體中執行速度比 Hadoop 快 100 倍，在磁碟上執行速度快 10 倍。眾所周知， Spark 在數量只有十分之一的機器上，對 100TB 資料進行排序的速度比 Hadoop MapReduce 快 3 倍。此外， Spark 在機器學習應用中的速度同樣更快，例如 Naive Bayes 和 k-means 。

　　由處理速度衡量的Spark 效能之所以比 Hadoop 更優，原因如下：

　　 1 、每次執行 MapReduce 任務時， Spark 都不會受到輸入輸出的限制。事實證明，應用程式的速度要快得多。

　　 2 、 Spark 的 DAG 可以在各個步驟之間進行最佳化。 Hadoop 在 MapReduce 步驟之間沒有任何週期性連線，這意味著在該級別不會發生效能調整。

　　但是，如果Spark 與其他共享服務在 YARN 上執行，則效能可能會降低並導致 RAM 開銷記憶體洩漏。出於這個原因，如果使用者有批處理的訴求， Hadoop 被認為是更高效的系統。

　　文章寫到這也該結束了，如果你對這篇文章感到意猶未盡，對大資料感興趣，歡迎大家一起交流學習。

好程式設計師分享大資料入門教程：Hadoop和spark的效能比較

相關文章