好程式設計師分享大資料入門教程:Hadoop和spark的效能比較
好程式設計師分享 大資料入門 教程 :Hadoop 和 spark 的效能比較 , 大資料課程,一門看似很專業實際很複雜的學科,備受追捧。因為大資料的就業前景真的很誘惑人,單單是就業薪資就能讓人趨之若鶩。今天大資料講師給大家分享的技術知識是大資料入門課程之Hadoop 和 spark 的效能比較。
曾經看過一個非常有趣的比喻,Hadoop 是一家大型包工隊,可以組織一大堆人合作 (HDFS) 搬磚蓋房 ( 用 MapReduce) ,但是速度比較慢。
Spark 是另一家包工隊,雖然成立得晚一些,但是他們搬磚很快很靈活,可以實時互動地蓋房子,比 Hadoop 快得多。
Hadoop 開始升級,指定排程專家 YARN 排程工人。 Spark 從多個倉庫搬磚 (HDFS , Cassandra,S3 , HBase) ,還允許不同專家如 YARN/ MESOS 對人員和任務進行排程。
當然,他們兩家並不是水火不容。Spark 經常和 Hadoop 團隊合作,這讓問題變得更加複雜。不管怎麼說, Spark 和 Hadoop 都是兩個獨立的包工隊,都有著各自的優缺點和特定的業務用例。
Hadoop 和 spark 的效能比較
Spark 在記憶體中執行速度比 Hadoop 快 100 倍,在磁碟上執行速度快 10 倍。眾所周知, Spark 在數量只有十分之一的機器上,對 100TB 資料進行排序的速度比 Hadoop MapReduce 快 3 倍。此外, Spark 在機器學習應用中的速度同樣更快,例如 Naive Bayes 和 k-means 。
由處理速度衡量的Spark 效能之所以比 Hadoop 更優,原因如下:
1 、每次執行 MapReduce 任務時, Spark 都不會受到輸入輸出的限制。事實證明,應用程式的速度要快得多。
2 、 Spark 的 DAG 可以在各個步驟之間進行最佳化。 Hadoop 在 MapReduce 步驟之間沒有任何週期性連線,這意味著在該級別不會發生效能調整。
但是,如果Spark 與其他共享服務在 YARN 上執行,則效能可能會降低並導致 RAM 開銷記憶體洩漏。出於這個原因,如果使用者有批處理的訴求, Hadoop 被認為是更高效的系統。
文章寫到這也該結束了,如果你對這篇文章感到意猶未盡,對大資料感興趣,歡迎大家一起交流學習。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2698804/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 好程式設計師技術解析Hadoop和spark的效能比較程式設計師HadoopSpark
- 大資料入門課程:Hadoop和spark的效能比較大資料HadoopSpark
- 好程式設計師大資料培訓分享Hadoop入門進階程式設計師大資料Hadoop
- 好程式設計師大資料教程分享Spark快速入門(72集影片+原始碼+筆記)程式設計師大資料Spark原始碼筆記
- 好程式設計師大資料培訓分享常見的Hadoop和Spark專案程式設計師大資料HadoopSpark
- 好程式設計師大資料教程分享之Hadoop優缺點程式設計師大資料Hadoop
- 好程式設計師分享自學大資料入門乾貨程式設計師大資料
- 好程式設計師大資料培訓分享Hadoop入門學習線路圖程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享spark之Scala程式設計師大資料Spark
- 好程式設計師大資料教程:SparkShell和IDEA中編寫Spark程式程式設計師大資料SparkIdea
- 好程式設計師大資料分享Spark任務和叢集啟動流程程式設計師大資料Spark
- 好程式設計師大資料教程分享大資料之流程控制程式設計師大資料
- 好程式設計師大資料培訓分享Spark技術總結程式設計師大資料Spark
- 好程式設計師大資料學習路線分享spark之Scala程式設計師大資料Spark
- 好程式設計師大資料培訓分享之Ambari和ClouderaManager對比程式設計師大資料Cloud
- 好程式設計師大資料教程分享:HDFS基本概念程式設計師大資料
- 好程式設計師大資料培訓分享Hadoop的shuffle過程程式設計師大資料Hadoop
- 好程式設計師大資料教程分享實用的大資料之陣列程式設計師大資料陣列
- 好程式設計師大資料培訓分享:Hadoop叢集同步程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享怎樣進行大資料入門學習程式設計師大資料
- 好程式設計師大資料高階班分享 Spark知識點集合程式設計師大資料Spark
- 好程式設計師大資料培訓分享Spark需要什麼基礎?程式設計師大資料Spark
- 好程式設計師大資料教程分享Scala系列之閉包程式設計師大資料
- 好程式設計師大資料培訓分享Hadoop怎樣處理資料?程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享Hadoop分散式叢集程式設計師大資料Hadoop分散式
- 好程式設計師大資料教程分享HDFS常用shell和web介面介紹程式設計師大資料Web
- 好程式設計師大資料入門學習之Hadoop技術優缺點程式設計師大資料Hadoop
- 好程式設計師web前端分享主流CSS image比較程式設計師Web前端CSS
- 好程式設計師大資料教程分享HadoopHDFS操作命令總結程式設計師大資料Hadoop
- 好程式設計師大資料影片教程從零基礎入門到精通程式設計師大資料
- 好程式設計師Java教程分享Jmeter效能測試程式設計師JavaJMeter
- 好程式設計師大資料學習路線分享Hadoop機架感知程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享Hadoop技術優缺點程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享大資料的應用程式設計師大資料
- 好程式設計師大資料教程Hadoop全分佈安裝(非HA)程式設計師大資料Hadoop
- 好程式設計師分享大資料三大必備技能程式設計師大資料
- 好程式設計師分享大資料教程之執行緒高階部分程式設計師大資料執行緒
- 好程式設計師大資料基礎教程分享TextFile分割槽問題程式設計師大資料