Q:Spark和Hadoop的架構區別

mcxiaoracle發表於2022-07-07

Q:Spark和Hadoop的架構區別


A:Hadoop:MapRedcue由Map和Reduce兩個階段,並透過shuffle將兩個階段連線起來的。但是套用MapReduce模型解決問題,不得不將問題分解為若干個有依賴關係的子問題,每個子問題對應一個MapReduce作業,最終所有這些作業形成一個DAG。


Spark:是通用的DAG框架,可以將多個有依賴關係的作業轉換為一個大的DAG。核心思想是將Map和Reduce兩個操作進一步拆分為多個元操作,這些元操作可以靈活組合,產生新的操作,並經過一些控制程式組裝後形成一個大的DAG作業。


Q:Spark和Hadoop的中間計算結果處理區別


A:Hadoop:在DAG中,由於有多個MapReduce作業組成,每個作業都會從HDFS上讀取一次資料和寫一次資料(預設寫三份),即使這些MapReduce作業產生的資料是中間資料也需要寫HDFS。這種表達作業依賴關係的方式比較低效,會浪費大量不必要的磁碟和網路IO,根本原因是作業之間產生的資料不是直接流動的,而是藉助HDFS作為共享資料儲存系統。

————————————————

原文連結:https://blog.csdn.net/xiaokaiabcde/article/details/103030363


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69949806/viewspace-2904565/,如需轉載,請註明出處,否則將追究法律責任。

相關文章