大資料入門課程:Hadoop和spark的效能比較
大資料課程,一門看似很專業實際很複雜的學科,備受追捧。因為大資料的就業前景真的很誘惑人,單單是就業薪資就能讓人趨之若鶩。今天大資料講師給大家分享的技術知識是大資料入門課程之Hadoop和spark的效能比較。
曾經看過一個非常有趣的比喻,Hadoop是一家大型包工隊,可以組織一大堆人合作(HDFS)搬磚蓋房(用MapReduce),但是速度比較慢。
Spark是另一家包工隊,雖然成立得晚一些,但是他們搬磚很快很靈活,可以實時互動地蓋房子,比Hadoop快得多。
Hadoop開始升級,指定排程專家YARN排程工人。Spark從多個倉庫搬磚(HDFS,Cassandra,S3,HBase),還允許不同專家如YARN/ MESOS對人員和任務進行排程。
當然,他們兩家並不是水火不容。Spark經常和Hadoop團隊合作,這讓問題變得更加複雜。不管怎麼說,Spark和Hadoop都是兩個獨立的包工隊,都有著各自的優缺點和特定的業務用例。
Hadoop和spark的效能比較
Spark在記憶體中執行速度比Hadoop快100倍,在磁碟上執行速度快10倍。眾所周知,Spark在數量只有十分之一的機器上,對100TB資料進行排序的速度比Hadoop MapReduce快3倍。此外,Spark在機器學習應用中的速度同樣更快,例如Naive Bayes和k-means。
由處理速度衡量的Spark效能之所以比Hadoop更優,原因如下:
1、每次執行MapReduce任務時,Spark都不會受到輸入輸出的限制。事實證明,應用程式的速度要快得多。
2、Spark的DAG可以在各個步驟之間進行優化。Hadoop在MapReduce步驟之間沒有任何週期性連線,這意味著在該級別不會發生效能調整。
但是,如果Spark與其他共享服務在YARN上執行,則效能可能會降低並導致RAM開銷記憶體洩漏。出於這個原因,如果使用者有批處理的訴求,Hadoop被認為是更高效的系統。
文章寫到這也該結束了,如果你對這篇文章感到意猶未盡,對大資料感興趣,歡迎大家一起交流學習。
相關文章
- 好程式設計師分享大資料入門教程:Hadoop和spark的效能比較程式設計師大資料HadoopSpark
- Hadoop與Spark的比較HadoopSpark
- Hadoop Storm Spark比較HadoopORMSpark
- 《大資料Spark商業案例與效能調優100課》全球獨家大資料課程大資料Spark
- 好程式設計師技術解析Hadoop和spark的效能比較程式設計師HadoopSpark
- 比較SQL資料庫和HadoopSQL資料庫Hadoop
- CSDN“攢課”課題2:Hadoop入門和大資料應用視訊教程Hadoop大資料
- Hadoop入門和大資料應用Hadoop大資料
- 大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink大資料框架HadoopSparkORM
- MySQL大量資料入庫的效能比較MySql
- 大資料開發:剖析Hadoop和Spark的Shuffle過程差異大資料HadoopSpark
- [大資料之Spark]——快速入門大資料Spark
- 三個大資料處理框架:Storm,Spark和Samza介紹比較大資料框架ORMSpark
- MySQL大量資料入庫的效能比較(分割槽)MySql
- 雲端計算大資料學習路線課程大綱資料:hive入門操作大資料Hive
- 開源力量公開課第45期—Hadoop大資料入門指引Hadoop大資料
- AI入門課程資源AI
- 免費課程 | 大資料系列免費視訊教程(Linux、Hadoop、Spark、Kylin、Hive等)大資料LinuxHadoopSparkHive
- 在Apache Hadoop和Spark上加速大資料加密 [session]ApacheHadoopSpark大資料加密Session
- Elasticsearch、MongoDB和Hadoop比較。ElasticsearchMongoDBHadoop
- 大資料開發-Spark-初識Spark-Graph && 快速入門大資料Spark
- 大資料入門到精通課程學習,大資料學習,你還得知道這些大資料
- Spark資料分析概念入門Spark
- 【原創】比較資料泵和exp/imp對相同資料匯出/匯入的效能差異
- 大資料hadoop入門之hadoop家族產品詳解大資料Hadoop
- Hadoop - 任務排程系統比較Hadoop
- 資料科學中的 Spark 入門資料科學Spark
- 大資料量下MySQL插入方法的效能比較大資料MySql
- 大資料入門:Hadoop Yarn元件基礎解析大資料HadoopYarn元件
- 比較 Apache Hadoop 資料儲存格式 - techwellApacheHadoop
- XML資料讀取方式效能比較XML
- 百萬行資料查詢效能比較
- 用PHP連mysql和oracle資料庫效能比較(轉)PHPMySqlOracle資料庫
- 大資料前置課程—Scala大資料
- ORM框架和資料庫對系統效能影響的比較ORM框架資料庫
- 大資料技術之Hadoop(入門)第1章 大資料概論大資料Hadoop
- eAccelerator的安裝和效能比較
- DECODE和CASE的效能比較