大資料入門課程:Hadoop和spark的效能比較
大資料課程,一門看似很專業實際很複雜的學科,備受追捧。因為大資料的就業前景真的很誘惑人,單單是就業薪資就能讓人趨之若鶩。今天大資料講師給大家分享的技術知識是大資料入門課程之Hadoop和spark的效能比較。
曾經看過一個非常有趣的比喻,Hadoop是一家大型包工隊,可以組織一大堆人合作(HDFS)搬磚蓋房(用MapReduce),但是速度比較慢。
Spark是另一家包工隊,雖然成立得晚一些,但是他們搬磚很快很靈活,可以實時互動地蓋房子,比Hadoop快得多。
Hadoop開始升級,指定排程專家YARN排程工人。Spark從多個倉庫搬磚(HDFS,Cassandra,S3,HBase),還允許不同專家如YARN/ MESOS對人員和任務進行排程。
當然,他們兩家並不是水火不容。Spark經常和Hadoop團隊合作,這讓問題變得更加複雜。不管怎麼說,Spark和Hadoop都是兩個獨立的包工隊,都有著各自的優缺點和特定的業務用例。
Hadoop和spark的效能比較
Spark在記憶體中執行速度比Hadoop快100倍,在磁碟上執行速度快10倍。眾所周知,Spark在數量只有十分之一的機器上,對100TB資料進行排序的速度比Hadoop MapReduce快3倍。此外,Spark在機器學習應用中的速度同樣更快,例如Naive Bayes和k-means。
由處理速度衡量的Spark效能之所以比Hadoop更優,原因如下:
1、每次執行MapReduce任務時,Spark都不會受到輸入輸出的限制。事實證明,應用程式的速度要快得多。
2、Spark的DAG可以在各個步驟之間進行優化。Hadoop在MapReduce步驟之間沒有任何週期性連線,這意味著在該級別不會發生效能調整。
但是,如果Spark與其他共享服務在YARN上執行,則效能可能會降低並導致RAM開銷記憶體洩漏。出於這個原因,如果使用者有批處理的訴求,Hadoop被認為是更高效的系統。
文章寫到這也該結束了,如果你對這篇文章感到意猶未盡,對大資料感興趣,歡迎大家一起交流學習。
相關文章
- 好程式設計師分享大資料入門教程:Hadoop和spark的效能比較程式設計師大資料HadoopSpark
- 好程式設計師技術解析Hadoop和spark的效能比較程式設計師HadoopSpark
- 大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink大資料框架HadoopSparkORM
- CSDN“攢課”課題2:Hadoop入門和大資料應用視訊教程Hadoop大資料
- 大資料開發:剖析Hadoop和Spark的Shuffle過程差異大資料HadoopSpark
- [大資料之Spark]——快速入門大資料Spark
- 免費課程 | 大資料系列免費視訊教程(Linux、Hadoop、Spark、Kylin、Hive等)大資料LinuxHadoopSparkHive
- 大資料hadoop入門之hadoop家族產品詳解大資料Hadoop
- AI入門課程資源AI
- 比較 Apache Hadoop 資料儲存格式 - techwellApacheHadoop
- 雲端計算大資料學習路線課程大綱資料:hive入門操作大資料Hive
- 大資料入門:Hadoop Yarn元件基礎解析大資料HadoopYarn元件
- 大資料開發-Spark-初識Spark-Graph && 快速入門大資料Spark
- Spark資料分析概念入門Spark
- 大資料入門到精通課程學習,大資料學習,你還得知道這些大資料
- Hadoop v3.1 大資料技術快速入門Hadoop大資料
- 大資料技術之Hadoop(入門)第1章 大資料概論大資料Hadoop
- Spark入門(五)--Spark的reduce和reduceByKeySpark
- 大資料技術之Hadoop(入門) 第2章 從Hadoop框架討論大資料生態大資料Hadoop框架
- 《Hadoop+Spark大資料分析實戰》簡介HadoopSpark大資料
- 通過append hint來插入資料,演示它和普通插入資料的效能比較。APP
- hadoop大資料平臺安全基礎知識入門Hadoop大資料
- Hadoop大資料探勘從入門到進階實戰Hadoop大資料
- 初學者入門大資料,學習Hadoop的5個理由大資料Hadoop
- 每週一書《Spark與Hadoop大資料分析》分享!SparkHadoop大資料
- 效能比較
- 大資料技術之Hadoop(入門)第3章 Hadoop執行環境搭建大資料Hadoop
- hadoop和spark的區別HadoopSpark
- MySQL 中的 distinct 和 group by 的效能比較MySql
- 大資料學習路線教程圖,如何快速入門Spark大資料Spark
- 大資料入門學習之Hadoop技術優缺點大資料Hadoop
- 大資料hadoop 新手快速入門經典視訊教程大資料Hadoop
- 三種大資料流處理框架選擇比較:Apache Kafka流、Apache Spark流和Apache Flink - quora大資料框架ApacheKafkaSpark
- java大資料最全課程學習筆記(1)--Hadoop簡介和安裝及偽分散式Java大資料筆記Hadoop分散式
- 好程式設計師大資料培訓分享常見的Hadoop和Spark專案程式設計師大資料HadoopSpark
- 大資料架構師必讀:常見的七種Hadoop和Spark專案案例大資料架構HadoopSpark
- 使用 ES-Hadoop 將 Spark Streaming 流資料寫入 ESHadoopSpark
- 資料演算法 Hadoop/Spark大資料處理---第十六章演算法HadoopSpark大資料