Hadoop Storm Spark比較
Hadoop
Hadoop是磁碟級計算,進行計算時,資料在磁碟上,需要讀寫磁碟;
Hadoop M/R基於HDFS,需要切分輸入資料、產生中間資料檔案、排序、資料壓縮、多份複製等,效率較低。
假設利用hadoop,則需要先存入hdfs,按每一分鐘切一個檔案的粒度來算(這個粒度已經極端的細了,再小的話hdfs上會一堆小檔案),hadoop開始計算時,1分鐘已經過去了,然後再開始排程任務又花了一分鐘,然後作業執行起來,假設機器特別多,幾鈔鍾就算完了,然後寫資料庫假設也花了很少的時間,這樣,從資料產生到最後可以使用已經過去了至少兩分多鐘。
Strom
Storm是記憶體級計算,資料直接通過網路匯入記憶體,磁碟訪問延遲約為記憶體訪問延遲的75000倍;
storm的網路直傳、記憶體計算,其時延必然比hadoop的通過hdfs傳輸低得多;當計算模型比較適合流式時,storm的流式處理,省去了批處理的收集資料的時間;因為storm是服務型的作業,也省去了作業排程的時延。所以從時延上來看,storm要快於hadoop。
流式計算是資料產生時,則有一個程式去一直監控日誌的產生,產生一行就通過一個傳輸系統發給流式計算系統,然後流式計算系統直接處理,處理完之後直接寫入資料庫,每條資料從產生到寫入資料庫,在資源充足時可以在毫秒級別完成。
Storm 基於ZeroMQ這個高效能的訊息通訊庫,不持久化資料;
=====================
兩者面向的領域也不完全相同,一個是批量處理,基於任務排程的;另外一個是實時處理,基於流。
以水為例,Hadoop可以看作是純淨水,一桶桶地搬;而Storm是用水管,預先接好(Topology),然後開啟水龍頭,水就源源不斷地流出來了
Spark
備註
註釋:
1. 延時 , 指資料從產生到運算產生結果的時間,“快”應該主要指這個。
2. 吞吐, 指系統單位時間處理的資料量。
相關文章
- Storm與Spark Streaming比較ORMSpark
- Hadoop與Spark的比較HadoopSpark
- 大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink大資料框架HadoopSparkORM
- 三個大資料處理框架:Storm,Spark和Samza介紹比較大資料框架ORMSpark
- 科普文:從大資料到Hadoop,Spark,Storm大資料HadoopSparkORM
- 大資料入門課程:Hadoop和spark的效能比較大資料HadoopSpark
- Spark只比Hadoop快19% ?SparkHadoop
- 好程式設計師技術解析Hadoop和spark的效能比較程式設計師HadoopSpark
- Elasticsearch、MongoDB和Hadoop比較。ElasticsearchMongoDBHadoop
- Apache Ignite 與 Apache Spark比較ApacheSpark
- 大資料Storm相比於Spark、Hadoop有哪些優勢(摘錄)大資料ORMSparkHadoop
- 好程式設計師分享大資料入門教程:Hadoop和spark的效能比較程式設計師大資料HadoopSpark
- 比較SQL資料庫和HadoopSQL資料庫Hadoop
- Hadoop - 任務排程系統比較Hadoop
- 實時計算框架特點及對比:Flink、Spark Streaming、Storm框架SparkORM
- hadoop&spark mapreduce對比 & 框架設計和理解HadoopSpark框架
- 比較 Apache Hadoop 資料儲存格式 - techwellApacheHadoop
- 比Storm更快的Twitter HeronORM
- Spark在Hadoop叢集上的配置(spark-1.1.0-bin-hadoop2.4)SparkHadoop
- js 深比較和淺比較JS
- Hadoop與Spark關係HadoopSpark
- 【hadoop/Spark】相關命令HadoopSpark
- Storm,Spark和Samza三種框架有何區別?ORMSpark框架
- Spark 與 Hadoop 關於 TeraGen/TeraSort 的對比實驗(包含原始碼)SparkHadoop原始碼
- Apache Hadoop Yarn與Kubernetes比較選擇 - codehunterApacheHadoopYarn
- Hadoop日記Day15---MapReduce新舊api的比較HadoopAPI
- hadoop:spark-project專案的hadoop配置HadoopSparkProject
- hadoop和spark的區別HadoopSpark
- 利用docker搭建spark hadoop workbenchDockerSparkHadoop
- hadoop+spark偽分散式HadoopSpark分散式
- Python解惑:整數比較 is ==的比較Python
- 字串比較字串
- Integer比較
- 比較集合
- Oracle date 型別比較和String比較Oracle型別
- Hadoop/Spark 太重,esProc SPL 很輕HadoopSpark
- HADOOP SPARK 叢集環境搭建HadoopSpark
- Apache 流框架 Flink,Spark Streaming,Storm對比分析(2)Apache框架SparkORM