Hadoop Storm Spark比較

迅800發表於2017-05-31

Hadoop

Hadoop是磁碟級計算，進行計算時，資料在磁碟上，需要讀寫磁碟;

Hadoop M/R基於HDFS，需要切分輸入資料、產生中間資料檔案、排序、資料壓縮、多份複製等，效率較低。

假設利用hadoop，則需要先存入hdfs，按每一分鐘切一個檔案的粒度來算（這個粒度已經極端的細了，再小的話hdfs上會一堆小檔案），hadoop開始計算時，1分鐘已經過去了，然後再開始排程任務又花了一分鐘，然後作業執行起來，假設機器特別多，幾鈔鍾就算完了，然後寫資料庫假設也花了很少的時間，這樣，從資料產生到最後可以使用已經過去了至少兩分多鐘。

Strom

Storm是記憶體級計算，資料直接通過網路匯入記憶體,磁碟訪問延遲約為記憶體訪問延遲的75000倍;

storm的網路直傳、記憶體計算，其時延必然比hadoop的通過hdfs傳輸低得多；當計算模型比較適合流式時，storm的流式處理，省去了批處理的收集資料的時間；因為storm是服務型的作業，也省去了作業排程的時延。所以從時延上來看，storm要快於hadoop。

流式計算是資料產生時，則有一個程式去一直監控日誌的產生，產生一行就通過一個傳輸系統發給流式計算系統，然後流式計算系統直接處理，處理完之後直接寫入資料庫，每條資料從產生到寫入資料庫，在資源充足時可以在毫秒級別完成。
Storm 基於ZeroMQ這個高效能的訊息通訊庫，不持久化資料；

=====================
兩者面向的領域也不完全相同，一個是批量處理，基於任務排程的；另外一個是實時處理，基於流。
以水為例，Hadoop可以看作是純淨水，一桶桶地搬；而Storm是用水管，預先接好（Topology），然後開啟水龍頭，水就源源不斷地流出來了

Spark

備註

註釋：
1. 延時，指資料從產生到運算產生結果的時間，“快”應該主要指這個。
2. 吞吐，指系統單位時間處理的資料量。

大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink
2023-02-07
大資料框架HadoopSparkORM
大資料入門課程：Hadoop和spark的效能比較
2018-04-04
大資料HadoopSpark
好程式設計師技術解析Hadoop和spark的效能比較
2019-06-17
程式設計師HadoopSpark
大資料Storm相比於Spark、Hadoop有哪些優勢(摘錄)
2018-06-01
大資料ORMSparkHadoop
好程式設計師分享大資料入門教程：Hadoop和spark的效能比較
2020-06-16
程式設計師大資料HadoopSpark
實時計算框架特點及對比：Flink、Spark Streaming、Storm
2023-01-18
框架SparkORM
Apache Hadoop Yarn與Kubernetes比較選擇 - codehunter
2022-01-14
ApacheHadoopYarn
比較 Apache Hadoop 資料儲存格式 - techwell
2021-12-24
ApacheHadoop
Hadoop與Spark關係
2018-11-11
HadoopSpark
【hadoop/Spark】相關命令
2024-06-07
HadoopSpark
hadoop：spark-project專案的hadoop配置
2018-09-18
HadoopSparkProject
Apache 流框架 Flink，Spark Streaming，Storm對比分析（1）
2019-03-04
Apache框架SparkORM
Apache 流框架 Flink，Spark Streaming，Storm對比分析（2）
2019-02-26
Apache框架SparkORM
Apache 流框架 Flink，Spark Streaming，Storm對比分析（一）
2018-04-27
Apache框架SparkORM
Apache 流框架 Flink，Spark Streaming，Storm對比分析（二）
2018-04-27
Apache框架SparkORM
Storm，Spark和Samza三種框架有何區別？
2023-04-25
ORMSpark框架
hadoop和spark的區別
2018-11-30
HadoopSpark
hadoop+spark偽分散式
2024-04-12
HadoopSpark分散式
js 深比較和淺比較
2020-11-26
JS
技術解讀：Hadoop、PostgreSQL與Storm正面比拼報告！
2018-06-15
HadoopSQLORM
Hadoop/Spark 太重，esProc SPL 很輕
2023-10-12
HadoopSpark
Oracle date 型別比較和String比較
2019-12-02
Oracle型別
如何掌握Spark和Hadoop的架構
2019-07-17
SparkHadoop架構
字串比較
2019-05-11
字串
Integer比較
2024-09-07
比較集合
2024-11-09
效能比較
2022-06-16
Spark Streaming，Flink，Storm，Kafka Streams，Samza：如何選擇流處理框架
2020-06-10
SparkORMKafka框架
談談Hadoop MapReduce和Spark MR實現
2020-07-27
HadoopSpark
Q：Spark和Hadoop的架構區別
2022-07-07
SparkHadoop架構
Go和Python比較的話，哪個比較好？
2019-04-03
GoPython
比較檔案是否相同，（比較MD5值）
2020-10-22
[C++] 自定義C++比較器比較大小
2020-10-09
C++
流計算框架 Flink 與 Storm 的效能對比
2019-04-29
框架ORM
數字比較
2018-10-14
PHP比較字串
2018-09-14
PHP字串
常用 NoSQL 比較
2024-10-09
SQL
列舉比較
2024-10-23
Jsonunit 比較jsondiff
2024-08-17
JSON

Hadoop Storm Spark比較

Hadoop

Strom

Spark

備註

相關文章