流式大資料處理的三種框架：Storm，Spark和Samza

TP_funny發表於2015-03-11

原文網址 : http://www.topthink.com/topic/9660.html

Apache Storm
在Storm中，先要設計一個用於實時計算的圖狀結構，我們稱之為拓撲（topology）。這個拓撲將會被提交給叢集，由叢集中的主控節點（master node）分發程式碼，將任務分配給工作節點（worker node）執行。一個拓撲中包括spout和bolt兩種角色，其中spout傳送訊息，負責將資料流以tuple元組的形式傳送出去；而bolt則負責轉發資料流，在bolt中可以完成計算、過濾等操作，bolt自身也可以隨機將資料傳送給其他bolt。在storm中，每個都是tuple是不可變陣列，對應著固定的鍵值對。

Apache Spark
Spark Streaming是核心Spark API的一個擴充套件，它並不會像Storm那樣一次一個地處理資料流，而是在處理前按時間間隔預先將其切分為一段一段的批處理作業。Spark針對持續性資料流的抽象稱為DStream（DiscretizedStream），一個DStream是一個微批處理（micro-batching）的RDD（彈性分散式資料集）；而RDD則是一種分散式資料集，能夠以兩種方式並行運作，分別是任意函式和滑動視窗資料的轉換。

Apache Samza
Samza處理資料流時，會分別按次處理每條收到的訊息。Samza的流單位既不是元組，也不是Dstream，而是一條條訊息。在Samza中，資料流被切分開來，每個部分都由一組只讀訊息的有序數列構成，而這些訊息每條都有一個特定的ID（offset）。該系統還支援批處理，即逐次處理同一個資料流分割槽的多條訊息。Samza的執行與資料流模組都是可插拔式的，儘管Samza的特色是依賴Hadoop的Yarn（另一種資源排程器）和Apache Kafka。

共同之處
以上三種實時計算系統都是開源的分散式系統，具有低延遲、可擴充套件和容錯性諸多優點，它們的共同特色在於：允許你在執行資料流程式碼時，將任務分配到一系列具有容錯能力的計算機上並行執行。此外，它們都提供了簡單的API來簡化底層實現的複雜程度。
三種框架的術語名詞不同，但是其代表的概念十分相似：

對比圖
下面表格總結了一些不同之處：

資料傳遞形式分為三大類：

最多一次（At-most-once）：訊息可能會丟失，這通常是最不理想的結果。
最少一次（At-least-once）：訊息可能會再次傳送（沒有丟失的情況，但是會產生冗餘）。在許多用例中已經足夠。
恰好一次（Exactly-once）：每條訊息都被髮送過一次且僅僅一次（沒有丟失，沒有冗餘）。這是最佳情況，儘管很難保證在所有用例中都實現。

另一個方面是狀態管理：對狀態的儲存有不同的策略，Spark Streaming將資料寫入分散式檔案系統中（例如HDFS）；Samza使用嵌入式鍵值儲存；而在Storm中，或者將狀態管理滾動至應用層面，或者使用更高層面的抽象Trident。

用例

這三種框架在處理連續性的大量實時資料時的表現均出色而高效，那麼使用哪一種呢？選擇時並沒有什麼硬性規定，最多就是幾個指導方針。
如果你想要的是一個允許增量計算的高速事件處理系統，Storm會是最佳選擇。它可以應對你在客戶端等待結果的同時，進一步進行分散式計算的需求，使用開箱即用的分散式RPC（DRPC）就可以了。最後但同樣重要的原因：Storm使用Apache Thrift，你可以用任何程式語言來編寫拓撲結構。如果你需要狀態持續，同時/或者達到恰好一次的傳遞效果，應當看看更高層面的Trdent API，它同時也提供了微批處理的方式。

使用Storm的公司有：Twitter，雅虎，Spotify還有The Weather Channel等。
說到微批處理，如果你必須有狀態的計算，恰好一次的遞送，並且不介意高延遲的話，那麼可以考慮Spark Streaming，特別如果你還計劃圖形操作、機器學習或者訪問SQL的話，Apache Spark的stack允許你將一些library與資料流相結合（Spark SQL，Mllib，GraphX），它們會提供便捷的一體化程式設計模型。尤其是資料流演算法（例如：K均值流媒體）允許Spark實時決策的促進。

使用Spark的公司有：亞馬遜，雅虎，NASA JPL，eBay還有百度等。

如果你有大量的狀態需要處理，比如每個分割槽都有許多十億位元組，那麼可以選擇Samza。由於Samza將儲存與處理放在同一臺機器上，在保持處理高效的同時，還不會額外載入記憶體。這種框架提供了靈活的可插拔API：它的預設execution、訊息傳送還有儲存引擎操作都可以根據你的選擇隨時進行替換。此外，如果你有大量的資料流處理階段，且分別來自不同程式碼庫的不同團隊，那麼Samza的細顆粒工作特性會尤其適用，因為它們可以在影響最小化的前提下完成增加或移除的工作。

使用Samza的公司有：LinkedIn，Intuit，Metamarkets，Quantiply，Fortscale等。

結論
本文中我們只對這三種Apache框架進行了簡單的瞭解，並未覆蓋到這些框架中大量的功能與更多細微的差異。同時，文中這三種框架對比也是受到限制的，因為這些框架都在一直不斷的發展，這一點是我們應當牢記的。

原文連結：Streaming Big Data: Storm, Spark and Samza （編譯/孫薇責編/周建丁）

來自：PHP100

前端框架

評論(1)

Storm，Spark和Samza三種框架有何區別？
2023-04-25
ORMSpark框架
大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink
2023-02-07
大資料框架HadoopSparkORM
Spark Streaming，Flink，Storm，Kafka Streams，Samza：如何選擇流處理框架
2020-06-10
SparkORMKafka框架
流式處理框架storm淺析（下篇）
2019-03-04
框架ORM
Spark Streaming 流式處理
2018-11-13
Spark
三種大資料流處理框架選擇比較：Apache Kafka流、Apache Spark流和Apache Flink - quora
2020-12-08
大資料框架ApacheKafkaSpark
Spark大資料處理框架入門(單機版)
2021-05-21
Spark大資料框架
Mysql增量寫入Hdfs（二） --Storm+hdfs的流式處理
2018-12-12
MySqlORM
大資料常用處理框架
2020-12-22
大資料框架
使用Storm、Kafka和ElasticSearch處理實時資料 -javacodegeeks
2020-10-23
ORMKafkaElasticsearchJava
Apache Beam，批處理和流式處理的融合！
2020-12-02
Apache
Python資料處理(一)：處理 JSON、XML、CSV 三種格式資料
2019-01-27
PythonJSONXML
spark處理json資料Demo
2019-02-26
SparkJSON
Spark的危機與機遇：未來必然是AI框架倒推資料處理框架
2019-03-04
SparkAI框架
22個大資料開發處理框架平臺和工具
2019-04-21
大資料框架
資料演算法 Hadoop/Spark大資料處理---第十六章
2018-07-08
演算法HadoopSpark大資料
大資料Storm相比於Spark、Hadoop有哪些優勢(摘錄)
2018-06-01
大資料ORMSparkHadoop
RocketMQ Connect 構建流式資料處理平臺
2022-12-16
MQ
Storm大資料位置
2022-09-14
ORM大資料
Janus：Myntra 的資料處理框架
2022-11-21
框架
資料演算法 Hadoop/Spark大資料處理---第十二章
2018-07-08
演算法HadoopSpark大資料
強大：MyBatis ，三種流式查詢方法
2021-01-31
MyBatis
使用流式計算引擎 eKuiper 處理 Protocol Buffers 資料
2022-08-18
UIProtocol
大資料6.1 - 實時分析（storm和kafka）
2018-04-08
大資料ORMKafka
Spark如何與深度學習框架協作，處理非結構化資料
2020-06-18
Spark深度學習框架
Apache 流框架 Flink，Spark Streaming，Storm對比分析（1）
2019-03-04
Apache框架SparkORM
Apache 流框架 Flink，Spark Streaming，Storm對比分析（2）
2019-02-26
Apache框架SparkORM
Apache 流框架 Flink，Spark Streaming，Storm對比分析（一）
2018-04-27
Apache框架SparkORM
Apache 流框架 Flink，Spark Streaming，Storm對比分析（二）
2018-04-27
Apache框架SparkORM
分散式流處理框架 Apache Storm —— 程式設計模型詳解
2019-06-28
分散式框架ApacheORM程式設計模型
大資料處理的基本流程
2019-06-11
大資料
Serverless Streaming：毫秒級流式大檔案處理探秘
2023-02-17
Server
Spark SQL三種join和資料傾斜的產生和解決辦法
2022-02-28
SparkSQL
java大資料處理：如何使用Java技術實現高效的大資料處理
2023-11-22
Java大資料
剖析大資料平臺的資料處理
2020-04-04
大資料
Go 通過 Map/Filter/ForEach 等流式 API 高效處理資料
2022-01-04
GoFilterAPI
js的三種非同步處理
2019-01-21
JS非同步
資料清洗和資料處理
2020-03-03
Spark在處理資料的時候，會將資料都載入到記憶體再做處理嗎？
2021-02-22
Spark記憶體

流式大資料處理的三種框架：Storm，Spark和Samza

相關文章