Storm，Spark和Samza這三種實時計算系統都是開源的分散式系統，具有低延遲、可擴充套件和容錯性諸多優點，它們的共同特色在於：允許你在執行資料流程式碼時，將任務分配到一系列具有容錯能力的計算機上並行執行。

此外，它們都提供了簡單的 API來簡化底層實現的複雜程度。那麼，它們之間有何區別呢？

Apache Storm

在Storm中，先要設計一個用於實時計算的圖狀結構，我們稱之為拓撲（topology）。這個拓撲將會被提交給叢集，由叢集中的主控節點（master node）分發程式碼，將任務分配給工作節點（worker node）執行。一個拓撲中包括spout和bolt兩種角色，其中spout傳送訊息，負責將資料流以tuple元組的形式傳送出去；而bolt則負責轉換這些資料流，在bolt中可以完成計算、過濾等操作，bolt自身也可以隨機將資料傳送給其他bolt。由spout發射出的tuple是不可變陣列，對應著固定的鍵值對。

Apache Spark

Spark Streaming是核心Spark API的一個擴充套件，它並不會像Storm那樣一次一個地處理資料流，而是在處理前按時間間隔預先將其切分為一段一段的批處理作業。Spark針對持續性資料流的抽象稱為DStream（DiscretizedStream），一個DStream是一個微批處理（micro-batching）的RDD（彈性分散式資料集）；而RDD則是一種分散式資料集，能夠以兩種方式並行運作，分別是任意函式和滑動視窗資料的轉換。gendan5.com/zs/000001.html

Apache Samza

處理資料流時，會分別按次處理每條收到的訊息。Samza的流單位既不是元組，也不是Dstream，而是一條條訊息。在Samza中，資料流被切分開來，每個部分都由一組只讀訊息的有序數列構成，而這些訊息每條都有一個特定的ID（offset）。該系統還支援批處理，即逐次處理同一個資料流分割槽的多條訊息。Samza的執行與資料流模組都是可插拔式的，儘管Samza的特色是依賴Hadoop的Yarn（另一種資源排程器）和Apache Kafka。

Storm，Spark和Samza三種框架有何區別？

相關文章