三個大資料處理框架：Storm，Spark和Samza介紹比較

桃子紅了吶發表於2017-11-15

大資料框架ORMSpark

轉自：http://www.open-open.com/lib/view/open1426065900123.html

許多分散式計算系統都可以實時或接近實時地處理大資料流。本文將對三種Apache框架分別進行簡單介紹，然後嘗試快速、高度概述其異同。

Apache Storm

在Storm中，先要設計一個用於實時計算的圖狀結構，我們稱之為拓撲（topology）。這個拓撲將會被提交給叢集，由叢集中的主控節點（master node）分發程式碼，將任務分配給工作節點（worker node）執行。一個拓撲中包括spout和bolt兩種角色，其中spout傳送訊息，負責將資料流以tuple元組的形式傳送出去；而bolt則負責轉換這些資料流，在bolt中可以完成計算、過濾等操作，bolt自身也可以隨機將資料傳送給其他bolt。由spout發射出的tuple是不可變數組，對應著固定的鍵值對。

Storm的流處理可對框架中名為Topology（拓撲）的DAG（Directed Acyclic Graph，有向無環圖）進行編排。這些拓撲描述了當資料片段進入系統後，需要對每個傳入的片段執行的不同轉換或步驟。

三個大資料處理框架：Storm，Spark和Samza 介紹比較

Apache Spark

Spark Streaming是核心Spark API的一個擴充套件，它並不會像Storm那樣一次一個地處理資料流，而是在處理前按時間間隔預先將其切分為一段一段的批處理作業。Spark針對持續性數據流的抽象稱為DStream（DiscretizedStream），一個DStream是一個微批處理（micro-batching）的RDD（彈性分散式資料集）；而RDD則是一種分散式資料集，能夠以兩種方式並行運作，分別是任意函式和滑動視窗資料的轉換。

三個大資料處理框架：Storm，Spark和Samza 介紹比較

Apache Samza

Samza處理資料流時，會分別按次處理每條收到的訊息。Samza的流單位既不是元組，也不是Dstream，而是一條條訊息。在Samza中，資料流被切分開來，每個部分都由一組只讀訊息的有序數列構成，而這些訊息每條都有一個特定的ID（offset）。該系統還支援批處理，即逐次處理同一個資料流分割槽的多條消息。Samza的執行與資料流模組都是可插拔式的，儘管Samza的特色是依賴Hadoop的Yarn（另一種資源排程器）和Apache Kafka。

三個大資料處理框架：Storm，Spark和Samza 介紹比較

Samza可以使用以本地鍵值儲存方式實現的容錯檢查點系統儲存資料。這樣Samza即可獲得“至少一次”的交付保障，但面對由於資料可能多次交付造成的失敗，該技術無法對彙總後狀態（例如計數）提供精確恢復。

共同之處

以上三種實時計算系統都是開源的分散式系統，具有低延遲、可擴充套件和容錯性諸多優點，它們的共同特色在於：允許你在執行資料流程式碼時，將任務分配到一系列具有容錯能力的計算機上並行執行。此外，它們都提供了簡單的API來簡化底層實現的複雜程度。

三種框架的術語名詞不同，但是其代表的概念十分相似：

三個大資料處理框架：Storm，Spark和Samza 介紹比較

對比圖

下面表格總結了一些不同之處：

三個大資料處理框架：Storm，Spark和Samza 介紹比較

資料傳遞形式分為三大類：

最多一次（At-most-once）：訊息可能會丟失，這通常是最不理想的結果。
最少一次（At-least-once）：訊息可能會再次傳送（沒有丟失的情況，但是會產生冗餘）。在許多用例中已經足夠。
恰好一次（Exactly-once）：每條訊息都被髮送過一次且僅僅一次（沒有丟失，沒有冗餘）。這是最佳情況，儘管很難保證在所有用例中都實現。

另一個方面是狀態管理：對狀態的儲存有不同的策略，Spark Streaming將資料寫入分散式檔案系統中（例如HDFS）；Samza使用嵌入式鍵值儲存；而在Storm中，或者將狀態管理滾動至應用層面，或者使用更高層面的抽象Trident。

本文轉自張昺華-sky部落格園部落格，原文連結：http://www.cnblogs.com/bonelee/p/6295656.html，如需轉載請自行聯絡原作者

相關文章

大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink
2023-02-07
大資料框架HadoopSparkORM
Storm，Spark和Samza三種框架有何區別？
2023-04-25
ORMSpark框架
Spark Streaming，Flink，Storm，Kafka Streams，Samza：如何選擇流處理框架
2020-06-10
SparkORMKafka框架
三種大資料流處理框架選擇比較：Apache Kafka流、Apache Spark流和Apache Flink - quora
2020-12-08
大資料框架ApacheKafkaSpark
Spark大資料處理框架入門(單機版)
2021-05-21
Spark大資料框架
大資料學習，大資料發展趨勢和Spark介紹
2018-10-17
大資料Spark
大資料入門課程：Hadoop和spark的效能比較
2018-04-04
大資料HadoopSpark
餘老師帶你學習大資料-Spark快速大資料處理第六章第一節Spark總體介紹
2020-11-18
大資料Spark
22個大資料開發處理框架平臺和工具
2019-04-21
大資料框架
大資料常用處理框架
2020-12-22
大資料框架
使用Storm、Kafka和ElasticSearch處理實時資料 -javacodegeeks
2020-10-23
ORMKafkaElasticsearchJava
流式處理框架storm淺析（下篇）
2019-03-04
框架ORM
大資料流處理：Flume、Kafka和NiFi對比
2019-07-19
大資料KafkaNifi
spark處理json資料Demo
2019-02-26
SparkJSON
MT6177晶片資料/處理器介紹
2018-10-08
晶片
MT6771晶片資料/處理器介紹
2018-09-20
晶片
海量資料處理利器 Roaring BitMap 原理介紹
2024-06-20
實時計算框架特點及對比：Flink、Spark Streaming、Storm
2023-01-18
框架SparkORM
大資料分析三大實用工具介紹！
2022-03-07
大資料
好程式設計師分享大資料入門教程：Hadoop和spark的效能比較
2020-06-16
程式設計師大資料HadoopSpark
DM 原始碼閱讀系列文章（三）資料同步處理單元介紹
2019-04-11
原始碼
Python NLP庫 Top6的介紹和比較
2018-07-31
Python
Python NLP庫top6的介紹和比較
2018-08-24
Python
ETL介紹與ETL工具比較
2019-05-13
大資料和Hadoop平臺介紹
2020-11-22
大資料Hadoop
資料演算法 Hadoop/Spark大資料處理---第十六章
2018-07-08
演算法HadoopSpark大資料
大資料Storm相比於Spark、Hadoop有哪些優勢(摘錄)
2018-06-01
大資料ORMSparkHadoop
Storm大資料位置
2022-09-14
ORM大資料
帶你入坑大資料（三） --- MapReduce介紹
2019-11-22
大資料
影象識別及處理相關資料集介紹
2019-03-09
MTK晶片資料大全,MTK處理器型號介紹
2018-08-16
晶片
資料演算法 Hadoop/Spark大資料處理---第十二章
2018-07-08
演算法HadoopSpark大資料
麒麟659和麒麟710處理器引數比較
2019-05-28
Spark的危機與機遇：未來必然是AI框架倒推資料處理框架
2019-03-04
SparkAI框架
DeerOJ的前端框架介紹-libs資料夾和controller資料夾
2024-05-30
前端框架Controller
大資料6.1 - 實時分析（storm和kafka）
2018-04-08
大資料ORMKafka
三大主流前端框架介紹及選型方法
2023-12-21
前端框架
大資料系統框架中hadoop服務角色介紹
2018-09-11
大資料框架Hadoop
高通MSM8953 Android處理器效能介紹資料
2018-10-15
Android