Storm

mcxiaoracle發表於2022-07-06

    Storm是一個免費並開源的 分散式實時計算系統。利用Storm可以很容易做到可靠地處理無限的資料流,像Hadoop批次處理大資料一樣,Storm可以實時處理資料。

storm 不處理靜態資料,但它處理連續的流資料。

1.Storm用於實時計算,Hadoop用於離線計算。


2. Storm處理的資料儲存在記憶體中,源源不斷;Hadoop處理的資料儲存在檔案系統中,一批一批。


3.  Storm的資料透過網路傳輸進來;Hadoop的資料儲存在磁碟中。


4.  Storm與Hadoop的程式設計模型相似




Nimbus

Storm叢集的Master節點,負責分發使用者程式碼,指派給具體的Supervisor節點上的Worker節點,去執行Topology對應的元件(Spout/Bolt)的Task。

Supervisor

Storm叢集的從節點,負責管理執行在Supervisor節點上的每一個Worker程式的啟動和終止。透過Storm的配置檔案中的supervisor.slots.ports配置項,可以指定在一個Supervisor上最大允許多少個Slot,每個Slot透過埠號來唯一標識,一個埠號對應一個Worker程式(如果該Worker程式被啟動)。


Nimbus

Storm叢集的Master節點,負責分發使用者程式碼,指派給具體的Supervisor節點上的Worker節點,去執行Topology對應的元件(Spout/Bolt)的Task。

Supervisor

Storm叢集的從節點,負責管理執行在Supervisor節點上的每一個Worker程式的啟動和終止。透過Storm的配置檔案中的supervisor.slots.ports配置項,可以指定在一個Supervisor上最大允許多少個Slot,每個Slot透過埠號來唯一標識,一個埠號對應一個Worker程式(如果該Worker程式被啟動)。


Worker


執行具體處理元件邏輯的程式。Worker執行的任務型別只有兩種,一種是Spout任務,一種是Bolt任務。


Task


worker中每一個spout/bolt的執行緒稱為一個task. 在storm0.8之後,task不再與物理執行緒對應,不同spout/bolt的task可能會共享一個物理執行緒,該執行緒稱為executor。


ZooKeeper

Topology:Storm中執行的一個實時應用程式的名稱。將 Spout、 Bolt整合起來的拓撲圖。定義了 Spout和 Bolt的結合關係、併發數量、配置等等。


 Spout:在一個topology中獲取源資料流的元件。通常情況下spout會從外部資料來源中讀取資料,然後轉換為topology內部的源資料。


 Bolt:接受資料然後執行處理的元件,使用者可以在其中執行自己想要的操作。


 Tuple:一次訊息傳遞的基本單元,理解為一組訊息就是一個Tuple。


 Stream:Tuple的集合。表示資料的流向。








————————————————

版權宣告:本文為CSDN博主「一路前行1」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處連結及本宣告。

原文連結:

https://blog.csdn.net/weiyongle1996/article/details/77142245






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69949806/viewspace-2904394/,如需轉載,請註明出處,否則將追究法律責任。

相關文章