為什麼選擇Twitter Storm？薦

MichaelChenl發表於2011-12-12

Rationale

在過去的十年裡，資料處理發生了革命性的變化。MapReduce，Hadoop，以及相關的技術使我們可以儲存和處理以前不可想象規模的資料。很遺憾，這些資料處理系統都不是實時系統，命中註定也不是它們。根本沒辦法把Hadoop變成一個實時系統；實時資料處理和批處理的許多要求在根本上有很大不同。

然而，企業對大規模實時資料處理要求越來越多。缺乏“實時Hadoop”是資料處理生態系統中最大的窘境。

Storm解決了這個窘境。

Storm之前，你通常必須手動建立一個由許多佇列和許多worker組成的網路來實現實時處理。worker處理佇列訊息，更新資料庫，傳送新訊息給其它佇列以供後續處理。很遺憾，這種方法有很大的侷限性。

乏味：你大部份開發時間花費在配置訊息傳送，部署worker，部署中間佇列。你關心的實時處理邏輯對應到你的程式碼的比例相對較小。

脆弱：沒有多少容錯。你負責保持每個worker和佇列正常工作。

痛苦伸縮：當單個worker或佇列的訊息吞吐量太高時，你需要分割槽，即資料如何分散。你需要重新配置其它worker，讓它們傳送訊息到新位置。這導致刪除或新增部件都可能失敗。

雖然佇列+workers的正規化能解決大量的訊息，訊息處理顯然是實時計算的基本正規化。問題是：你要怎麼做，才能在某種程度上保證資料不會丟失，對海量訊息輕鬆擴容，並且使用和運營工作都超級簡單呢？

Storm滿足這些目標。

Storm如此重要，為什麼？

Storm公開（expose）一組實時計算原語。類似MapReduce極大地簡化了編寫並行批處理程式，storm的原語極大地簡化了編寫並行實時計算程式。

Storm的關鍵特性：

用例非常廣泛：Storm可用於處理訊息和更新資料庫（流處理），在資料流上進行持續查詢，並以流的形式返回結果到客戶端（持續計算），並行化一個類似實時查詢的熱點查詢（分散式的RPC），還有更多的用例。Storm的一組很小的原語滿足了驚人數量的用例。

可伸縮：Storm隨時都可對大規模訊息進行擴容。擴容一個拓撲，你只需要新增機器和增加的拓撲結構的並行設定。看一個storm規模的例子，一個storm叢集有10個節點，一個最初的Storm應用每秒可以處理1,000,000個訊息（指spout和bolt總共發射的訊息總和），拓撲的其中一部分每秒數有數百個資料庫呼叫。Storm使用Zookeeper協調叢集，使其叢集可以擴容到非常大。

保證資料不丟失：實時系統必須對成功處理資料提供有力保證。系統丟棄資料的用例非常有限。Storm保證每個訊息都被處理，這直接與其它系統截然不同，如S4。

非常健壯：Storm與Hadoop不同，Hadoop難於管理早已臭名昭著，Storm叢集只是幹活。使使用者儘可能方便地管理storm叢集是storm專案的一個明確目標。

容錯：計算的執行過程中如果發生故障，Storm將在必要時重新分配任務。Storm確保計算永遠執行（或者直到你kill此計算）。

程式語言無關性：健壯和可伸縮的實時處理不應僅限於一個單一的平臺。Storm的拓撲結構和處理元件可以用任何語言定義，對任何人而言，Storm都是易接受的。

英文：https://github.com/nathanmarz/storm/wiki/Rationale

什麼Jupyter?為什麼初學Python推薦選擇Jupyter?
2020-12-09
Python
為什麼選擇.NETCore？
2020-11-12
NetCore
為什麼選擇Guice框架
2019-04-15
GUI框架
為什麼選擇使用Rust？
2022-03-21
Rust
Aembit為什麼選擇 Rust？
2022-09-17
Rust
為什麼選擇Cynefin框架？ – zwischenzugs
2021-12-13
框架
為什麼選擇高防DNS？
2022-11-01
DNS
為什麼選擇centos系統
2022-08-13
CentOS
Twitter能為你做什麼？
2020-04-07
為什麼選擇Python做爬蟲
2023-11-28
Python爬蟲
為什麼選擇ASP.NET Core
2021-06-18
ASP.NET
為什麼建議新手選擇Ubuntu?告訴你選擇理由!
2020-05-27
Ubuntu
Twitter為什麼沒有當機？
2022-11-25
阿里巴巴為什麼選擇Apache Flink？
2018-10-15
阿里Apache
為什麼選擇獨立伺服器
2019-08-27
伺服器
[20200326]為什麼選擇這個索引.txt
2020-03-26
索引
你當初為什麼選擇了前端？
2024-12-01
前端
為什麼選擇無伺服器模型？
2022-03-07
伺服器模型
為什麼爬蟲要選擇住宅代理？
2022-06-06
爬蟲
老闆：你為什麼要選擇 Vue？
2022-12-04
Vue
Elasticsearch 中為什麼選擇倒排索引而不選擇 B 樹索引
2021-10-26
Elasticsearch索引
為什麼Twitter註定要失敗？ - mos
2022-11-21
新加坡為什麼是ICO的最後選擇，同時也是最佳選擇？
2018-03-07
我為什麼放棄MySQL？選擇了MongoDB
2018-12-25
MySqlMongoDB
大公司為什麼要會選擇DevOps?
2019-09-04
dev
為什麼要選擇Apache Pulsar：IO隔離
2019-03-04
Apache
(轉）為什麼選擇機器學習策略
2018-04-28
機器學習
為什麼選擇Java？Java具體好在哪？
2022-02-18
Java
為什麼要選擇代理來進行抓取？
2022-02-07
為什麼要選擇分散式資料庫？
2022-01-13
分散式資料庫
為什麼選擇高防DNS雲解析？（一）
2022-09-23
DNS
為什麼要選擇電話機器人？
2021-08-06
機器人
為什麼伺服器選擇Linux系統
2022-07-19
伺服器Linux
為什麼選擇學習六西格瑪？
2022-04-19
為什麼選擇 Intellij IDEA 作為日常開發工具
2019-01-13
IntelliJIdea
我為什麼選擇成為獨立開發者
2020-06-10
你是怎麼選擇resetting和normalizing的？為什麼？
2024-11-27
ORM
為什麼我會選擇走 Java 這條路？
2019-10-14
Java
為什麼要選擇蘋果企業簽名？
2020-03-02
蘋果

為什麼選擇Twitter Storm？薦

相關文章