Suro —— Netflix開源的分散式資料管道系統

weakish發表於2013-12-27

Netflix近日開源了一個叫做Suro的工具。Suro從多個應用伺服器收集事件資料,以便傳送其他資料平臺(例如Hadoop和Elasticsearch)。隨著Suro的開源,Netfix的這項大資料上的創新有望成為主流技術。

Suro不但在Netflix的資料管道中扮演關鍵角色,而且也是大公司貢獻開源資料分析工具的生態環境的一個好例子。

Netflix的諸多應用每天生成數十億的事件,Suro將它們收集起來。這些資料大部分通過Amazon S3交給Hadoop進行批處理,另一部分通過Apache Kafka傳給Druid和ElasticSearch進行實時分析。Netflix的部落格還提到,Netflix也在考慮使用Storm或Samza這樣的實時處理引擎對事件資料進行機器學習。

suro realtime -flow

熟悉大資料領域的人都知道,很多知名的技術都來源於大公司。例如Netflix 建立了Suro, LinkedIn 建立了KafkaSamza, Twitter建立了Storm,Metamarkets 建立了Druid。Suro部落格也承認它是基於Apache Chukwa專案,類似 Apache的FlumeFacebook的Scribe。毫無疑問,這些專案中最出名的是源自Yahoo的的Hadoop。

我有時候會尋思為什麼這些公司需要自己創造技術,而不是使用現有的技術。當然,和生活中的很多事情一樣,這個問題的答案還得具體問題具體分析。例如,Storm正成為一個非常受歡迎的流處理工具,但LinkedIn覺得它們需要不同的東西,於是創造了Samza。Netflix建立了Suro,而沒有使用現有技術,主要是因為該公司雖然是一個重度的雲服務使用者(大量使用AWS),但也使用其他工具,包括Apache Cassandra資料庫。

這場技術創新的最終贏家應該會是那些採用這些主流技術的使用者,那些使用者不能也不必自己發明這樣的技術。我們已經看到 Hadoop供應商嘗試為企業使用者提供StormSpark處理框架服務。還會有更多這樣的例子出現。畢竟,AWS的使用者太多了,他們很希望能使用類似Suro這樣的技術,而不是依靠Amazon來提供

Suro專案主頁


原文 Netflix open sources its data traffic cop, Suro
翻譯 SegmentFault

相關文章