探訪美式微博Twitter的大資料技術架構

小旋風柴進發表於2017-04-03

Twitter要上市了，再一次讓全球矚目，正是它所創造的twitte讓網際網路進入了微創新的時代。雖然它沒有進入中國，但受其啟發的新浪微博和騰訊微博在中國網際網路上也成為一道亮麗的風景。Twitter在全球擁有巨大的使用者群，海量的社交資訊流，支撐其運轉的大資料技術架構也頗受人關注。

Twitter的大資料架構也是分為基於Hadoop的批處理和基於Storm的實時流計算等主要型別，主要基於開源專案中進行開發和發展。Twitter收集資料採用的是Facebook開源的日誌工具Scribe,批處理地儲存和分析資料採用Hadoop+MapReduce,在大資料上的快速分析採用Pig。Pig是基於Hadoop的平行計算高階程式語言，它提供一種類SQL的資料分析高階文字語言，稱為Pig Latin，該語言的編譯器會把類SQL的資料分析請求轉換為一系列經過優化處理的MapReduce運算。Pig支援的常用資料分析主要有分組、過濾、合併等。

Storm是Twitter的開源流計算平臺，Storm通過簡單的API使開發者可以可靠地處理無界持續的流資料，進行實時計算，開發語言為Clojure和Java。Storm的應用場景很多，如實時分析、線上機器學習、持續計算等。

Twitter的儲存有很多工具，體現了其在不同發展階段的作用，也試用於不同的應用場景。NOSQL資料庫至少包含了HBase、Cassandra和FlockDB等。HBase被用於批處理的分析和資料集生成，Cassandra被用於線上系統，支援動態讀寫，FlockDB則用於實時分佈的社交圖的儲存。

在大資料2.0的時代，Twitter的大資料技術架構也在不斷吸收更多開源技術的精華，相容幷蓄，不斷進化。例如，Mesos被twitter引進用於分散式大資料技術架構的作業系統，能夠對Hadoop等計算儲存資源進行合理排程。

Twitter的大資料技術架構

再如，剛剛開源的Summingbird，實現了批處理和實時流計算在一個平臺架構下的整合，開發者可以使用非常接近原生的Scala或者Java 在Summingbird上執行MapReduce作業，既可以使用Summingbird做“批處理”，也可以使用它做“實時處理”，同時，還可以使用兩種模式的混合。做到寫一次邏輯，一次性解決所有問題。Summingbird進一步的工作包括對Akka、Spark和Tez等平臺的支援，這有利於Twitter把更多平臺和工具引入到自身的大資料技術架構體系中。

基於Twitter強大的大資料技術架構，它正在實現向大資料分析和服務商的轉型，越來越多的基於Twitter的分析工具、應用APP和商業模式被挖掘出來，資料分析產業生態鏈逐步建立起來，其帶來的想象空間非常巨大。我想，人們所期待的新浪微博的祕密的大資料技術架構專案也一定是朝著這個方向進行著努力。

原文釋出時間為：2013-11-02

本文來自雲棲社群合作伙伴“大資料文摘”，瞭解相關資訊可以關注“BigDataDigest”微信公眾號

Google大資料技術架構探祕
2013-10-20
Go大資料架構
微博首席架構師楊衛華:新浪微博技術架構分析
2017-11-27
架構
新浪微博技術架構分析-微博首席架構師楊衛華
2017-07-31
架構
Yahoo的新一代大資料技術架構解析
2017-04-03
大資料架構
LLM大模型向量資料庫技術架構淺析
2023-11-10
大模型資料庫架構
評《資料原生的金融技術架構》
2022-09-09
架構
HTTP服務七層架構技術探討
2016-02-28
HTTP架構
人力資源資料視覺化技術架構
2018-12-03
視覺化架構
大資料平臺架構技術選型與場景運用
2019-02-28
大資料架構
現代資料架構的7個關鍵技術
2018-11-28
架構
DataOps for LLM 的資料工程技術架構實踐
2024-11-19
架構
一張圖解釋清楚大資料技術架構，堪稱阿里的核心機密
2021-05-19
圖解大資料架構阿里
大資料架構師
2019-04-05
大資料架構
大資料架構和模式（三）——理解大資料解決方案的架構層
2015-01-31
大資料架構模式
Oracle 資料庫分散式技術的探討
2014-08-19
Oracle資料庫分散式
《離線和實時大資料開發實戰》（二）大資料平臺架構 & 技術概覽
2020-09-27
大資料架構
資料基礎架構中的新技術方法：惠普HPE Ezmeral資料結構
2021-05-12
架構資料結構
馬斯克剛公佈Twitter資料讀取架構圖
2022-11-20
馬斯克架構
大資料湖倉一體架構對分散式儲存有哪些技術需求？
2023-12-22
大資料架構分散式
瓜子大資料架構首曝光：掩藏在“二手車”背後的技術思考
2019-06-04
大資料架構
數棧技術大牛分享：雲原生大資料系統架構的實踐和思考
2021-05-08
大資料架構
WEB 架構技術
2016-09-14
Web架構
大資料架構和模式（一）——大資料分類和架構簡介
2015-01-31
大資料架構模式
我的“技術架構”之旅
2020-07-28
架構
運營級WLAN網路架構及關鍵技術探討
2017-10-11
架構
大資料技術體系1（清華：大資料技術體系）
2018-11-02
大資料
大資料架構之:Spark
2018-01-16
大資料架構Spark
大資料技術 - Directus
2023-12-18
大資料
大資料技術 - Azkaban
2023-01-06
大資料
大資料技術 - Airflow
2023-01-06
大資料AI
大資料技術 - DataX
2023-01-06
大資料
大資料技術 - Canal
2023-01-06
大資料
大資料技術 - Maxwell
2023-01-06
大資料
大資料技術 - Phoenix
2023-01-09
大資料
大資料技術 - StarRocks
2023-01-03
大資料
大資料技術 - StreamX
2023-01-03
大資料
大資料技術 - Debezium
2023-01-03
大資料
大資料技術 - SuperSQL
2023-05-08
大資料SQL

探訪美式微博Twitter的大資料技術架構

相關文章