王雨舟：知乎大資料平臺架構和實踐優化

趙鈺瑩發表於2018-05-07

原文網址 : http://blog.itpub.net/31077337/viewspace-2153971/

又是一年SACC，又是一時秋意正濃，即便是天氣欠佳，大資料平臺架構技術與實踐專場同樣擠滿了求學好問的技術人。知乎大資料平臺負責人王雨舟現場分享了知乎大資料平臺架構和實踐優化之路。作為一個專業的知識問答社群，知乎背後的技術能力如何?使用者互動頻繁，活躍度節節攀高，知乎大資料平臺是如何設計以支撐這一切的呢?

　　據調查，截止2017年8月，知乎註冊使用者數破億，全站DAU達2600萬，提問量達1900萬，回答量達7100萬，月瀏覽量180億。當大家越來越習慣在碎片化時間開啟知乎閱讀或評論時，我們似乎都忽略了這家企業的成長速度。

▲知乎資料平臺負責人王雨舟

　　2010年12月，知乎網站開放，2013年，知乎向公眾開放註冊，註冊使用者迅速由40萬攀升至400萬，2017年1月，知乎宣佈完成D輪1億美元融資，正式邁入獨角獸行列。這一切正如知乎王雨舟所說：“We are growing FASTER”!

　　資料平臺如何在人員相對穩定的情況下支撐公司業務快速擴張 ?

　　成長快固然是件好事，但技術必須跟得上成長的速度，不然使用者體驗肯定要降低。王雨舟以知乎為例分享了這一痛點的解決方案。首先，知乎資料平臺是公司級的資料平臺，負責維護基礎流量資料和資料倉儲;維護演算法、商業、搜尋、後端服務需要的資料來源;為管理層、運營、產品、資料分析師等提供資料看板和分析系統;維護資料地圖、埋點管理系統、埋點配置和測試系統等產品;維護A/B實驗等。

　　隨著業務線的擴張，快速滿足新業務需求的過程必然需要處理流量資料埋點，建立資料倉儲，建立資料來源、指標、維度、報表以及業務看板。知乎的一大特點是資料平臺使用者可以自定義建立報表和儀表盤資料。過去，新增一個需求可能需要不小的開發週期，現在使用者可以通過簡單的圖形操作即可完成，這意味著擁有了秒級查詢的能力，解決了指標開發人力投入與資料 T+1 的痛點。

　　知乎大資料平臺架構圖曝光

王雨舟：知乎大資料平臺架構和實踐優化

　　以上是知乎大資料架構圖全貌，中間很重要的一部分是資料倉儲，它與實時計算和離線計算均相關。圖中可以很清楚的看出資料分層部分，其星形模型有事實表和維度表，事實表採用退化維度，減少關聯多表操作。

　　去年，知乎也出現了MySQL資料實時查詢的需求，當時知乎調研了Hive和HBase，但當兩張大表join的時候，二者效能很低。最後，知乎選擇將MySQL的BinLog實時打到Kafka，起一套Spark Streaming程式，實時將資料寫到kudu裡面，用impala實時查詢Kudu。隨著業務線進一步擴張，王雨舟發現當MySQL表結構改變的時候，Kudu整個資料都需要重導，知乎決定開始採用TiDB，但目前正在研究中，所以架構圖中暫未公佈。

　　據王雨舟介紹，資料採集部分整個客戶端和前端採用Protobuf格式打點，知乎對資料打點的要求還是比較嚴格的，目前做到了半自動的方式打點。同時，使用了業內比較受歡迎的Hybrid框架，保證JS和Native打通。客戶端更關注埋點定位，內容資料由後端序列化生成下發。這個過程，王雨舟也發現了埋點資料面臨的一些問題，因此，知乎正在上線埋點管理系統和埋點測試系統，幫助客戶端工程師更好自測。日誌接收部分，自研日誌接收服務，傳送到Kafka，可以自適應Kafka健康狀態，保證資料不丟。

　　面對業務急速擴張過程中的各種需求，知乎資料平臺組通過通用靈活的系統做到了完美的支援，未來知乎還有很多很酷的專案待實現，不如一起加入吧!

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31077337/viewspace-2153971/，如需轉載，請註明出處，否則將追究法律責任。

美圖大資料平臺架構實踐
2018-08-22
大資料架構
沒白來,滴滴知乎騰訊大資料平臺架構圖到手
2018-05-07
大資料架構
餘利華：網易大資料平臺架構實踐分享！
2018-08-27
大資料架構
SQL on Hadoop在快手大資料平臺的實踐與優化
2019-05-31
SQLHadoop大資料優化
DKHadoop大資料平臺架構詳解
2018-10-17
Hadoop大資料架構
大資料平臺架構設計探究
2019-12-23
大資料架構
大資料平臺核心架構圖鑑
2022-05-23
大資料架構
WebRTC 架構優化及實踐
2018-09-28
Web架構優化
《離線和實時大資料開發實戰》（二）大資料平臺架構 & 技術概覽
2020-09-27
大資料架構
搜狐服務架構優化實踐
2019-02-27
架構優化
騰訊資料平臺 SaaS 化實踐
2023-03-13
微服務架構的4大設計原則和一個平臺實踐
2018-08-14
微服務架構
汽車之家10年系統架構演進與平臺化架構實踐
2023-05-04
架構
DataPipeline在大資料平臺的資料流實踐
2018-11-23
API大資料
大資料平臺基礎架構hadoop安全分析
2019-03-04
大資料架構Hadoop
騰訊音樂內容庫資料平臺架構演進實踐
2023-03-01
架構
大資料視覺化平臺優點在哪
2022-02-14
大資料視覺化
在海之舟大資料平臺上搭建mysql+php開發平臺
2019-10-10
大資料MySqlPHP
大資料平臺之大資料處理系統的架構
2024-01-29
大資料架構
實踐：大資料平臺1.0總結和2.0演化路線
2018-06-06
大資料
百分點大資料技術團隊：輿情平臺架構實踐與演進
2021-08-11
大資料架構
基於 Echarts 的資料視覺化在異構資料平臺的實踐
2023-04-14
Echarts視覺化
大資料視覺化平臺有哪些優勢
2022-05-09
大資料視覺化
資料中臺：資料服務的架構設計實踐
2022-11-09
架構
JuiceFS 在大搜車資料平臺的實踐
2021-11-16
UI
基於Hadoop的大資料平臺實施——整體架構設計
2018-05-07
Hadoop大資料架構
大資料儲存平臺之異構儲存實踐深度解讀
2018-06-06
大資料
案例｜政務大資料平臺資料安全建設實踐
2023-02-28
大資料
一文詳解BI平臺——火山引擎DataWind架構和實踐
2023-01-28
架構
洪增林：網易遊戲統一資料流平臺架構與實踐
2018-08-16
遊戲架構
OPPO大資料離線計算平臺架構演進
2021-12-23
大資料架構
大資料平臺的整體架構由哪些組成
2022-04-12
大資料架構
資料視覺化平臺搭建，警務實戰平臺大資料應用
2020-12-28
視覺化大資料
企業大資料平臺MapReduce應用之Join實踐！
2018-11-02
大資料
OPPO大資料診斷平臺設計與實踐
2022-12-28
大資料
高併發IM系統架構優化實踐
2018-06-11
架構優化
基石視覺化資料分析平臺設計實踐
2023-12-22
視覺化
美團容器平臺架構及容器技術實踐
2018-11-20
架構

王雨舟：知乎大資料平臺架構和實踐優化

相關文章