TiDB 助力一面資料實現消費領域的決策分析平臺

PingCAP發表於2019-03-01

原文網址 : https://flycode.co/archives/285500

深圳市一面網路技術有限公司（下稱：一面資料）是一家為消費領域的領導企業提供實時、精準、全面的資料洞察和決策指導的創新型企業，利用人工智慧和演算法，進行自然語言處理，語義情感分析，迴歸預測模型等，幫助客戶實現精準產品運營和預測市場變化。一面資料服務於國內外一流企業，包括世界最大的對衝基金、國際一線汽車品牌、快消品龍頭廠商，以及時尚鞋服大牌等。

改造前系統架構

一面資料的核心 IT 系統覆蓋了從資料獲取、資料清洗處理、資料建模到資料視覺化的全套資料分析流程。核心系統每天有海量從網際網路採集的公開資料和來自企業內部的資料，對資料儲存的容量、擴充套件性和可用性都有很高的要求。

起初，一面資料的核心繫統採用的是多個 MySQL 例項和一個 Cassandra 叢集。MySQL 多例項叢集主要儲存指定特徵的爬蟲資料，Cassandra 主要儲存資料量大、不適合儲存 MySQL 的全頁面快取的資料。在資料量/請求量小的時候系統執行正常。下圖為：一面資料改造前系統構架圖

隨著資料量的增長，逐漸暴露出很多問題：

MySQL：
隨著資料增長，儲存容量接近單機的磁碟極限，單機的磁碟 IO 繁忙且易阻塞，查詢效能難以滿足業務增長的需求。資料量大了以後，傳統的 MySQL 水平擴充套件能力弱，效能和穩定性容易產生問題，在資料量和訪問量增長到一定階段將無法滿足常見的 OLAP 場景分析需求。技術團隊通過診斷系統效能問題，認識到現有資料庫已經成為瓶頸。

Cassandra：
Cassandra 對磁碟 IO 和記憶體要求高，新增一個例項，需要從其他例項遷資料，對網路頻寬、磁碟要求特別高。另外 CQL 支援的特性太少，業務開發麻煩，例如不能聯表，不支援主鍵之外的索引，對主鍵以外的查詢比較困難，雖然有 Secondary Index，但是使用限制大。生態圈不完善，例如很難找到好用的監控。

改造後的系統架構 – 引入 TiDB 替換 MySQL 和 Cassandra

為從根本上解決以上問題，一面資料的技術團隊決定通過增加部署一套高效能的資料庫系統，以解決當前業務的痛點。在評估和驗證了 MySQL Sharding 和 MongoDB 等傳統技術手段之後，團隊認識到：基於 MySQL Sharding (即利用 MySQL 中介軟體分庫分表) 架構在高可用安全能力，業務和查詢的靈活支援以及運維管理難度和成本上都不盡如人意，有著諸多架構上和技術上的缺陷；而 MongoDB 比較適合儲存爬蟲資料，但遷移成本高，不管是資料還是應用程式都需要做侵入性修改和調整，難度和開發成本驟升。另外，作為 NoSQL 資料庫，MongoDB 不支援 SQL 和 JOIN ，對 BI 工具的支援也不完善，資料分析師們無法直接使用。最終從滿足業務需求、降低切換成本和減少運維成本等角度考慮，一面資料選擇了分散式關係型資料庫－TiDB 作為業務的首選事務型資料庫。

TiDB 支援包括跨行事務，JOIN 及子查詢在內的絕大多數 MySQL 的語法，使用者可以直接使用現有的 MySQL 客戶端連線。如果現有的業務已經基於 MySQL 開發，大多數情況不需要修改程式碼即可直接替換單機的 MySQL。同時現有的大多數 MySQL 運維工具（如 PHPMyAdmin, Navicat, MySQL Workbench 等），以及備份恢復工具（如 mysqldump, mydumper / myloader）等都可以在 TiDB 直接使用，這也讓開發運維人員不用關注資料庫 scale 的細節問題，專注於業務開發，極大的提升研發的生產力。下圖為：一面資料改造後系統構架圖

一面資料的生產環境部署了數十個 TiKV 節點及幾個 TiDB 節點。遷移原有 MySQL 叢集資料時使用 Percona 的 mydumper 以及 TiDB 專有優化的 loader 工具，逐個爬蟲進行遷移。目前 TiDB 叢集儲存了接近數十 TB 的資料，把另外幾個應用遷移完成後將會每日新增近億條記錄。

完成遷移以後，系統不再需要維護多個 MySQL 例項以及 Cassandra 叢集，運維成本大幅縮減，監控使用 Prometheus/Grafana，並且可以通過 Prometheus 的 AlertManager 定製規則複雜的報警規則。這些改變都讓一面資料的爬蟲儲存側的工作便利許多，可以讓一面資料的研發把精力更多放在業務研發而不是運維多個不同技術棧的複雜叢集。

未來的架構規劃

目前 TiDB 新增了 TiSpark 元件，並且在 TiKV 層實現了 Spark 的下推運算元，使得可以直接在 TiDB 叢集上跑 Spark 程式，這樣可以省去 ETL 的步驟。後續一面資料也考慮深入使用 TiSpark 元件，讓一面資料的整個系統增加一定的實時複雜查詢的能力。長遠來看，可以把現在 ElasticSearch，Impala，Hive 的業務都遷移到 Spark 叢集上，這樣一方面統一了分析側的技術棧，另一方面連線了 Spark 豐富龐大的生態。下圖為：一面資料未來系統構架圖

在一面資料 CTO 張錦傑看來：“ TiDB 水平擴充套件性、相容 MySQL 是非常好的特性，對需要使用關係型資料庫作為儲存方案的業務有極大的誘惑力，避免了傳統分表、分庫方案帶來的上層應用的複雜性，解決了我們目前迫切的關係型資料儲存的需求。”

大資料分析助力品牌洞察消費者
2022-11-30
大資料
阿里雲實時大資料解決方案，助力企業實時分析與決策
2020-12-23
阿里大資料
大資料如何助力企業決策？
2022-11-26
大資料
打通資料價值鏈，百分點資料科學基礎平臺實現資料到決策的價值轉換 | 愛分析調研
2023-02-14
資料科學
在雲環境中實現成功的現代資料分析平臺
2021-03-08
觀遠資料智慧分析2.0平臺釋出，讓零售決策更智慧
2019-08-02
Java如何實現消費資料隔離？
2022-02-17
Java
七牛大資料平臺的實時資料分析實戰
2019-03-03
大資料
TDS：標籤平臺+API平臺+資料共享平臺，助力資料運營平臺建設
2022-05-10
API
如何利用資料實現衝刺“她”消費
2022-03-17
貨拉拉自助資料分析平臺實踐
2022-11-28
電商領域A/B實驗平臺建設方法
2023-03-27
TiDB 在醫療保障資訊平臺的應用實踐
2024-02-15
TiDB
22國學者在南京探討“群決策”：大資料將助力高效決策
2018-06-10
大資料
建設資料採集分析平臺，整合業務資料、消滅資料孤島
2020-10-20
分析平臺Tableau推出資料和分析平臺新功能
2021-09-05
alpakka-kafka(8)-kafka資料消費模式實現
2021-08-15
Kafka模式
企業如何進行資料分析，實現科學決策和業務增長
2024-03-07
IPIDEA分享|大資料技術助力消費者分析，提高市場競爭力
2023-05-18
Idea大資料
也談人工智慧在消費金融領域的場景應用體現
2020-02-18
人工智慧
Python可以從事資料分析領域的工作嗎？
2021-11-22
Python
資料分析平臺搭建指南
2024-07-26
tiktok商品資料分析平臺
2021-09-24
CDS — 資料管理分析平臺
2021-03-10
多地政府發消費券，移動支付平臺助力經濟復甦
2022-06-21
前後分離實現中,後臺 Laravel 接收資料的跨域解決方案
2018-03-28
Laravel跨域
智慧城市交通大屏視覺化決策雲平臺助力城市文明交通
2022-10-10
視覺化
財務資料分析不可錯過的大資料分析平臺
2023-05-09
大資料
如何透過資料分析來支援TPM模式的決策？
2024-01-11
模式
每日互動大資料：白領人群洞察助力品牌輕鬆打動目標消費人群
2022-07-12
大資料
數字自然資源領域的實現路徑
2024-09-19
AI助力-58恆星資料標註平臺的設計與實踐
2023-05-12
AI
同盾科技 x TiDB丨實時資料架構為風控智慧決策保駕護航
2023-01-06
TiDB架構
資料中臺，消費者資產變現的關鍵一躍
2020-11-04
馳騖科技CEO程華奕：消費領域營銷趨勢是資料化、私域化、直銷化
2021-08-23
資料分析平臺哪個好
2024-01-15
EXCEEDDATA — 工程大資料分析平臺
2019-08-28
大資料
爬蟲實戰+資料分析：全國消費支出分析及未來預測
2024-03-25
爬蟲

TiDB 助力一面資料實現消費領域的決策分析平臺

改造前系統架構

改造後的系統架構 – 引入 TiDB 替換 MySQL 和 Cassandra

未來的架構規劃

相關文章