超3萬億資料實時分析,JCHDB助力海量資料處理

京東雲發表於2022-07-18

海量資料 累計實時分析3萬多億條

跨行業 家電、美妝、快消、手機、食品

核心場景 廣告投放、活動營銷、實時BI、運營分析

核心系統 全域精細化使用者運營平臺、資料分析平臺、商品運營平臺、交易業務報表分析平臺

今年京東618中,京東雲資料庫JCHDB的亮眼實績,不僅充分展示分析型資料庫驅動業務發展的價值,也展現了開源ClickHouse的極致效能。


01 從OLTP到OLAP 資料分析的價值彰顯

常用的傳統MySQL資料庫,是OLTP事務型資料庫的代表,主要對資料進行增刪改,在處理的資料量較小時,擁有非常優秀的計算操作。但受限於單機計算能力,隨著資料量的增加,尤其是達到千萬級後,資料庫的處理效能容易下降。


超3萬億資料實時分析,JCHDB助力海量資料處理

相比而言,OLAP分析型資料庫能更好的提升資料價值,不僅能充分利用資料,還支援充當分析決策角色。藉助分析型資料庫,可以挖掘出資料背後的價值,對未來的資料增量、熱點等做出預判,為業務決策提供支撐。OLAP可以看作是OLTP的一種延展,為OLTP的資料發現價值。

以史為鑑,可以知興替,以資料為鑑,可洞知行業未來。透過資料分析,找出下一個業務增長點,正是資料分析師重點關注的問題,特別是在大資料時代,資料對業務的驅動效應日益增強,如何尋找一款合適的分析型資料庫至關重要。


02 ClickHouse 極致效能的分析型資料庫代表

超3萬億資料實時分析,JCHDB助力海量資料處理DB-Engine上 ClickHouse的排名趨勢圖

自 2016 年開源以來,ClickHouse在開源社群非常火熱,成為分析型資料庫的新貴。憑藉數倍於其他頂尖互動式分析資料庫的極致效能,ClickHouse的綜合指數排名漲勢迅猛,截止 2021 年 8 月,ClickHouse已在Github上獲得 18.2K Star,DB-Engines排名近一年上升 16 位,並在很多頭部企業都有大量實踐場景。

在常用的具有實時處理能力的分析型資料庫中,ClickHouse更貼合實際業務場景。具體來看,ClickHouse單表查詢效能表現極佳,寬表支援性強,動態增加列沒有任何效能損耗,資料高效壓縮。此外實時計算能力卓越,幾乎能秒級搜尋過濾幾十億甚至百億級資料,並且不需要預計算,省去了額外的儲存排程成本。同時由於ClickHouse的SQL相容性強,支援實現了大部分關係型資料庫的SQL語法,對用習慣了MySQL的研發人員而言,上手難度極低。

超3萬億資料實時分析,JCHDB助力海量資料處理Clickhouse、Greenplum 效能對比

得益於獨特的資料儲存壓縮演算法和向量計算,在一些測試中,相同規模的資源情況下,ClickHouse的效能優勢可達到Greenplum的5-10倍。在滿足實際業務需求的前提下,綜合效能、成本、安全性、可維護、擴充套件性等等多方面因素的考慮,ClickHouse都是分析型資料庫的極佳選擇。


03 京東雲資料庫JCHDB ClickHouse核心的雲原生升級

產業數字化大勢下,資料庫的構建與利用,是企業資料管理能力的核心。在技術探索之路上永不止步的京東雲,早已全面擁抱ClickHouse,完成在內部多個業務場景的深度應用。立足長期實踐積累的豐富經驗,京東雲推出基於ClickHouse開發的資料庫JCHDB,幫助更多企業用好這款分析型資料庫,免於ClickHouse開源版的使用難題。

超3萬億資料實時分析,JCHDB助力海量資料處理

以開源ClickHouse為核心,以混合雲作業系統雲艦為底座,京東雲資料庫JCHDB打造了強大的雲原生架構。基於雲艦的作業系統級管理能力,JCHDB可以無視公有云、專有云、混合多雲等基礎設施的底層差異,以雲原生方式,透過雲艦的K8S完成資料庫的建立、執行、管理,並在長期的業務實踐中發展出領先特性。

|規格靈活定義,高擴充性適配業務發展

京東雲資料庫JCHDB充分發揮ClickHouse最亮眼的分片儲存與彙總計算功能,可實現多核、多節點的並行化查詢,其查詢效能比開源資料庫高1-2個數量級。此外JCHDB支援分片數和副本數自定義,最大支援千餘個節點,支援多資料副本,擴充套件能力強大,可充分滿足業務快速增長的需求。


|故障自動恢復,保障產品高可用性

京東雲資料庫JCHDB擁有極高可用性,當檢測到資料故障時,自動替換出問題的節點,完成修復,免去人工運維的煩惱。具體來看,京東雲資料庫JCHDB藉助Operator功能,提前把維持高可用的邏輯注入到K8S,定時迴圈執行Diff流程,完成實際狀態和期望狀態的對比。一旦發現不一致,就根據事先儲存的宣告狀態來修復。有了這個能力以後,當節點出現故障當機時,JCHDB自動kill問題節點,新建一個正常節點。

|便捷運維,全維度系統級監控

JCHDB可從各維度提供系統級和資料庫例項級監控,不僅監控指標豐富,還能根據監控指標自定義告警規則。透過在K8S部署相關日誌和監控收集外掛,JCHDB能實時監測各類執行指標,檢視所有節點的監控狀態,同時也可以配置各種監控指標閾值,隨時掌握生產環境的執行告警。

|多種安全防護機制

京東雲資料庫JCHDB的例項預設執行在VPC中,避免資料庫直接暴露在公,網中,可避免絕大部分攻擊。同時可提供IP白名單功能,進一步加強資料庫安全性。


04 資料分析驅動業務 複雜場景的大規模實踐

基於強大的開源ClickHouse核心、混合雲作業系統雲艦底座和領先的雲原生架構,京東雲資料庫JCHDB擁有卓越的秒級海量資料處理能力,是大規模資料線上分析場景的利器。

超3萬億資料實時分析,JCHDB助力海量資料處理

以京東618的實踐為例,作為全球最複雜的場景之一,貫穿京東站內外每天有數十億級別的實時資料寫入、資料更新、資料關聯、資料聚合和資料查詢操作,同時為實現對使用者、商品的精細化運營,品牌商要求對品牌、類目、店鋪、觸點等多維度資料完成實時分析。

依託列式儲存和向量化引擎,京東雲資料庫JCHDB在618期間不僅高效完成壓縮資料,支援每秒數十億資料輸入,完成出色的查詢保障,使用本地表關聯查詢在服務端二次聚合方式,解決分散式表關聯查詢慢難題,還成功支援大SQL快速資料分析,支撐京東零售全域精細化使用者運營平臺、資料分析平臺、商品運營平臺、交易業務報表分析平臺等核心系統,累計實時分析資料3萬多億條,保證商家和運營人員可以快速決策,為京東618營銷保駕護航。

不止於零售電商,京東雲資料庫JCHDB在物流領域、工業領域、網際網路廣告領域都有廣泛的深度應用,從實時數倉到監控報表、日誌分析,從幾個節點到幾百個節點,JCHDB的卓越效能已在多種場景、多類業務系統、多級規模的實踐中得到充分驗證,未來將在更多的行業場景中,從商業選品、廣告投放、精準營銷等業務出發,助力全球品牌商家實現高效精準的消費者洞察與運營。


相關文章