企業級OLAP資料庫,怎麼打通數字化轉型最後一公里

伺服器頻道發表於2023-01-13

作者:鏡舟科技CEO 孫文現(本文為作者在StarRocks Summit Asia 2022的分享)

非常榮幸能借著峰會的契機跟大家做分享和交流。在我至今的職業生涯裡,創立過兩家公司,一個做 IoT PaaS,另一個做 OLAP 數倉。兩個都是比較難啃的骨頭,解決的都是企業數字化轉型最後一公里的難題。

大家都知道物流的最後一公里是什麼。那麼資料分析的最後一公里是什麼呢?迴歸到本質,就是讓客戶可以隨時隨地、隨心所欲地使用資料,不用再擔心資料來源不統一、維度多了速度慢、一線分析師無法做複雜查詢、各種資料、相關產品之間不能相容等問題。

鏡舟是一家商業化公司,是做整個 OLAP 數倉技術兜底的。我們在過去建設了生態、各種技術產品棧等,就是要把最後一公里的難題給解決掉。我今天的分享主題主要分為三個方面:

第一,從企業級產品的角度,看 OLAP 市場的發展和演進。

第二,從 StarRocks 社群,到打造鏡舟企業級產品的產品迭代。

第三,藉助以客戶為中心的標準化服務模式,實現與客戶產品共創的客戶成功。

OLAP 市場現狀和技術演進

1、OLAP市場發展現狀

隨著 5G、雲端計算、大資料、 AI 等技術的發展,全球資料量呈現爆發式增長:

到 2025 年,全球的資料量能達到 175ZB(Zettabyte),其中近 30% 的資料需要被實時處理。2019 年到 2025 年,CAGR(平均年複合增長率)都達到了近 30%。

據 IDC 統計和預測, 2024 年全球數倉的市場規模將達到 297 億美元,2019-2024 年的年複合增長率將達到 12%,其中雲上的數倉市場規模將達到 181 億美元,2019-2024 年的 CAGR 將達到 25.3%。預計 2024 年,中國數倉市場的規模是 168.5 億元,中國大資料平臺軟體市場規模總體為 352.9 億元,中國分析型資料庫的整體市場將達到 521.4 億元,複合增長率為 27.7%。

分析型數倉包括資料倉儲、資料湖以及智慧湖倉,因此分析型資料庫的市場規模也是這三者之和,這是 IDC 的定義,我認為有一定道理。OLAP 數倉的適應面和適應度是最廣的,所以把三者加起來等於這個市場規模之和是有一定道理的。

根據 IDC 的資料,2021年中國數倉資料庫的規模是 87.1 億人民幣,大資料平臺的是 162.8 億人民幣。因此我們認為 2021 年中國分析型資料庫的市場規模為 250 億左右。

2、數倉技術架構演進路徑

數倉的技術架構演進經歷了一些過程,這些過程的產生不僅是歷史的原因,現在各個企業也在同時經歷整個過程,他們或多或少處在某一個階段,而每個階段都有一些痛點需要去解決。

第一個階段,就是傳統的離線架構。第一代是以 Apache Hive(以下簡稱 Hive)、MapReduce、HDFS 為代表的純離線數倉。這個階段下,很多公司剛開始搭自己的大資料技術,資料體量和資料規模都不是特別大,通常在 TB 級,維度也不是很多。業務團隊的需求通常是 T+1 型的固定報表任務,它的架構痛點非常明顯,就是離線大資料架構不能處理實時業務,固定報表反饋出的資料價值是很低的。

第二階段,從傳統離線架構到 Lambda 架構的演進。這個階段特徵是隨著業務和企業資料體量的快速發展,從 TB 級到 PB 級,企業內部對於數倉提出了實時分析的要求,且維度也變得更加多元化和複雜化。傳統離線 T+1 的架構已無法滿足業務需求了。

Lambda 架構是在原來的離線數倉基礎上增加了一個實時計算鏈路。在業務資料採集後分成兩條線進行計算:一條是走“流”,做指標分析,實時的;一條是走“批次”,做離線的 T+1 的業務指標,是近幾年比較廣泛應用的架構。

但是 Lambda 架構有比較明顯的缺點,一個是在業務開發過程中都是相對獨立的煙囪式開發設計,在各業務間的資料規範統一、處理資料流程統一和資料複用等方面都做得不理想。Lambda 架構最大的問題是針對同一個需求要開發兩套程式碼,同時去跑“批”和跑“流”,寫好程式碼之後還需要構造資料測試,保證兩者結果一致。兩套程式碼對後期的維護也非常麻煩。一旦需求變更,兩套程式碼都需要修改,兩套程式碼也需要同時上線,運維成本很高。同樣的邏輯需要計算兩次,整體佔用資源會增多。由於“批”、“流”兩個過程都需要將資料儲存在叢集中,並且過程中會產生大量臨時資料,就會導致資料急速膨脹,加大伺服器儲存的壓力。

後來就衍生出了 Kappa 架構。Kappa 架構透過改進流式計算架構和計算和儲存處理過程,使實時計算和批處理能夠共用一套程式碼,解決了 Lambda 架構中“流批分離”的複雜處理鏈路和維護兩套程式碼的問題,從而實現了我們通常所說的“流批一體”。但是 Kappa 架構也存在一定缺點,無法支援海量資料儲存,也無法支援高效的 OLAP 查詢。

所以基於此前很多企業的 Kappa+Apache Flink(以下簡稱 Flink) 的實時數倉架構之上,結合了 Apache Druid(以下簡稱 Druid)、ClickHouse 等 OLAP 引擎做混合架構,使用 Apache Iceberg(以下簡稱 Iceberg) 或 Apache Hudi(以下簡稱 Hudi)構建 Lakehouse ,即現在常見的湖倉一體架構。但帶來的一個問題就是隨業務線複雜化,同時需要維護多套 AP 元件,運維成本非常高。

大資料技術的演進過程和行業發展趨勢、資料量增長等密切相關。從最早的 BIG DATA 大資料,到後面追求高效和實時的 FAST DATA,到當下的 DATA INTELLIGENCE 資料智慧。企業數字化轉型歷程實現了:原來資料是成本,但是現在轉化成了資產,同時資產可以做到證券化,以至最終貨幣化的過程。換句話說,就是所有企業在生產過程中積累的、接觸的所有資料都可以標準化地去衡量和創造價值,而這些價值通常是以貨幣來計量的。

3、新一代極速統一 OLAP 引擎

基於上述的痛點,鏡舟引入 StarRocks 的理念,實現 OLAP 分層引擎的統一,與原有架構大致相同,資料透過上游的多種資料來源和採集工具寫入 Kafka 中,在 Flink 中進行 ETL 的轉換,再實時寫入到 StarRocks 中。在 StarRocks 中,我們可以使用寬星型(寬表及星型)或者預聚合模型靈活的做業務建模。

StarRocks 在大資料生態中的定位非常清晰,是一款 MPP 架構的分析型資料庫。StarRocks 能夠支撐 PB 級別的資料量,擁有靈活的建模方式,可以透過向量化引擎、物化檢視、點陣圖索引、稀疏索引等最佳化手段,去建立極速統一的分析層資料儲存系統。

StarRocks 也可以支援資料變更和高併發的業務查詢,同時藉助 Iceberg、 Hive 外表等功能,打造出新一代的湖倉一體的架構。Iceberg 或者 Hive 中有價值的資料可以流入 StarRocks 進行關聯查詢,StarRocks 裡的隱藏價值資料或者價值不太高的資料,也可以流向 Iceberg 或者 Hive 中 ,以低成本的方式長久儲存,供未來資料探勘使用。

從 StarRocks 到鏡舟,持續迭代升級的產品力

接下來我會分享基於 StarRocks 社群開發出企業級產品的過程,包括鏡舟如何做持續迭代的產品升級以及服務升級。“鏡舟”這個名字,來源於這樣一個期待:以人為鏡,以夢為舟,不負韶華,未來可期。

1、基於StarRocks的商業化產品鏡舟

首先看我們所引入的 StarRocks 社群產品的一些表現。從社群來看,StarRocks 產品在近一兩年之內還是取得了不少成就的。GitHub 的星數達到了 3500 多, PR數達到了 7500 多,社群的參與者超過了 7000 人,社群的貢獻者超過了 200 人。到目前為止,透過企業客戶或者使用者在使用過程中的一些推薦,獲得了 170 家以上 10 億美金級大企業的應用。

StarRocks 是全球性的開源社群,2020 年 5 月建立,於 2021 年 9 月開源。社群月平均 PR 數高居 Open Source Database 的第二名,大幅領先 ClickHouse、Apache Doris(以下簡稱 Doris)、TiDB、Elasticsearch 等一系列世界知名的開源專案。

接下來說鏡舟。鏡舟是基於 StarRocks 開發的閉源商業化產品,產品成立在 2022 年 9 月,這次是第一次同大家見面,運營的主體是北京鏡舟科技有限公司。我們的產品是基於 StarRocks 開發的商業化產品,研發過程中用到 StarRocks 開原始碼,也有自身閉源的部分,在技術支援、解決方案、生態建設、售後保障等方面達到了企業級客戶的要求。

從 2020 年 5 月產品面世,到 2020 年 9 月 V1.0 正式釋出。之後的一年,StarRocks 不斷完善技術和產品,在 2021 年 9 月份開放原始碼,之後不到 4 個月升級到 V2.0。2022 年 5 月,10 億美金級以上的企業已經達到了 100 家。在此期間,產品又經歷了多個迭代和升級,產品的功能和效能穩定性以及生態能力都有大幅度的提升。

而在 StarRocks 社群成立一週年之際, StarRocks 的生態也在一步步成熟。在不遠的將來,鏡舟將進一步面向各大行業完善和打磨產品,提供更優質的解決方案、服務能力和更完善的產品能力。

2、StarRocks踐行SDAF資料分析方法

我們以怎樣的視角來面向行業並提出解決方案呢?上圖是最近幾年神策提出的比較經典的資料分析 SDAF 方法論,我們可以用來闡述以資料為中心來驅動業務發展的場景覆蓋能力。分成四個階段:

第一個階段是業務感知(Sense):這是企業在做資料運營或者說 OLAP 數倉選型過程中所要解決的。首先要去分析和洞察,我到底要選擇什麼樣業務或場景來去應用這樣一個技術。

第二個階段是策略制定(Decision):把指標集定義出來。

第三個階段是精準行動(Action):如實時分析、營銷中的精準觸達等需求。我們會選擇一定的資料集去測試。

最後是反饋迭代(Feedback):根據測試結果去做一些反饋和迭代,從而建立完整的商業和業務閉環。

在複雜查詢、高併發、實時分析等 OLAP 場景下,提升分析效率,實現資料價值的最大化,這個也是StarRocks 的理念,而鏡舟可以更好地去適應 SDAF 全過程。

3、行業和場景覆蓋能力

過去我們用以上的方法論,藉助我們團隊的經驗以及和同客戶一起打磨出來的經驗,主要洞察了這八個行業:金融、零售、製造、物流、電商、遊戲、汽車出行和一些其他的泛網際網路客戶。這裡主要把金融、零售、製造和遊戲這 4 個行業具體分析一下。

金融行業:我們的很多金融客戶使用 StarRocks,已經應用到很豐富的金融業務場景裡,包括實時風控、實時存貸款、反欺詐、反洗錢、 CDP 使用者標籤體系、金融理財、保險精準營銷,以及績效分析、 HR 審計等各個系統。

零售行業:資料驅動下的“人-貨-場”業務價值的升級、客戶甄選和放大、實時訂單分析、門店選址、供應鏈進銷存分析、商品個性化推薦和精準營銷等等。

製造行業:這個行業對於開源的接受程度目前來看是比較高的。主要聚焦於:生產質量監控和質量溯源的全過程,生產成本的分析、原材料採購預測、智慧建倉,以及物流等。目前很多製造企業在嘗試使用 StarRocks 去解決他們業務場景的痛點和需求。

遊戲行業:主要涉及遊戲玩家的留存和轉化分析、遊戲的數值平衡分析、廣告效果,包括輿情、遊戲內容的個性化推薦等場景。

4、StarRocks產品特性

總體來看,StarRocks 產品具有極致的效能、可擴充套件性、架構融合簡單運維容易、雲的高度融合、以及豐富的周邊生態,這些都是過去兩年不斷在行業場景下打磨的成果。這些特點也是被使用者所肯定和採納的。

回過頭來再從架構上看 StarRocks 的產品特性。在大資料生態下,StarRocks 具備比較強大的能力:

一是全面的資料攝入能力。既可以透過 DataX、Kettle、Canal 等工具支援,攝入傳統的TP 類的業務資料,也可以透過 Flink Connector、Spark Connector 將流式資料匯入,而對日誌、圖片、音影片等非結構化資料可將資料寫入到湖中。

二是對湖和倉的支援。除了能夠提供高效能本地化分析查詢能力外, StarRocks 還可以對 MySQL、Elasticsearch、Hive 、Iceberg、Hudi 等系統透過外表方式進行聯邦查詢。

三是完善的雲原生能力。StarRocks 不僅僅支援在不同的雲平臺基於雲主機做私有化部署,還支援在阿里雲和騰訊雲的 EMR 上做半托管叢集部署,以及目前在 AWS 上已上線的、未來可能在其他雲廠商平臺上線的全託管 SaaS 版。這樣可以充分發揮雲本身的優勢,比如彈性伸縮、高可用,此外未來也可以結合更多的雲原生能力,如資料治理(DataWorks) 。

四是在資料應用的上下游, StarRocks 也已對很多主流的 BI 工具進行了對接和相容。比如 SmartBI、FineBI、永洪BI、奧威等。

5、StarRocks極致的效能表現

StarRocks 一直在追求“極致”效能。請看這幾個測試集:

一個是 SSB 的,另外一個是 TPC-DS 的,還有 TPC-H 的。StarRocks 的效能是同型別產品的 3 倍到 8 倍,也正是因為有這樣的極致效能,收穫了比較好的市場口碑、比較多的使用者認可。

這是前段時間 ClickBench 的一個測試:

ClickBench 以可重複性、相容性、多樣性、真實性為目標,基於全球最大的網路分析平臺去選取資料來源,涵蓋的資料型別非常多樣,所有上榜的結果都可以復現,能夠真實反映各大資料廠商在生產環境的效能。預設情況下,各個資料庫專案提交的版本都會按照業界最為通行的 c6a.4xlarge, 500gb gp2的機型來進行測試。最終, StarRocks 在通用規模下獲得了單表查詢效能第一的成績,首次取代 ClickHouse 登頂該榜。

6、功能豐富、靈活部署、安全可靠

豐富的 Manager 管理功能: 這是鏡舟目前提供的最重要的服務,Manager 能夠提供的功能包括:透過“概況總覽”來去快速探查叢集狀態,瞭解“資料庫的資訊”,檢視“叢集狀態”,提供“SQL 皮膚”去對 SQL 進行執行。另外還包括做一些簡單的最佳化,做叢集診斷,線上擴縮容,提供報警管理、查詢管理功能,也可以非常方便地去檢視節點狀態,管理叢集版本等等。

靈活的私有化部署:鏡舟資料庫是基於 StarRocks 開發的企業版,既支援 IDC 私有化部署,也支援基於雲主機做私有化部署。目前已經支援阿里雲EMR 和騰訊雲EMR 的半托管模式,已經在 AWS 上線全託管的 SaaS 版,未來還會支援其他雲廠商。

其他特性:第一是安全穩定。第二是生態相對來說比較完善,因為 StarRocks 兩年多的積累,再加上各個生態合作伙伴的鼎力支援,融合了非常多上下游的產品和技術,從而能夠給企業提供相對完善的解決方案。第三是完全自研自主可控,原廠有豐富的基礎知識和培訓,因此我們可以做到 7x24小時,全天候應急響應,節假日不休。全國在六地有研發中心和知識中心,特殊需求可以派專家去現場保駕護航。

使用 StarRocks 可以給客戶帶來的價值,鏡舟希望始終體現在業務的最終目標上。因此,鏡舟希望能夠實現的產品價值是:全新的業務洞察速度,全新的業務洞察實時性,賦能更多人員進行業務洞察,構建靈活、快速響應業務變化。

7、產品資質、榮譽與客戶代表

以下是 StarRocks 過去一年獲得的一些市場認證。在 2022 年 6 月,StarRocks 入選了 Gartner《 Market Guide for DBMS,China 》這樣一個相對來說影響力比較大的報告。

我們也同各個伺服器和晶片廠商以及 BI 廠商進行互認,並申請了一些專利。

上圖列舉了一部分代表客戶,當下我們總共有 170 多家十億美金級以上的客戶,覆蓋了主流的互聯公司,阿里、騰訊的全系、京東、小米、美團、小紅書等等,也包含垂類的遊戲、電商、物流、教育、金融、製造、零售等行業頭部企業。在這次年度峰會上,這些客戶也會同大家去分享一下具體的技術研究思路和業務場景覆蓋思路。

鏡舟生態戰略佈局與客戶成功體系

企業級服務離不開標準的人員能力和規範的服務流程。鏡舟科技在與 StarRocks 產品很好結合的基礎上,在為使用者提供服務的過程中不斷最佳化和迭代,形成除產品力之外的另外一個驅動輪子,我們叫“雙輪驅動”。

1、全面的生態戰略佈局

依靠生態的戰略佈局,能夠帶來強大的服務能力。包括開源社群的生態,雲廠商的生態,還有數倉上下游的生態以及合作伙伴的生態。這使得我們能夠覆蓋從專案的前期諮詢到最後專案成功上線的全過程。在過程中,不僅僅是鏡舟,包括 StarRocks 社群的很多的使用者和支持者,都可以給客戶提供非常多的支援。

2、四位一體的企業級客戶成功體系

我們的客戶成功體系叫四位一體的客戶成功體系。其目標是:透過專業的服務,讓客戶更好地基於我們的技術和產品持續創造業務價值,成就客戶,實現共贏。我們客戶成功團隊分成售後 DBA 團隊、解決方案中心和客戶成功經理團隊,同產研團隊形成非常好的雙輪驅動和配合。

我們產研團隊到目前為止所有的產品 feature,都是透過市場和客戶獲得需求之後研發出來的。同時我們產研團隊研發出的每個 feature,透過客戶成功團隊的不斷努力,也可以很好地推向客戶的具體應用場景裡邊去。所以從前期諮詢,到後面的 POC 測試,到交付準備、上線實施、持續經營,客戶成功體系可以覆蓋全過程。而大迴圈是依賴於客戶成功體系標準化的人員能力和標準化的服務體系。

3、完善的實施過程和客戶服務

我們具備標準化的實施過程:

從前期諮詢,到 POC 測試,到專案規劃與啟動,到專案驗收與客戶培訓,到持續的客戶成功服務,到持續的滿意度回訪,再回過頭來,去找新的業務來去做前期諮詢……不斷重複這個過程。

在這過程中,一方面同客戶一起成功,另一方面還可以從客戶的具體應用場景中分析新的需求,解決新的問題,從而形成我們社群和商業版的新 feature。

所以毫不誇張地講,就 StarRocks 面世到現在,以及鏡舟做企業版這麼長時間以來,所有產品功能的 feature 沒有一個是閉門造車出來的,全都是由同客戶的互動、同客戶的交流,同客戶的業務場景,不斷嘗試最後創造出來的。我們認為這樣才叫做真正的“客戶成功”。

這裡列了一下我們的客戶成功體系,做企業級服務的標準化內容和流程:

目前,已經線上上及實驗過程中運營了將近一年,我們能提供的是:專家級支援,線上培訓、遠端定期運維巡檢,以及客戶成功經理定期回訪。客戶成功經理平均兩週會與客戶開一次會,討論一下最近使用的情況,以及未來有哪些可能的需求。我們把這些資訊拿回來之後,最佳化解決方案,抽取需求,由解決方案團隊提交給研發團隊,來形成我們新的產品 feature,從而能夠服務更多的使用者和客戶。

最後一個就是關鍵節點,我們會全天候 7x24 小時支援。目前鏡舟的輪班制度和 7x24 小時的排班制度已經非常完善,出了問題,無論是在微信群或者打電話,10 分鐘到一個小時內必定有人響應。

無論 StarRocks 還是鏡舟,能走到現在,都與使用者和客戶的共創分不開。本次分享中講到的各行業典型場景,StarRocks Summit Asia 2022 都請到了相關企業做分享,講述了他們在這些場景裡面運用 StarRocks 的一些方法和經驗,相關內容會陸續釋出,歡迎關注!

來自 “ 廠商動態 ”, 原文作者:廠商動態;原文連結:廠商動態,如有侵權,請聯絡管理員刪除。

相關文章