中原銀行:基於StarRocks構建OLAP全場景架構解決方案,邁入極速統一時代 | 案例研究

ifenxi發表於2022-11-16

中原銀行:基於StarRocks構建OLAP全場景架構解決方案,邁入極速統一時代 | 案例研究 近年來,隨著銀行業務場景的不斷豐富、業務規模的不斷擴張,使用者線上線下交易大幅上升,資料量與資料種類愈加豐富,大量創新型資料分析和應用場景出現,對分析型資料庫的儲存與計算能力提出了更復雜的需求,尤其在對實時資料價值的深入挖掘、資料庫查詢與分析效能的提高上提出了更高要求。為滿足以上需求,銀行紛紛開始重塑資料庫體系,對已有分析型資料庫進行改造,在支撐業務需求的同時簡化架構。

近日,愛分析深入調研了行業中一批國內領先的銀行數字化轉型實踐案例,圍繞實踐領先型、案例創新性、應用成熟度、價值創造四個維度對多個實踐案例進行評選,經過多輪評選與角逐,“中原銀行OLAP全場景架構解決方案”案例憑藉其完整且個性化的實施方案、卓越的專案效果當選優秀創新實踐案例。該案例中,中原銀行就藉助了StarRocks對資料分析架構進行改造升級,構建了全新的資料分析平臺,從而提高用數效率,賦能銀行經營管理與業務發展。 

01
資料量激增,業務場景多元化,中原銀行資料平臺需升級

中原銀行成立於2014年,是河南省唯一一家省級法人銀行,今年經改革重組後,該銀行總資產規模已突破1.2萬億元,下轄18家分行,有400餘家營業網點,2萬餘名員工以及17家附屬機構,目前已成為河南省首家資產超萬億的城商行。

隨著業務不斷擴張、資料量的高速增長以及業務邏輯複雜程度的不斷提升,銀行需要更加快速地響應客戶,為其提供更加精準的服務,即使用實時資料進行客戶洞察,以幫助銀行經理與業務人員做出業務決策,提高管理水平。為此,中原銀行搭建了一站式商業智慧BI平臺,該平臺分為客戶行為分析系統知秋、一站式報表平臺魯班、一站式大屏平臺鴻圖和自助分析平臺雲間四大應用系統,總使用者超一萬人,月活使用者在3000以上,月均點選次數為20萬以上,使用者規模大且使用頻率高。

為支援BI平臺的快速高效工作,中原銀行還搭建了完整的資料平臺。該資料平臺分為資料來源、資料傳輸、資料儲存計算、資料服務與資料應用五大部分。資料來源是透過Oracle資料庫對核心資料、信貸資料、績效資料等進行儲存。資料傳輸主要依賴中原銀行自主研發的百川離線同步平臺與實時傳輸AR平臺。儲存計算層主要分為資料湖、離線數倉與實時數倉三部分。其中,資料湖對半結構化資料、非結構化資料和部分系統日誌與歷史資料進行儲存;離線數倉是基於Gauss DB完成跑批作業,對資料進行層層加工傳輸到讀叢集中以供報表查詢;實時數倉則是對實時資料進行處理輔助進行實時決策。資料服務主要為對儲存的報表、分析計算的資料進行查詢。資料應用層面向銀行客戶經理,包括商業智慧BI平臺與業績分析等應用系統。

圖1:中原銀行改造前的OLAP平臺架構 

中原銀行:基於StarRocks構建OLAP全場景架構解決方案,邁入極速統一時代 | 案例研究

雖然已有商業智慧BI平臺與大資料平臺已經能夠解決中原銀行大部分業務問題,但隨著數字化轉型逐步步入深水區,各業務場景對用數效率提出了更高要求。具體體現在:

  • 查詢效率亟需提高。中原銀行原有的基於MPP和Hadoop構建的資料平臺查詢效率較低,尤其是多表關聯查詢效率,BI平臺的平均耗時超10秒,知秋系統平均耗時長達20秒以上,嚴重影響了對客戶的深入洞察分析與對銀行經營狀況的管理。因此,該銀行需要提高對業務、經營管理等資料的查詢能力,尤其是對複雜的關聯資料的查詢能力,為其良好的分析效能提供保障。

  • 需要升級資料平臺架構,深入挖掘實時資料的價值。基於原有的資料平臺架構,僅能支援T+1小時級別的準實時報表,需要等待最新的小時任務跑批完成,才可以查詢最新時間的資料,難以滿足銀行在客戶分析、風控管理等場景下的實時查詢與分析需求。並且,原有架構中需要經過Oracle-AR資料傳輸平臺-Kafka-Flink-Kafka的長鏈路才能實現對實時資料的查詢與分析。因此,銀行需要全面升級資料平臺架構,尤其是資料分析層的架構,從而滿足業務增長帶來的實時需求。

  • 需要統一資料架構,降低運維成本。原有資料平臺流批鏈路複雜,運維成本高,且實時資料與離線資料的儲存並不統一,存在冗餘,造成存算資源的浪費。因此,中原銀行需要簡化資料平臺架構,對離線資料與實時資料進行統一高效管理。 

02

多維度綜合考察,最終選擇StarRocks升級OLAP架構

基於以上需求,中原銀行決定對原有資料平臺中資料分析架構進行全面升級與改造,以保證資料的統一管理與高效應用,提升實時響應能力。

經過調研了市面上的主流的兩款OLAP資料庫產品發現,ClickHouse在單表查詢和大寬表查詢表現優秀,查詢延遲也比較低,但是Join效能較差,且不易維護;StarRocks在固化查詢和靈活分析效能表現不錯,多表查詢效能也比較優秀,而且同時支援實時與離線匯入分析場景。與此同時,StarRocks分析型資料庫具有流批一體、能夠向量化執行、運維簡單、查詢效率高、相容性好且能夠滿足高併發查詢要求六大優勢,恰好滿足了中原銀行構建極速統一的資料分析架構的業務需求。

具體而言,該資料庫支援實時和批次兩種資料匯入方式,以實現極速統一分析;全面採用向量化技術,適配CPU的SIMD指令集等手段,充分發揮其平行計算能力;安裝部署容易,高可用易擴充,且擴縮容期間無需停服;能夠智慧物化檢視,透過智慧CBO最佳化器提供亞秒級的多維分析能力;能相容MySQL協議語法與MySQL生態,使用者可快速上手;同時,還能為客戶提供高效能高併發的互動式分析體驗,查詢QPS高於平均水平。六大優勢相輔相成,恰好滿足了中原銀行構建極速統一的資料分析架構的業務需求。

表1:中原銀行OLAP查詢引擎選型對比表

中原銀行:基於StarRocks構建OLAP全場景架構解決方案,邁入極速統一時代 | 案例研究

透過POC測試StarRocks分析型資料庫的資料匯入效能、查詢響應速度、與知秋客戶洞察系統匹配程度發現,該資料庫能夠滿足極端業務的資料匯入效能要求,大幅度提高知秋系統轉化分析、客群分群查詢、活躍使用者查詢等應用查詢效率,且與銀行原有MPP資料庫相比,平均效能可以提高3.87倍。

StarRocks 以“打造新一代極速全場景 MPP 資料庫,面向複雜查詢、高併發、實時分析等各類場景以達成資料價值的最大化”為原則,不斷打磨產品,即將面世的 StarRocks 3.0 致力於支援使用者同時進行極速分析與極速資料湖分析。StarRocks還堅持發展生態,多方合作以壯大社群,阿里雲端計算平臺事業部產品解決方案總經理陳立就曾表示“StarRocks 是阿里雲在資料湖 3.0 雲原生化、彈性化、實時化的重要產品之一”。截至目前,StarRocks已幫助超過170家大型企業構建了全新的資料分析能力,生產環境中執行的StarRocks伺服器數目達數千臺,其社群使用者也已超7000人,吸引幾十家國內外行業頭部企業參與共建。

綜合以上結果,中原銀行最終選擇了產品成熟度高、技術棧與銀行主流技術相符、功能完善、安全性高、查詢效率高、社群活躍度高的StarRocks分析型資料庫。 

03

StarRocks助力中原銀行分階段升級OLAP架構

完成選型後,中原銀行開始進行OLAP架構改造。此專案分為三個階段:叢集搭建、離線業務實踐與實時業務實踐。

圖2:資料分析架構改造路徑

中原銀行:基於StarRocks構建OLAP全場景架構解決方案,邁入極速統一時代 | 案例研究

叢集搭建

叢集搭建是改造前的準備工作,包括與離線傳輸平臺百川、流計算平臺的對接,StarRocks叢集的規劃與搭建,機器資源的申請與分配,此階段為資料分析架構升級的有序進行奠定了基礎。

離線業務實踐

為解決對離線資料查詢效率低與分析效能差的問題,中原銀行將固定離線報表遷移至StarRocks,並對知秋客戶行為分析系統進行改造。

該銀行的固定報表分為靈活分析、透視分析、電子表格、視覺化報表四種形式,共計2800多張,廣泛應用於對公、零售、績效、風險、系統指標監控多個場景下。透過更新建表語句、將原有函式轉化為StarRocks內部函式,中原銀行實現了固定離線報表的自動化遷移。

圖3:固定離線報表遷移方案 

中原銀行:基於StarRocks構建OLAP全場景架構解決方案,邁入極速統一時代 | 案例研究
遷移後的報表具有三大特性。首先,排序列前引入了字首索引,能夠快速過濾資料,減少資料掃描量,從而快速找到起始的目標行;其次,選擇了高基數的列(如唯一的ID)作為分桶鍵,保證了資料在各個分桶內儘可能均衡;最後,預設三副本,不同副本儲存在不同BE上,保證某一機器或副本的損壞並不會影響業務查詢。這三大特性既避免了資料缺失的問題,又保證了查詢效率的提高。

知秋客戶行為分析系統有獲客分析、增長分析、留存分析、傳播分析和特徵分析五大分析場景,但由於其分析所需的報表多為上億級別的大寬表,且需要多表關聯查詢,查詢效率低,分析效能也較差。因此,中原銀行將各分析場景也全部轉移至StarRocks中,提高其查詢響應速度;其次,對留存分析場景進行了Bitmap改造,如針對中原銀行駐馬店分行所應用的留存分析功能,將原有隻能進行單一條件查詢或全部查詢的方式升級為了Bitmap取交集與並集計算的模式,大大提高了客戶資料查詢與分析的靈活性與時效性,也豐富了客戶行為分析的種類。

實時業務實踐

實時資料讀寫效率低下嚴重影響了對客戶的深入洞察與經營管理查詢效率,因此,中原銀行在原有資料平臺架構上對資料存算層與資料服務層進行改造,搭建了實時數倉。

圖4:中原銀行改造後的資料平臺架構 

中原銀行:基於StarRocks構建OLAP全場景架構解決方案,邁入極速統一時代 | 案例研究

搭建實時數倉後,資料傳輸不再是統一抽取到Kafka後再進行推送,離線資料將採用broker load的方式將T+1資料直接匯入StarRocks中,透過相關SQL命令進行快速分析處理;實時資料則透過Flink connector的方式匯入,實現Oracle- Kafka- Flink- StarRocks的實時鏈路,極大地提高了實時查詢與計算的效率。同時,原有的ES實時維錶轉變成了StarRocks 中主鍵模型的資料表,它支援自定義主鍵、指標列與秒級的匯入與查詢,在查詢時能夠返回相同元件的最新資料,也促進了實時資料使用效率的提高。

此實時數倉架構將中原銀行的離線資料和實時資料進行了統一,極大程度上減少了資料的冗餘,同時支援秒級的匯入與查詢,提高了業務的時效性和多樣性。 

04

升級平臺架構,最佳化查詢效率,實現實時響應,提升用數效率

目前,中原銀行使用StarRocks完成了固定報表遷移、知秋系統改造與實時數倉建設,極大提高了銀行的資料匯入、查詢與分析效率。整體改造後的具體效果如下:
固定報表遷移效率與查詢效率大幅提升。70%的報表可以透過自動化遷移來完成。遷移完成後,固定報表查詢效率提升為原來的 2.7 倍,所需時間下降到 3 秒以內。尤其是原耗時排行 top 10 的報表,查詢效率提最佳化了10倍以上,提升效果明顯。
實現自助客戶行為分析,查詢效率顯著提高。目前,知秋系統內13個業務場景已全部遷移,其中,針對留存分析進行了bitmap 改造,查詢效率提升了10 倍以上;其他模組查詢效率平均提升3倍以上,平均查詢時效為5.8秒。 

實時架構升級,實現秒級響應。透過搭建實時數倉,能夠實現秒級響應最新貸款等業務資料的實時查詢,管理決策用數效率從T+1小時轉換為秒級。在實時存貸款報表應用中,業務人員能夠查詢到精準到秒級的最新資料,核對存款入賬時間從平均半小時縮減至5秒鐘,提升了360倍。

透過實時大屏,實時監控銀行經營與管理情況。基於實時數倉,中原銀行極大程度的豐富了實時大屏的應用場景。目前,智慧運營增長平臺可以實時監控觸達轉化資料;鴻圖大屏能實時檢視對公時點存款、對公時點貸款的餘額、對公總客戶數與對公的排名情況,輔助業務人員進行實時的分析決策;還能夠實時檢視當天各專案組DevOps研發效能流水線發版情況、發版成功率、失敗率和以及排名情況。 

05

中原銀行為城商行OLAP架構升級提供創新實踐典範

中原銀行作為目前我國排名第八的城商行,此次與StarRocks合作的升級OLAP專案為其他規模相同、已有資料平臺建設較完善的城商行提供了標杆。

首先,銀行在改造前需深入分析業務需求,基於此進行選型。目前市面上的分析型資料庫廠商眾多,各產品優勢不同;銀行不能盲目跟風采購,需要拆解業務需求,並結合技術適配度、安全性、社群活躍度等多維度進行考察與POC測試,選擇符合業務需求、適配技術框架的分析型資料庫。該專案中,中原銀行基於用數效率提高的核心需求,從九大維度中進行考察,最終選擇了在查詢效率、技術架構與相容性有明顯優勢的StarRocks。

其次,專案實施過程應分階段分場景進行改造。對於中原銀行為代表的數字平臺建設已經比較完善的銀行來說,OLAP的升級比較複雜。因此,應該按照業務場景等邏輯進行任務拆分,有規劃的分階段進行改造,提高專案執行效率。此專案中,中原銀行按照業務需求將具體執行階段劃分成離線業務改造與實時業務改造,在9個月內完成了部分系統的升級改造。

未來,中原銀行還會攜手StarRocks繼續深入改造與最佳化包括資料分析平臺在內的資料平臺架構,挖掘更多業務場景下的實時報表,進一步探索最佳化OLAP效能,解決資料湖分析過程中存在IO延遲高、資料格式無法最最佳化等問題,從而在StarRocks上實現極速分析與極速資料湖分析以提高用數效率並賦能業務增長與銀行管理,邁向極速統一3.0時代。 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69993021/viewspace-2923664/,如需轉載,請註明出處,否則將追究法律責任。

相關文章