基於雲原生架構的新一代資料倉儲平臺

danny_2018發表於2024-02-01

近年來,國際形勢急劇變化,我國金融業關鍵技術基礎設施面臨的外部風險不斷加大,迫切需要加強技術建設,切實強化自主可控能力,不斷增強抵抗外部風險能力,保障我國金融業持續、穩定、健康發展。隨著資料技術和數字經濟飛速發展,業內普遍認識到資料基礎平臺是實現資料價值的基礎保障,能有效匯聚資料資產,提升資料供給效能。各機構紛紛加大投入,加速自身數字化轉型升級。申萬宏源證券在全行業推進IT基礎設施建設的浪潮下,不斷加強金融科技創新能力建設,打造新一代資料倉儲平臺,持續最佳化平臺架構、強化執行效率、夯實資料基礎。

技術路線

資料倉儲作為金融機構的資料基礎設施,對於技術的高要求表現在兩個方面:一方面需要叢集具備較高的執行效率,良好的可擴充套件性、穩定性和系統相容性;另一方面,經過多年發展,大型傳統金融機構的資料倉儲所對接的上下游系統既多又廣,關聯關係複雜,往往涉及公司內各個部門,以及一些對客系統,其升級替換期間的業務連續性必須得到保證。要實現資料倉儲平臺的替換和業務平滑切換,必須對候選產品的特性、生態、實施服務、運維服務和自主可控等方面進行全面評估,對候選廠商的產品設計開發能力、專案管理能力和持續服務能力提出更高要求。

面對市場上多種商業資料倉儲產品,申萬宏源證券組織了產品評測,主要考察產品部署、產品功能、運維管理、模型遷移、場景效能、叢集擴充套件及高可用、工具生態、行業經驗等內容,基本覆蓋了資料倉儲的日常使用場景。申萬宏源證券的新一代資料倉儲平臺選型採用雲原生分散式資料倉儲AnalyticDB搭建,所採用的關鍵技術及創新點表現在以下幾個方面。

第一,採用了雲原生架構實現算力動態調節。平臺基於K8S和容器的雲原生架構,實現了資源統一管理,存算分離,易於支援容災和通用硬體。作業高峰時,擴充算力,加速執行,獲得速度優勢;低谷時,釋放算力,降低系統功耗,釋放能耗優勢;故障時,動態漂移節點,快速實現容災。從而獲得良好的效能、功耗和容災效果,以及成本優勢。

第二,採用了多種新技術提升效能。採用支援PB級資料量的實時增刪改儲存引擎,預設建立全列索引,索引構建開銷達到千億級資料秒級響應;採用向量計算和智慧索引技術,使產品效能提升數倍以上;內建了基於代價估算的查詢計劃最佳化器,充分利用全列索引,實現複雜SQL自動最佳化,減少計算和資料傳輸的開銷;採用了DAG作業運算的小批次流水線執行框架,以及資料庫核心與作業系統協同的查詢公平排程演算法,實現了高吞吐和低延遲查詢的混合執行;支援單系統內透過單條SQL對結構化和非結構化資料進行融合分析;可對接Flink、Kafka等,實現實時數倉,提供實時賬戶分析能力。在國際知名的TPC組織公佈的資料庫領域分析效能測試中,AnalyticDB在整體效能上獲得第二名。

第三,提供資料質量優先策略以獲得精準資料治理能力。平臺支援資料入庫質量優先策略,不但資料精度更高,而且對入庫的亂碼資料進行精準標記,有助於發現和梳理資料質量問題,精準治理,以提高資料質量。

第四,採用了資料聯邦分析技術加快查詢速度和資料開發效率。透過支援資料跨例項共享,可實現資料的跨平臺聯邦分析,再結合冷熱資料分層儲存機制,加速資料查詢比對,提升了開發過程中資料比對驗證的效率。

整體架構上,平臺包括主備雙中心。主中心用於資料儲存、加工和分析,備中心用於容災和備份。主備中心採用“統一採集、雙載入”模式實現資料同步,所有作業均透過ETL工具統一排程。

作為資料中臺的計算和儲存層之一,平臺透過各類資料交換元件對接上游源系統,獲取並儲存各類資料,按照資料模型組織資料,最後透過資料交換/共享層向下遊提供資料服務。

專案特色

平臺基於雲原生架構和多種技術手段,在效能、功能、功耗、資料質量、自主可控等方面均顯著最佳化,總體技術水平處於國內領先。與眾多資料倉儲類專案相比,本專案還有如下特點。

1.採用了新的技術路線實現平臺自主可控。本專案採用了行業內尚未在生產環境驗證過的信創實現方案,即基於海光晶片的伺服器,搭載麒麟作業系統,其上部署雲原生資料庫軟體AnalyticDB,在資料倉儲信創化改造方面探索了不同路徑,實現了平臺自主可控的目標。

2.形成了資料倉儲遷移和信創改造最佳實踐,助力行業推廣。透過本專案建設,形成了資料倉儲升級與信創改造方法論——五階十步法(如圖所示);沉澱了資料倉儲遷移最佳實踐,包括SDOM資料模型遷移、跨平臺資料遷移、大規模業務應用平滑切換最佳實踐;豐富了資料倉儲遷移效率工具箱,如指令碼轉換工具,資料聯邦查詢核驗工具,後設資料變化感知工具等,有助於加速行業推廣落地。

圖 資料倉儲遷移實施:五階十步法

應用價值

新資料倉儲平臺作為申萬宏源證券金融科技“2349”戰略藍圖的重要基礎設施,滿足未來5~10年技術發展和演進方向,可保證公司在資料中臺技術上的領先優勢,同時符合行業自主可控和安全性的要求,被專家評審認定為處於國內領先水平。平臺自推廣使用以來,取得了較為顯著的經濟效益和社會效益。

經濟效益主要表現在以下幾方面。第一,作為企業級資料聚合與共享平臺,新資料倉儲平臺相比原資料倉儲,業務承載規模提升了60%,更好地滿足了業務快速增長的資料需求。第二,作為企業金融科技的關鍵基礎設施,新資料倉儲相比原資料倉儲,大規模計算速度提升30%,顯著提高了下游用數時效,改善了使用者體驗。第三,作為資料治理落地的重要平臺,新資料倉儲在資料準確性和完整性方面更勝一籌,有助降低公司在資料治理領域面臨的監管風險。第四,截至2022年底,申萬宏源證券完成了全部歷史資料和業務平穩遷移,實現了新舊平臺整體切換。先後對接130多個資料來源系統,遷移了18個資料集市、約2萬個跑批任務、近2000個資料介面、約110個資料應用,已在財富管理、資產管理、FICC、金融創新、風險控制、法律合規、財務管理等多個業務條線和中後臺條線發揮著重要的資料支撐作用,應用效果廣受好評。

社會效益主要表現在以下幾方面。第一,新資料倉儲平臺從底層硬體、作業系統到資料庫軟體,全部採用信創技術方案,真正實現了資料倉儲基礎設施自主可控和安全可信,切實增強了金融機構抵禦外部風險能力。第二,長期以來,我國金融業廣泛採用國外資料倉儲產品,應用場景較多,樹大根深,替代工作非朝夕可成。基於雲原生架構的新一代資料倉儲平臺的建成投產,為推進行業資料基礎設施自主可控提供了新的技術路線和實踐案例,已被業內其他金融機構成功複製並落地,未來將繼續在行業基礎設施信創化改造過程中發揮良好的示範作用。第三,行業內資料倉儲的信創改造不僅多了一種新的技術案例,還鍛鍊了具備較高技術水平和良好實施經驗的團隊,為全行業推進信創工作積累了技術、儲備了人才,有助於行業加快基礎設施信創步伐。第四,本專案另闢蹊徑,大膽探索新的信創技術路線,在業內樹立了標杆,有力支援了國內軟硬體產品生態建設與發展壯大。

本專案榮獲金融科技發展獎,充分說明申萬宏源證券在金融科技創新領域取得的顯著成績獲得了業內認可,對公司探索運用金融科技踐行金融報國和服務高質量發展具有重要意義。

來自 “ 金融電子化 ”, 原文作者:金融電子化;原文連結:https://mp.weixin.qq.com/s/DdZxLVYvRPUzwLSXeq9VeQ,如有侵權,請聯絡管理員刪除。

相關文章