分析視角下銀行業資料平臺架構演進及實現

HashData發表於2023-03-01

當前,資料成為驅動銀行業數字化轉型的關鍵生產要素。如何從海量的資料中識別有效的價值資料,實現業務與資料的深度融合,啟用資料要素潛能、深挖資料資產價值,成為銀行業持續探索的重要課題。

隨著雲端計算、大資料等技術的發展,銀行業對資料分析的需求也從面向過去的描述型分析,逐漸演變成面向過去、未來和現在的全視角、智慧化分析。作為分析的資料來源頭,資料庫是保障分析事務穩定、高效執行的關鍵基礎設施。

在近期的直播中,我們從資料分析的視角介紹了銀行業資料平臺演進過程和實現方式,論述資料平臺如何透過架構演進升級,幫助銀行業最大限度釋放資料資源價值。

銀行業資料分析架構演進過程

相比其他行業,資料資產對於銀行業而言尤為重要。在央行釋出的《金融科技發展規劃(2022-2025)》中,明確提出“啟用金融資料要素潛能”“加強資料能力建設”“夯實金融創新發展數字底座”,加速金融科技創新發展中資料基礎設施建設升級勢在必行。

近年來,隨著ICT技術的發展,銀行業正從流程型驅動向資料型驅動演進。為了順應分析需求的變化,銀行業的資料平臺也從單一架構的傳統數倉過渡到多元化的資料平臺,再演進為湖倉一體、存算分離的一體化資料平臺。

從發展程式來看,銀行業的資料分析平臺經歷了三個階段:

分析1. 0階段,銀行的資料來源主要是透過整合歷史累積的業務資料,其後透過報表、查詢等形式,對業務歷史資料進行統計分析,透過資料瞭解一段週期內的企業經營情況。因此,這一階段銀行以看到過去的描述型分析為主,平臺採用傳統的數倉平臺,技術路線以傳統MPP資料庫(主要為一體機)加Oracle為主。

伴隨著資料量的增長,僅僅對過去行為進行分析的1. 0 階段已經無法滿足銀行業務發展的需求,銀行開始透過建立資料科學團隊,針對海量資料進行探索和研究,從資料中發現新的業務趨勢,對業務進行前瞻性預測。在描述型分析的基礎上,銀行繼而大力開展面向現在的預測型分析,銀行業資料分析隨之進入2.0階段。

圖1:銀行多元化資料平臺架構

在資料分析2.0階段,很多銀行都採用了多元化、混合架構的思路,技術上引入了純軟的MPP資料庫和Hadoop。但隨著銀行業務負載越來越複雜,需求越來越多,多元化平臺無法實現高併發、負載無法隔離等缺陷愈發凸顯,同時還存在業務體驗波動、資料整合不足、資料支撐不佳、運維管理複雜等缺點。尤其是這種架構的資料平臺通常是T+1的頻率獲取資料,無法做到實時資料加工處理。

隨著分析需求的持續推進,銀行希望透過現有的資料來直接實時地反映當前的業務情況,資料分析開始進入3.0階段。在這一階段,銀行需要提高資料分析的時效性,打通前後端,將分析發現的業務洞察嵌入業務流程,自動化、智慧化驅動業務。因此,銀行逐步開展“決定現在的運營型分析”,在開展業務流程或活動過程中,直接呼叫資料產品或服務,利用資料分析成果,驅動保障業務健康發展。

在資料分析3.0 階段,銀行應具備全視角資料分析能力,傳統BI平臺已無法滿足全視角分析需求,銀行需要建設一體化的資料平臺,管理多形態、多時效全域資料,打通前後端業務,實現全視角分析。

雲原生數倉助力銀行一體化資料平臺建設

一體化資料平臺要具備三項基礎能力:多形態資料管理能力、多樣化分析計算能力和多維度的彈性伸縮能力。

一體化資料平臺應該能夠相容結構化、半結構化、非結構化等不同形態、不同時效性的資料,進行多樣化的計算和分析,並根據業務需求變化進行彈性伸縮。

為了滿足搭建銀行全行資料平臺的需求,基於本地磁碟的完全無共享並行處理架構的MPP資料庫逐漸成為搭建資料平臺、支撐分析應用的首選技術。但是,隨著業務的發展,資料量的進一步增長,基於本地磁碟的完全無共享MPP架構在實際落地時面臨著挑戰,如:存算緊耦合、木桶效應、擴容資料重分佈、併發限制、混合工作負載等等。

伴隨著銀行資料分析需求的升級,傳統的MPP架構資料倉儲已經無法滿足銀行建設一體化資料平臺需求,越來越多的銀行開始應用雲端計算、分散式技術,建設全行級的一體化資料平臺,整合全域資料,形成面向整個銀行統一的資料檢視,支撐全視角資料分析。

在這樣的背景下,基於雲原生架構的資料庫產品應運而生。同時,Snowflake、Databricks等獨立軟體廠商也推出存算分離、湖倉一體架構的產品。

圖2:以HashData為例的全視角一體化資料分析平臺

其中,Snowflake提出了基於物件儲存的多叢集彈性並行處理架構(Elastic Parallel Processing,簡稱EPP),這種架構具有MPP執行引擎、標準SQL介面,後設資料、計算和儲存三者分離、多叢集統一資料儲存層、物件儲存作為資料持久層等特點。

圖3:HashData資料倉儲架構

作為國內最早進軍雲原生資料倉儲領域的企業之一,HashData採用業界領先的雲原生大資料系統設計理念,圍繞著物件儲存和抽象服務構建,最大限度發揮雲端計算優勢,實現快速部署、按需伸縮、不停機交付等,大幅降低企業進行大資料分析的門檻。

HashData作為一款企業級雲端資料倉儲,融合了MPP資料庫的高效能和豐富分析功能、大資料平臺的擴充套件性和靈活性,以及雲端計算的彈性和敏捷性,提供了傳統解決方案無法比擬的高併發、易用性、高可用性、高效能和擴充套件性。

同時,基於領先的EPP架構,HashData採用物件儲存作為資料持久層,實現了存算分離、湖倉一體化,具備高可用、高併發、近乎“零運維”等特點。

對於傳統MPP資料庫難以實現高併發的“痛點”,HashData透過雲原生架構,實現了多個叢集共享統一的後設資料、統一的資料儲存,叢集間不競爭CPU、記憶體和IO資源,可以根據業務需求無限地建立叢集。

為避免出現“資料孤島”和冗餘,HashData採用共享儲存架構,任何一個計算叢集都可以去訪問同一份資料,所有叢集共享同一份後設資料,徹底消除“資料孤島”和冗餘,確保資料的實時性、一致性。

憑藉領先的技術優勢和豐富的實踐經驗,HashData目前已廣泛應用於金融、政務、運營商、交通物流、能源和網際網路等領域。

在銀行業,HashData為金融監管機構、國有大行、政策性銀行、股份制商業銀行、省農信等機構提供資料管理與分析服務,為銀行打造了一體化資料平臺。Hashdata期待在分析視角轉換的今天,能夠參與銀行業資料平臺架構演進的趨勢中,助力銀行業實現資料融通,釋放資料價值。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70019410/viewspace-2937459/,如需轉載,請註明出處,否則將追究法律責任。

相關文章