中小銀行資料倉儲建設 | 最佳實踐

碼農談IT發表於2023-01-09

【摘要】本文分享了銀行資料倉儲建設的實踐經驗,包括建設思路、分層規劃、模型設計、主題劃分、輔助工具和實踐思考,希望能為進行同類專案建設的同行提供參考。

【作者】徐園園,現就職於秦皇島銀行,CDMP資料治理認證專家、阿里雲ACE雲端計算架構師、阿里雲ACP大資料/資料分析工程師,主導完成秦皇島銀行資料架構規劃與制定,負責大資料平臺和資料倉儲建設及大資料應用建設工作,具有一定的資料規劃和資料探勘能力,具有一定的資料治理和資料標準落地實踐經驗。熟悉DCMM資料管理能力成熟度模型,掌握DCMM認證8個能力域29個能力項要求,具備DCMM認證輔導能力。

近年來,隨著銀行業務日益發展、監管要求不斷深化,秦皇島銀行逐步將資料分析、資料應用、資料探勘作為金融業務發展和管理決策的重要支撐手段,將資料作為行內的核心資產,不斷擴充資料應用場景,提升資料資產管理能力。煙囪式系統建設模式會給資料建設帶來嚴重後果,資料標準、資料規範無法按預期實施,資料質量提升與預期相距甚遠。秦皇島銀行原有的資料平臺(簡稱ODS)系統已經不能滿足業務部門日益旺盛的資料分析需求,同時也面臨著一些其它問題,如:資料架構混亂,資料儲存分散、資料冗餘嚴重、資料網狀結構,缺乏統一的資料模型和資料管控等,迫切需要對ODS系統進行重構,對資料進行統一整合,構建全行資料標準化體系,滿足行內業務快速發展及資料輔助應用等需求,能夠在激烈的數字化轉型競爭中發揮應有的價值。

一、建設思路

秦皇島銀行於2021年7月正式啟動資料倉儲升級專案建設,專案組在專案建設時提出“資料標準先行、資料管控跟進、應用驅動與資料驅動相結合”的資料倉儲建設方法,將資料標準、資料管控和資料應用統一納入資料倉儲建設工作範疇。資料倉儲作為全行基礎資料底座,接入44個業務系統,按照DW五層架構以業務驅動規劃設計13個業務主題模型,按照“一數一源”原則實現統一的基礎資料資源管理,避免重複建設和指標冗餘,保障資料口徑的規範和統一,實現資料資產全鏈路關聯,為資料分析提供資料支撐。

  • 資料標準先行

資料標準是一整套資料規範,是開展資料治理工作的必要先行和重要基礎。資料標準是為了規範資料在行內外共享和使用的一致性和準確性,對資料分類、業務屬性、技術屬性、管理屬性等所做的統一規定。資料標準實施分為資料標準制定和資料標準執行兩個階段,我行依託資料倉儲需求調研過程梳理現有後設資料,並以此為基礎借鑑同業和廠商實施經驗,制定我行的資料標準,再經行內各部門協商一致,批准釋出一套供各部門遵循使用的規範性資料標準檔案,從而確保銀行的資料資產在交換和使用過程中具有高度的一致性和準確性,透過資料倉儲實施過程去落地,從而完成全行資料流向的標準化和規劃化。

  • 資料管控跟進

資料標準解決了資料的入倉問題,使得更多業務系統的接入成為可能,在豐富資料來源的同時也帶來了新的挑戰,即如何保證入倉資料的高質量。這個問題如果不能妥善解決,將會直接影響資料倉儲的使用效果,對資料倉儲是“企業資料垃圾桶”的抱怨就是該問題的具體體現。

我行在開展資料管控工作中,採用了規劃、組織、制度、技術工具等因素相結合的綜合資料管控機制,並在這四個層面開展了相應的工作。規劃層面完成了資料管理制度與流程體系的整體規劃;組織層面建立了由全行專項資料治理機制領導下的資料管控組織;制度層面制定了資料標準管理、資料質量管理、後設資料管理、資料模型管理、資料交換管理、報表需求管理等六項資料管控辦法和資料管理專項考核指標,為資料管理提供製度保障,保障資料管控制度的落地執行;技術層面完成了資料管控平臺的建設,為全行員工參與資料管控工作提供了技術工具。這四個方面缺一不可,任何一方面的缺失或不足難以保證資料管控工作取得實際效果。

在資料倉儲建設中,我們以後設資料管理為基礎,以管控流程為手段,使資料倉儲成為全行可信、可控的資料來源。

  • 應用驅動與資料驅動相結合

資料應用不足、資料服務缺乏是當前中小銀行資料倉儲建設所面臨的一個共性問題,由此所導致的後果就是空守“寶山”卻不能用,投資的價值得不到體現,而這也影響到管理層經營決策使用,導致投入減少,不足以支援眾多資料服務的建設,從而形成不良迴圈,最終導致整個資料倉儲建設失敗。

在梳理資料倉儲的建設需求時,為了進一步體現資料倉儲的應用價值,我們不僅考慮如何從底層保證資料的入倉,還從資料應用入手,將資料倉儲支援的應用按照客戶分析營銷、風險管控、監管審計、精細化管理分類建設,提升我行經營管理、決策分析和監管報送水平。我們在資料倉儲專案群建設時,將資料倉儲、資料集市與資料應用進行協同建設,實現倉庫建設與資料應用建設互動,充分體現資料倉儲建設價值。

二、分層規劃

穩健的資料倉儲體系,需要對資料進行分層儲存,既要保證資料模型的穩定又要儘量遮蔽對下游的影響,並且要避免資料鏈路過長。分層是以資料為驅動,解決當前業務快速支撐併為未來抽象共性框架賦能其他業務線的穩定方法。我行根據自身情況,劃分五層資料架構:緩衝層、貼源層、模型層、彙總層、集市層,不同資料層間的資料流向關係如下圖所示:

中小銀行資料倉儲建設 | 最佳實踐

緩衝層:資料臨時層,這一層不做過多的資料清洗工作,原封不動地接入原始資料,保留明細資料,保留短期歷史資料,同時建立全行的歷史資料查詢系統,可從緩衝層直接獲取資料。

貼源層:該層與緩衝層保持一樣的資料粒度,對源系統資料不整合不加工,但保留長期的歷史資料。

模型層:按照業務主題進行資料分類儲存,對資料進行整合,且保留長期的歷史資料。在模型層進行資料標準落標,豐富資料資產的要素。

彙總層:按照主題結合維度建模,對資料進行整合彙總加工,保留關鍵時點歷史資料,資料來源模型層。

集市層:以維度建模為主,根據應用需求對資料進行整合加工,保留特定業務需求的歷史資料,集市層的資料來源模型層和彙總層。

三、模型設計

資料倉儲模型不只是考慮如何設計和實現功能,還應從訪問效能、資料成本、使用成本、資料質量、擴充套件性等多方面來統籌考慮。資料倉儲模型總體設計原則如下:

1.高內聚、低耦合。即主題內部高內聚、不同主題間低耦合。模型層按照業務劃分主題,彙總層按照“實體+ 活動”劃分不同分析主題,集市層根據應用需求劃分不同應用主題。

2.核心模型和擴充套件模型要分離。建立核心模型與擴充套件模型體系,核心模型包括的欄位支援常用的核心業務,擴充套件模型包括的欄位支援個性化或少量應用的需要,不能讓擴充套件模型的欄位過度侵入核心模型,以免破壞核心模型的架構簡潔性與可維護性。

3.公共處理邏輯下沉及單一。越是底層公用的處理邏輯越應該在資料排程依賴的底層進行封裝與實現,不要讓公用的處理邏輯暴露給應用實現,不要讓公共邏輯多處同時存在。

4.成本與效能平衡。適當的資料冗餘可換取查詢和重新整理效能,不宜過度冗餘與資料複製。

5.資料可回滾。處理邏輯不變,在不同時間多次執行資料結果確定不變。

常見的模型設計方法有正規化建模和維度建模。我行資料倉儲模型設計根據各層的定位分佈採用兩種建模方式相結合的設計方式,模型層採用正規化為主,維度為輔;彙總層採用維度為主,正規化為輔;集市層採用維度建模方式。

模型層表的定位是規避變化,融合資料,規範標準,表設計上至少滿足以下幾點:

1.準確的業務定義。模型層的表欄位要求資訊調研清晰、業務含義明確,這是資料應用與資料服務的前提與基礎。

2.整合各系統分散的資訊。共性資訊進行提煉,可以提高應用的開發效率和準確性。

3.建立資料關係形成企業級的資料檢視。

4.表結構的穩定性要求,避免源業務系統的變化對模型層的致命的衝擊,保證源系統資料的可讀性。

彙總層表的定位是面向多個應用提供共享資料服務的一個公共資料集市,設計要求滿足一次加工多次使用,構建在資料倉儲與應用資料集市之間。彙總層從業務的角度,提取具有共性、可被多個應用所複用的基礎資料和彙總指標;按業務組織資料,按照一定的粒度進行資料整合、去規範化處理,並且儲存某些關鍵時點的歷史快照資料。

集市層表的定位是面向特定業務的應用集市,設計上更偏向業務的特殊性、個性化內容。

四、主題劃分

按照資料描述的業務活動的資訊,將銀行在業務活動中的產生的同類資料自然彙集在一起的資料集合稱之為主題。我行結合國內外模型設計理論,借鑑同業金融機構模型設計經驗,結合現有業務特點進行主題劃分,共包括13個業務主題:客戶主題、產品主題、內部機構主題、存款主題、信貸主題、理財主題、票據主題、信用卡主題、資金資管主題、財務主題、渠道主題、支付結算主題、中間業務主題。

客戶主題:描述服務的物件和感興趣進行分析的物件,比如各種個人或團體客戶、企業、金融機構、潛在客戶等。客戶主題儲存客戶自身屬性資訊,且每個客戶在行內的資訊是唯一的。

產品主題:描述所有產品自有屬性資訊,包括產品分類、產品狀態、產品管理資訊等。該主題包含存款產品、貸款產品、理財產品、資金產品等行內自有產品,也可包括他行產品資訊。產品主題目前包括存款產品、貸款產品、理財產品、保險產品、資金資管產品等及銀行提供的非金融服務。

內部機構主題:指秦皇島銀行機構的內部組織和業務單元,如分行、支行等等。在內部機構主題中,更多的反映其作為內部組織機構的職能等特徵;內部機構主題也包含了銀行內部人員資訊,如員工資訊、櫃員資訊、客戶經理資訊等。

存款主題:描述一個金融機構吸收客戶閒散資金、支付客戶利息併為客戶提供結算服務、賬戶管理服務的行為。該主題主要包括:存款賬戶基本資訊、賬戶合約資訊、賬戶限制資訊、賬戶餘額及利息資訊、賬戶屬性、客戶經理攬儲比例分配等。此外也包括存款賬戶發生交易的交易流水資訊,存款賬戶的介質和憑證資訊,如簽帳金融卡、支票等。

信貸主題:描述一個金融機構作為債權人為債務人提供有使用期限、需要付利息、併到期收回的資金的行為。信貸主題包括貸款申請、授信合同資訊、客戶授信額度、貸款合同資訊、擔保合同資訊、貸款借據(賬戶)資訊、貸款期限調整資訊、抵質押物、還款計劃、還款流水、貸款損失準備金資訊、資產保全資訊等。

理財主題:描述一個金融機構提供給的一種客戶可以根據自己的財務狀況在風險可以接受範圍內實現資產增值的最大化的服務。包含了理財簽約、風險評估、理財募集、理財份額、理財交易等資訊。理財業務包括傳統意義上的保本理財和非保本理財,也包括基金、保險等業務。

票據主題:描述金融機構經營過程中常常使用到的一種有價憑證,有紙質和電子兩種介質,我國《票據法》中的票據包括匯票、銀行本票和支票。該主題主要包括票據基本資訊、票據承兌、票據貼現、轉貼現、再貼現、票據質押等資訊。

信用卡主題:由持卡人方便快捷地辦理支付結算並形成相關消費資訊的貸記賬戶。公務卡作為一種現代支付結算工具,屬於信用卡範疇。信用卡主題包含了卡片基本資訊、信用卡賬戶、信用卡申請、交易資訊及信用卡賬單、逾期催收資訊等。

資金資管主題:描述了銀行在公開市場或其他交易市場上與交易對手進行的各類金融活動時簽訂的協議。我行包含同業拆借協議、債券買賣協議、債券回購協議、債券借貸協議、即期外匯買賣協議、國庫定期存款協議、信貸資產轉讓協議、衍生產品協議等。包括:我行資金資管包含拆放同業及買入返售、債券、理財直接融資工具、新增可投資資產、非標準化債權類資產、權益類資產、商品類資產、另類資產、公募基金等交易資訊等。

財務主題:描述一個金融機構的內部賬務情況,體現金融機構的經營狀況,主要儲存銀行科目賬務以及預算管理有關的內容,包括科目餘額資訊、會計分錄資訊、科目定義等。

渠道主題:描述的是當各種事件發生時,當事雙方(主要是指客戶和銀行)進行互動和接觸的手段及方法,透過它,客戶與銀行進行接觸、購買產品、使用服務並交流資訊。渠道主題包含渠道自身資訊、渠道簽約資訊、渠道交易資訊。

支付結算主題:指單位、個人在社會經濟活動中使用票據、卡等憑證,透過匯兌、託收承付、委託收款等業務透過人行、銀聯、網聯及其它支付機構進行貨幣給付及其資金清算的行為。我行的支付結算資訊,包括銀聯、網聯、大小額、超網結算資訊,也包括同城結算等資訊。

中間業務主題:本主題描述的中間業務是狹義中間業務,我行作為中間介質收取手續費為客戶提供的代收代付服務,包括代收代付、非稅、國庫等資訊。

五、輔助工具

統一資料交換平臺:面向全行資料採集、交換、共享和開放的標準化的、規範的、高效的、穩定的、可控的資料服務匯流排,實現批次、準實時或者實時的資料交換要求,提升業務系統間多樣化、可配置、易管理的非實時批次及準實時資料交換能力。包括內部各源業務系統結構化資料、半/非結構化資料和外部資料來源,為資料平臺提供資料服務。

資料資產管理平臺:在資料生命週期的各個階段(產生、處理、儲存、應用、歸檔直至最終被刪除),企業必須完全按照組織的業務需要進行處理、管控、保護和共享。資料資產管理平臺包括後設資料管理、資料標準管理、資料質量管理、資料資產地圖等。資料管控始終貫穿資料平臺的整個建設過程,需要規劃資料資產管理平臺的體系架構,分析梳理行內資料標準化、資料質量、後設資料的管理流程,結合資料資產管理平臺做好資料管理,提升資料質量。

六、實踐思考

未來的時代是數字化的時代,銀行的數字化轉型是必然趨勢。資料倉儲技術能夠為資料流分析提供科學的資料支撐,在進行精準營銷、綜合管理和風險控制時,幫助銀行的各層級管理者更好的決策。中小銀行因其特殊性,在構建資料建倉要注意以下幾點:

第一,確立以業務價值為導向的原則。中小銀行的業務對其發展至關重要,數字化轉型的主要目的也是為了發展業務,而不是為了建平臺而建平臺,因此建設資料倉儲的每個階段都必須突出業務導向。

第二,確立資料養護原則。在資訊時代,客戶資源都體現在資料資訊上,因此不論是橫向截面資料還是縱向序列資料,在構建合理的資料倉儲後,要做好後期的維護和經營。

第三,專注細分領域,聚焦優勢資源。中小銀行成長於細分領域,未來的發展仍然還在細分領域。因此,在構建資料倉儲時要針對自己的優勢客戶群體,精心打造專業領域的資料倉儲。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024924/viewspace-2931350/,如需轉載,請註明出處,否則將追究法律責任。

相關文章