中小銀行資料倉儲建設 | 最佳實踐
【作者】徐園園,現就職於秦皇島銀行,CDMP資料治理認證專家、阿里雲ACE雲端計算架構師、阿里雲ACP大資料/資料分析工程師,主導完成秦皇島銀行資料架構規劃與制定,負責大資料平臺和資料倉儲建設及大資料應用建設工作,具有一定的資料規劃和資料探勘能力,具有一定的資料治理和資料標準落地實踐經驗。熟悉DCMM資料管理能力成熟度模型,掌握DCMM認證8個能力域29個能力項要求,具備DCMM認證輔導能力。
一、建設思路
秦皇島銀行於2021年7月正式啟動資料倉儲升級專案建設,專案組在專案建設時提出“資料標準先行、資料管控跟進、應用驅動與資料驅動相結合”的資料倉儲建設方法,將資料標準、資料管控和資料應用統一納入資料倉儲建設工作範疇。資料倉儲作為全行基礎資料底座,接入44個業務系統,按照DW五層架構以業務驅動規劃設計13個業務主題模型,按照“一數一源”原則實現統一的基礎資料資源管理,避免重複建設和指標冗餘,保障資料口徑的規範和統一,實現資料資產全鏈路關聯,為資料分析提供資料支撐。
資料標準先行
資料標準是一整套資料規範,是開展資料治理工作的必要先行和重要基礎。資料標準是為了規範資料在行內外共享和使用的一致性和準確性,對資料分類、業務屬性、技術屬性、管理屬性等所做的統一規定。資料標準實施分為資料標準制定和資料標準執行兩個階段,我行依託資料倉儲需求調研過程梳理現有後設資料,並以此為基礎借鑑同業和廠商實施經驗,制定我行的資料標準,再經行內各部門協商一致,批准釋出一套供各部門遵循使用的規範性資料標準檔案,從而確保銀行的資料資產在交換和使用過程中具有高度的一致性和準確性,透過資料倉儲實施過程去落地,從而完成全行資料流向的標準化和規劃化。
資料管控跟進
資料標準解決了資料的入倉問題,使得更多業務系統的接入成為可能,在豐富資料來源的同時也帶來了新的挑戰,即如何保證入倉資料的高質量。這個問題如果不能妥善解決,將會直接影響資料倉儲的使用效果,對資料倉儲是“企業資料垃圾桶”的抱怨就是該問題的具體體現。
我行在開展資料管控工作中,採用了規劃、組織、制度、技術工具等因素相結合的綜合資料管控機制,並在這四個層面開展了相應的工作。規劃層面完成了資料管理制度與流程體系的整體規劃;組織層面建立了由全行專項資料治理機制領導下的資料管控組織;制度層面制定了資料標準管理、資料質量管理、後設資料管理、資料模型管理、資料交換管理、報表需求管理等六項資料管控辦法和資料管理專項考核指標,為資料管理提供製度保障,保障資料管控制度的落地執行;技術層面完成了資料管控平臺的建設,為全行員工參與資料管控工作提供了技術工具。這四個方面缺一不可,任何一方面的缺失或不足難以保證資料管控工作取得實際效果。
在資料倉儲建設中,我們以後設資料管理為基礎,以管控流程為手段,使資料倉儲成為全行可信、可控的資料來源。
應用驅動與資料驅動相結合
資料應用不足、資料服務缺乏是當前中小銀行資料倉儲建設所面臨的一個共性問題,由此所導致的後果就是空守“寶山”卻不能用,投資的價值得不到體現,而這也影響到管理層經營決策使用,導致投入減少,不足以支援眾多資料服務的建設,從而形成不良迴圈,最終導致整個資料倉儲建設失敗。
二、分層規劃
穩健的資料倉儲體系,需要對資料進行分層儲存,既要保證資料模型的穩定又要儘量遮蔽對下游的影響,並且要避免資料鏈路過長。分層是以資料為驅動,解決當前業務快速支撐併為未來抽象共性框架賦能其他業務線的穩定方法。我行根據自身情況,劃分五層資料架構:緩衝層、貼源層、模型層、彙總層、集市層,不同資料層間的資料流向關係如下圖所示:
緩衝層:資料臨時層,這一層不做過多的資料清洗工作,原封不動地接入原始資料,保留明細資料,保留短期歷史資料,同時建立全行的歷史資料查詢系統,可從緩衝層直接獲取資料。
貼源層:該層與緩衝層保持一樣的資料粒度,對源系統資料不整合不加工,但保留長期的歷史資料。
模型層:按照業務主題進行資料分類儲存,對資料進行整合,且保留長期的歷史資料。在模型層進行資料標準落標,豐富資料資產的要素。
彙總層:按照主題結合維度建模,對資料進行整合彙總加工,保留關鍵時點歷史資料,資料來源模型層。
三、模型設計
資料倉儲模型不只是考慮如何設計和實現功能,還應從訪問效能、資料成本、使用成本、資料質量、擴充套件性等多方面來統籌考慮。資料倉儲模型總體設計原則如下:
1.高內聚、低耦合。即主題內部高內聚、不同主題間低耦合。模型層按照業務劃分主題,彙總層按照“實體+ 活動”劃分不同分析主題,集市層根據應用需求劃分不同應用主題。
2.核心模型和擴充套件模型要分離。建立核心模型與擴充套件模型體系,核心模型包括的欄位支援常用的核心業務,擴充套件模型包括的欄位支援個性化或少量應用的需要,不能讓擴充套件模型的欄位過度侵入核心模型,以免破壞核心模型的架構簡潔性與可維護性。
3.公共處理邏輯下沉及單一。越是底層公用的處理邏輯越應該在資料排程依賴的底層進行封裝與實現,不要讓公用的處理邏輯暴露給應用實現,不要讓公共邏輯多處同時存在。
4.成本與效能平衡。適當的資料冗餘可換取查詢和重新整理效能,不宜過度冗餘與資料複製。
5.資料可回滾。處理邏輯不變,在不同時間多次執行資料結果確定不變。
常見的模型設計方法有正規化建模和維度建模。我行資料倉儲模型設計根據各層的定位分佈採用兩種建模方式相結合的設計方式,模型層採用正規化為主,維度為輔;彙總層採用維度為主,正規化為輔;集市層採用維度建模方式。
模型層表的定位是規避變化,融合資料,規範標準,表設計上至少滿足以下幾點:
1.準確的業務定義。模型層的表欄位要求資訊調研清晰、業務含義明確,這是資料應用與資料服務的前提與基礎。
2.整合各系統分散的資訊。共性資訊進行提煉,可以提高應用的開發效率和準確性。
3.建立資料關係形成企業級的資料檢視。
4.表結構的穩定性要求,避免源業務系統的變化對模型層的致命的衝擊,保證源系統資料的可讀性。
彙總層表的定位是面向多個應用提供共享資料服務的一個公共資料集市,設計要求滿足一次加工多次使用,構建在資料倉儲與應用資料集市之間。彙總層從業務的角度,提取具有共性、可被多個應用所複用的基礎資料和彙總指標;按業務組織資料,按照一定的粒度進行資料整合、去規範化處理,並且儲存某些關鍵時點的歷史快照資料。
四、主題劃分
按照資料描述的業務活動的資訊,將銀行在業務活動中的產生的同類資料自然彙集在一起的資料集合稱之為主題。我行結合國內外模型設計理論,借鑑同業金融機構模型設計經驗,結合現有業務特點進行主題劃分,共包括13個業務主題:客戶主題、產品主題、內部機構主題、存款主題、信貸主題、理財主題、票據主題、信用卡主題、資金資管主題、財務主題、渠道主題、支付結算主題、中間業務主題。
客戶主題:描述服務的物件和感興趣進行分析的物件,比如各種個人或團體客戶、企業、金融機構、潛在客戶等。客戶主題儲存客戶自身屬性資訊,且每個客戶在行內的資訊是唯一的。
產品主題:描述所有產品自有屬性資訊,包括產品分類、產品狀態、產品管理資訊等。該主題包含存款產品、貸款產品、理財產品、資金產品等行內自有產品,也可包括他行產品資訊。產品主題目前包括存款產品、貸款產品、理財產品、保險產品、資金資管產品等及銀行提供的非金融服務。
內部機構主題:指秦皇島銀行機構的內部組織和業務單元,如分行、支行等等。在內部機構主題中,更多的反映其作為內部組織機構的職能等特徵;內部機構主題也包含了銀行內部人員資訊,如員工資訊、櫃員資訊、客戶經理資訊等。
存款主題:描述一個金融機構吸收客戶閒散資金、支付客戶利息併為客戶提供結算服務、賬戶管理服務的行為。該主題主要包括:存款賬戶基本資訊、賬戶合約資訊、賬戶限制資訊、賬戶餘額及利息資訊、賬戶屬性、客戶經理攬儲比例分配等。此外也包括存款賬戶發生交易的交易流水資訊,存款賬戶的介質和憑證資訊,如簽帳金融卡、支票等。
信貸主題:描述一個金融機構作為債權人為債務人提供有使用期限、需要付利息、併到期收回的資金的行為。信貸主題包括貸款申請、授信合同資訊、客戶授信額度、貸款合同資訊、擔保合同資訊、貸款借據(賬戶)資訊、貸款期限調整資訊、抵質押物、還款計劃、還款流水、貸款損失準備金資訊、資產保全資訊等。
理財主題:描述一個金融機構提供給的一種客戶可以根據自己的財務狀況在風險可以接受範圍內實現資產增值的最大化的服務。包含了理財簽約、風險評估、理財募集、理財份額、理財交易等資訊。理財業務包括傳統意義上的保本理財和非保本理財,也包括基金、保險等業務。
票據主題:描述金融機構經營過程中常常使用到的一種有價憑證,有紙質和電子兩種介質,我國《票據法》中的票據包括匯票、銀行本票和支票。該主題主要包括票據基本資訊、票據承兌、票據貼現、轉貼現、再貼現、票據質押等資訊。
信用卡主題:由持卡人方便快捷地辦理支付結算並形成相關消費資訊的貸記賬戶。公務卡作為一種現代支付結算工具,屬於信用卡範疇。信用卡主題包含了卡片基本資訊、信用卡賬戶、信用卡申請、交易資訊及信用卡賬單、逾期催收資訊等。
資金資管主題:描述了銀行在公開市場或其他交易市場上與交易對手進行的各類金融活動時簽訂的協議。我行包含同業拆借協議、債券買賣協議、債券回購協議、債券借貸協議、即期外匯買賣協議、國庫定期存款協議、信貸資產轉讓協議、衍生產品協議等。包括:我行資金資管包含拆放同業及買入返售、債券、理財直接融資工具、新增可投資資產、非標準化債權類資產、權益類資產、商品類資產、另類資產、公募基金等交易資訊等。
財務主題:描述一個金融機構的內部賬務情況,體現金融機構的經營狀況,主要儲存銀行科目賬務以及預算管理有關的內容,包括科目餘額資訊、會計分錄資訊、科目定義等。
渠道主題:描述的是當各種事件發生時,當事雙方(主要是指客戶和銀行)進行互動和接觸的手段及方法,透過它,客戶與銀行進行接觸、購買產品、使用服務並交流資訊。渠道主題包含渠道自身資訊、渠道簽約資訊、渠道交易資訊。
支付結算主題:指單位、個人在社會經濟活動中使用票據、卡等憑證,透過匯兌、託收承付、委託收款等業務透過人行、銀聯、網聯及其它支付機構進行貨幣給付及其資金清算的行為。我行的支付結算資訊,包括銀聯、網聯、大小額、超網結算資訊,也包括同城結算等資訊。
五、輔助工具
統一資料交換平臺:面向全行資料採集、交換、共享和開放的標準化的、規範的、高效的、穩定的、可控的資料服務匯流排,實現批次、準實時或者實時的資料交換要求,提升業務系統間多樣化、可配置、易管理的非實時批次及準實時資料交換能力。包括內部各源業務系統結構化資料、半/非結構化資料和外部資料來源,為資料平臺提供資料服務。
六、實踐思考
未來的時代是數字化的時代,銀行的數字化轉型是必然趨勢。資料倉儲技術能夠為資料流分析提供科學的資料支撐,在進行精準營銷、綜合管理和風險控制時,幫助銀行的各層級管理者更好的決策。中小銀行因其特殊性,在構建資料建倉要注意以下幾點:
第一,確立以業務價值為導向的原則。中小銀行的業務對其發展至關重要,數字化轉型的主要目的也是為了發展業務,而不是為了建平臺而建平臺,因此建設資料倉儲的每個階段都必須突出業務導向。
第二,確立資料養護原則。在資訊時代,客戶資源都體現在資料資訊上,因此不論是橫向截面資料還是縱向序列資料,在構建合理的資料倉儲後,要做好後期的維護和經營。
第三,專注細分領域,聚焦優勢資源。中小銀行成長於細分領域,未來的發展仍然還在細分領域。因此,在構建資料倉儲時要針對自己的優勢客戶群體,精心打造專業領域的資料倉儲。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024924/viewspace-2931350/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 滴滴資料倉儲指標體系建設實踐指標
- 農業銀行湖倉一體實時數倉建設探索實踐
- SaaS 模式雲資料倉儲 MaxCompute 資料安全最佳實踐模式
- 《Greenplum構建實時資料倉儲實踐》簡介
- 資料安全治理體系如何建?看頭部銀行最佳實踐
- MPP平臺實施工具,實施經驗+銀行資料倉儲模型建設經驗泛談模型
- 迪斯尼樂園詮釋資料倉儲最佳實踐(下)WE
- 迪斯尼樂園詮釋資料倉儲最佳實踐(上)VE
- 中原銀行 AI 平臺建設實踐AI
- 基於OneData的資料倉儲建設
- B站運維數倉建設和資料治理實踐運維
- 加快構建資料倉儲 甘肅銀行數字化轉型提速推進
- 銀行專家分享:生產關鍵系統儲存建設落地實踐
- Spring Boot資料儲存最佳實踐 - AhadSpring Boot
- 構建實時資料倉儲首選,雲原生資料倉儲AnalyticDB for MySQL技術解密MySql解密
- 最最最全資料倉儲建設指南,速速收藏!!
- 如何構建資料倉儲模型?模型
- 基於Greenplum,postgreSQL的大型資料倉儲實踐SQL
- [數倉]資料倉儲設計方案
- Whalestudio助力西南某商業銀行資料中臺建設 | 實踐探索
- 資料倉儲為什麼要進行分層建設?怎麼分?
- Flink Table Store 0.3 構建流式數倉最佳實踐
- 雲端資料倉儲的模式選型與建設模式
- Hive:資料倉儲構建步驟Hive
- 58同城使用者行為數倉建設及實踐
- 銀行業生產系統儲存資料遷移方法及實踐行業
- 鋼鐵行業資料治理架構建設實踐!行業架構
- 農業銀行智慧運維建設和應用實踐運維
- 微眾銀行-訊息服務平臺建設實踐
- 美團DB資料同步到資料倉儲的架構與實踐架構
- 資料倉儲(6)數倉分層設計
- 資料倉儲(7)數倉規範設計
- 民生銀行資料中臺體系的構建與實踐
- 中國銀行電子支付平臺建設探索與實踐
- 商業銀行押品管理系統建設探索和實踐
- 資料倉儲應該用什麼方案——資料倉儲實施方案概述
- 企業為什麼要建資料倉儲?
- 資料庫設計的十個最佳實踐資料庫