案例丨「PB級資料」股份制銀行內容管理平臺的探索與實踐

OliverFinn發表於2023-04-25

導讀:

隨著移動網際網路的飛速發展,海量非結構化資料的應用場景日益增多。巨杉資料庫基於原生分散式技術,採用多模資料湖,提供了存算分離、海量資料儲存、多模資料、高併發訪問等能力,為銀行的非結構化資料治理提供了內容管理平臺的解決方案。 結合AI技術的推動,進一步探索非結構化資料的價值釋放,從而提高資料處理的效率和準確性。在實踐中,根據不同的客戶發展階段和業務特性,巨杉資料庫深入剖析客戶的業務需求,基於多模資料湖在結構化資料與非結構化資料的融合處理方向上提供了成功的解決方案,並積極探索在全量資料場景下,如何推動銀行業資料管理的智慧化程式。

巨杉資料庫銀行典型客戶案例

在股份制銀行的內容管理平臺場景中,巨杉資料庫已經落地了近 百億條 百TB級 資料的穩定支撐能力,提供 PB級資料 場景下的 高併發訪問

近些年,伴隨著移動網際網路飛速發展,基於手機銀行、移動營業廳、網上銀行、遠端銀行、開放銀行、流程銀行等業務渠道,在各類創新的業務有效地提升了客戶體驗的同時,也為銀行帶來了海量的電子憑證、影像、音影片等非結構化資料。非結構化資料從原來僅僅用於資料的電子化存檔,上升成為業務交易鏈條中的關鍵環節,傳統內容管理平臺基於Documentum、FileNet、IBM CM、SAN儲存等架構的管理系統隨著資料量爆發式增長之後,逐漸面臨查詢效能慢、實時性不高、併發處理效能急速下降、擴容困難等問題。

圖1  系統概述進化圖

SequoiaDB基於原生分散式技術構建的多模資料湖,實現了資源池化,結構化和非結構化等多模資料海量儲存,多中心容災等技術能力,為銀行提供一體化的非結構化資料儲存平臺,以及包含批次管理、版本管理、生命週期管理、標籤管理、模糊檢索、斷點續傳等豐富的後設資料管理機制。


SequoiaDB分散式資料庫滿足銀行的靈活按需擴容、低成本海量儲存、高併發低延時訪問、異地分散式架構、高效整合、多中心高可用、跨中心容災等需求,有效解決了平臺高併發低延時、資料管理、彈性擴容、雙活、高可用、集約運營、容災等問題,實現非結構化資料統一管理、資料全量線上、降低風險和減少成本等目標。


現狀

股份制銀行內容管理平臺提供各類業務流程化處理的影像非結構化資料及相關後設資料的儲存,將原本分散的資料進行統一集中的管理,原內容管理平臺使用Documentum、 FileNet架構,隨著資料量增長,平臺面臨效能急速下降、擴容困難、查詢併發低、實時性不高等問題。不適用於面向客戶、高併發、高實時場景。同時由於資料量較大,存在容災資料恢復週期長的問題。


業務痛點

產品平臺化難: 多產品線獨立建設,整合困難

資料共享: 資料分散儲存,提取困難

擴容難: 煙囪式系統構建,橫向擴容難

效能差: 億級記錄後,效能下降,難最佳化


解決方案

新內容管理平臺基於SequoiaDB分散式資料庫進行規劃建設。

SequoiaDB的內容管理能力

圖2  SequoiaDB的內容管理能力

以基於Spring-Cloud框架的微服務架構為基礎,基於SequoiaDB構建的內容管理平臺解決方案透過可插拔元件與可配置流程,允許使用者自由定義不同資料儲存容器中物件檔案的處理方式。譬如,對於合同掃描件型別的業務,系統可以將OCR文字識別模組直接加入非結構化檔案處理流程,使得所有寫入該容器的合同自動進行文字識別處理,並直接支援針對其內容的全文檢索能力。


SequoiaDB 的內容管理能力

業務創新: 多業務融合創新,資料統一管理

非結構化資料治理: 雙引擎技術,存算分離原生分散式架構

引擎級多模: 相容SDB API、SQL、S3物件資料引擎介面

高效能,低成本: 全量內容資料持續線上,多策略分割槽管理、分域快取,資源池化的儲存引擎層,提升海量資料管理效率及處理效能,TCO為傳統ECM方案1/3

股份制銀行基於SequoiaDB構建的內容管理平臺建設規劃如下:


股份制銀行內容管理平臺改造方案

圖3  股份制銀行內容管理平臺改造前後架構對比

各廠商的內容管理平臺(如:信雅達、方正國際、清華紫光等)透過呼叫巨杉資料庫提供的標準SQL API,與SequoiaDB分散式資料庫進行互動,實現可按需橫向擴充套件的後設資料、物件資料、標籤資料的跨中心一體化管理。

平臺採用SequoiaDB巨杉資料庫進行資料的儲存與統一管理。

巨杉資料庫是國產分散式資料庫,原生支援分散式叢集模式,基於多模資料湖,“計算與儲存分離”架構滿足客戶海量資料彈性儲存、橫向彈性擴容、億級記錄情況下的低延時高併發的資料查詢等需求,多副本機制提供資料高可用能力,多中心雙活提升資料讀寫效能以及災備能力,可以實現打通不同業務型別、不同資料型別之間的技術壁壘,實現交易分析一體化、流批一體化、多模資料一體化,充分滿足客戶在海量資料下高併發低延時查詢、按需的節點擴容、持續穩定執行等需求。
圖4 SequoiaDB巨杉資料庫系統架構

巨杉資料庫提供存算分離、資源隔離、多副本一致性以及多模資料(結構化、半結構化、非結構化資料)能力。

圖5 SequoiaDB巨杉資料庫彈性水平擴充套件

巨杉資料庫基於存算分離架構,實現儲存與計算能力的橫向彈性擴充套件。

本方案採用叢集方式部署,消除單點問題,提供高可用、高併發效能。


改造方案優勢

高併發低延時:海量資料下高併發、毫秒級響應

海量儲存:PB級資料管理、彈性擴容、靈活資料分片

資源隔離: 物理隔離、邏輯隔離、許可權分級

離線、滾動升級: 部分或全部服務可用,完成軟體升級

除此之外,系統還擁有豐富的平臺能力,如下:


系統能力 能力

集約運營: 多模資料統一管理

資料管理: 資料許可權管理、物件資料版本控制、歷史版本回溯等功能,資料生命週期管理、冷熱資料分層儲存,提升資料治理水平

服務節點高可用: 節點無狀態,多節點提供服務

多中心: 跨中心部署,邏輯隔離、物理隔離

多索引: 不同欄位、維度建立索引,精準查詢

資料高可用: 多副本機制

滿足監管要求: 資料全量線上,資料安全

系統自主可控,支援信創: 支援x86、ARM,核心程式碼可控

容災: 同城雙活、兩地三中心、三地五中心,RPO=0,RTO<15秒

此改造方案已經成功落地實施,並幫助客戶實現系統效能提升。


結束語

當今金融行業面臨著越來越多的資料管理和運營的挑戰,結合AI技術和多模資料湖的優勢,透過結構化資料與非結構化資料的融合處理,以及高併發訪問與統一集中運營的能力,內容管理平臺已經成為了股份制銀行業務處理的重要工具,可以更加高效地管理和利用大量資料,從而提高業務運營效率和客戶服務水平。 未來,巨杉資料庫將繼續不斷創新,打造更加安全、穩定、可靠的資料庫系統,深耕資料沃土,釋放全量資料價值,持續助力金融行業客戶資訊化創新。




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31534344/viewspace-2948529/,如需轉載,請註明出處,否則將追究法律責任。

相關文章