【演講實錄】銀行PB級別海量非結構化資料管理實踐
郝大為
近期,巨杉資料庫的技術總監郝大為受邀在第七屆資料技術嘉年華中做了“銀行PB級別海量非結構化資料管理實踐”為主題的演講,分享了巨杉資料庫有關金融行業資料庫管理以及金融級資料庫技術與應用的一些實踐及思考。
資料爆炸:資料呈現急劇增長,對資料儲存的資料量,併發性和響應速度都提出了更高要求。以大型商業銀行為例,通常它們擁有成百上千個業務系統以及上億使用者的海量資料,且數量呈現指數級增長,從TB級別增加到PB級別,未來很快就會增加至EB級別,這些都需要有效的管理以及實現實時訪問。
資料融合:不僅是金融行業,在過去,各個業務的資料都是以孤島的形式獨立存在,而我們需要的是跨業務、跨業務系統的資料統一管理和維護,甚至需要統一架構支撐下的資料溝通交流。打破資料孤島就成為金融行業的切實需求。
非結構化資料:非結構資料在金融行業資料量上的佔比逐漸佔絕對優勢的一種資料存在的形式。影像、圖片、語音、有格式的文件都是非結構化資料,非結構化資料量每年增長80%左右。資料量的快速增加,再加上對銀行業兩地三中心資料安全的要求,對非結構化資料的儲存和管理的要求就提高了。這也是金融業的行業需求。
隨著銀行遠端開戶、櫃面無紙化、雙錄、會計檔案管理等系統的建立和升級,影像系統除了滿足商業銀行線上業務系統不斷提升的訪問效能需求外,還需要提供作為線上系統的高可用、災備甚至“雙活”能力,以保證系統資料絕對安全。
金融級資料庫核心能力
面對金融行業的新需求,新一代金融級資料庫需要在分散式架構、非結構化資料管理、多模式資料處理、標準化資料訪問、資料可靠性、與混合負載等幾個角度對傳統資料庫架構進行重新定義。
1)分散式架構
由於傳統資料庫的單點架構無法滿足新型金融科技應用對資料量與併發能力的需求,新一代金融級資料庫必須採用分散式架構來應對該類挑戰。分散式架構,將海量資料均勻儲存在多臺物理裝置中,以避免單一裝置所造成的瓶頸。同時,分散式資料庫的靈活擴充套件能力,為金融業務增長提供了彈性的容量與效能支援,在大規模資料應用中具有明顯的技術優勢。
我們以巨杉分散式架構為例,無論是資料還是檔案系統等後設資料都要進行分散式儲存,同時後設資料的管理也應該是分散式、高可用、沒有單點故障的。分散式架構必須具備彈性擴充和效能線性增長,同事分散式架構可以有效降低TCO、總體應用成本。分散式架構有很好的管理能力,可以降低開發運維的成本。
2)多模式資料管理---非結構化資料管理
如今,在金融業務“網際網路化”和“零售化”的趨勢下,金融機構開始向使用者提供更多個性化、定製化的產品與服務。特別是非結構化資料,增長最為迅猛。
通常來說,結構化資料特指表單型別的資料儲存結構,典型應用包括銀行核心交易等傳統業務;而半結構化資料則在使用者畫像、物聯網裝置日誌採集、應用點選流分析等場景中得到大規模使用;非結構化資料則對應著海量的的圖片、影片、和文件處理等業務,在金融科技的發展下增長迅速。
為了實現金融業務資料的統一管理和資料融合,新型資料庫需要具備多模式(Multi-Model)資料管理和儲存的能力,以滿足應用程式對於結構化、半結構化、非結構化資料的管理需求。
多模式資料管理能力,使得金融級資料庫能夠進行跨部門、跨業務的資料統一儲存與管理,實現多業務資料融合,支撐多樣化的金融服務。
3)標準資料訪問與混合負載
根據Gartner的最新定義,混合負載(HTAP Hybrid Transactional/Analytical Processing)在保留原有線上交易功能的同時,也強調了資料庫原生計算分析的能力。支援混合負載的資料庫能夠避免在傳統架構中,線上與離線資料庫之間大量的資料互動,同時也能夠針對最新的業務資料進行實時統計分析。
為了避免線上實時讀寫與批處理作業之間的資源干擾,混合負載型資料庫通常使用讀寫分離或記憶體處理技術實現。一般來說,分散式資料庫的多副本架構天然支援讀寫分離技術,而基於傳統架構的資料庫往往採用記憶體處理技術進行實現。
4)資料安全
伴隨著在企業內部價值的不斷提升,資料已經成為了金融企業的生命線與核心資產。作為承載著企業關鍵資料的資料庫,其安全性、可靠性、穩定性一直是金融級資料庫的核心價值。
資料安全領域重要的一個概念是容災能力,銀監會就要求銀行業要符合兩地三中心的要求。這其實是一個資料多副本的思想,任何一個副本丟失我們還有其他副本可以支撐資料管理的需求,資料服務的需求。這對於金融企業顯得尤其重要。
金融級資料庫應用案例
1)銀行業分散式影像平臺
銀行業影像平臺案例,是在某大型股份制銀行實施的,該平臺底層基於巨杉資料庫,目前已經投入生產。
巨杉資料庫適合於結構化、非結構化、半結構化資料儲存。在應用層面提供對外的影像檔案管理服務能力,有兩臺或者更多臺具備負載均衡和高可用能力的應用伺服器,伺服器上對接的是銀行內部業務系統,當需要查非結構化資料時就可以接入影像管理平臺,巨杉資料庫支撐的是PB級的資料儲存,同時支援了高可用。
此外,巨杉資料庫支援多索引,毫秒級別實時資料訪問,這麼大資料量下依然提供這麼大的訪問效能,總體應用成本跟過去影像平臺對比可以降低三分之一,這是整個巨杉資料庫分散式的架構決定的。
2)證券超高併發資料訪問
證券交易主要特點是頻度高,每天可能有上億條交易資料。證券交易場景一般都是結構化資料,大量結構化資料進入系統提高高併發的結構能力。
這個系統可以幫助使用者查詢證券交易的所有歷史交易明細,並且查詢的返回速度依然很高,在海量資料情況下可能做到百毫秒以內的查詢範圍。
實現結果:
· 平均每日超過2億條記錄寫入
· 高峰時段,同時有超過百億級別的資料需要被檢索、呼叫
· 系統儲存3年內所有交易和持有資料
· 峰值併發量超過10000
· 高峰時段,查詢返回時間小於100ms
3)銀行海量資料管理
關於銀行海量資料的管理平臺,實際上是銀行多業務系統的結構化資料組成一個統一的查詢平臺,使用者可以透過這個平臺去查詢業務,而不再需要查詢原有業務系統,這樣原有業務系統資料庫的負載就降下來了。原有業務系統資料庫只儲存需要線上交易的那部分資料,其他的資料全部儲存在巨杉資料庫。
SequoiaDB利用其橫向擴充套件、支援標準SQL以及雙引擎的機制,能夠在儲存海量歷史資料的同時對外提供線上查詢與分析能力,這就使得銀行能將傳統的離線資料做到近線化,將冷資料有效地使用起來。
巨杉資料庫的多家銀行客戶使用SequoiaDB提供高併發的資料查詢和訪問功能,使銀行客戶能夠在櫃檯、網銀、手機銀行上隨時隨地查詢開戶以來所有的交易歷史。同時,該平臺可以提供司法查詢的能力,使銀行IT部門不需要為了複雜多變的查詢請求,在歷史帶庫與資料庫之間疲於奔命。
4)其他案例
在政府行業,巨杉資料庫可以對電子證件進行集中儲存和查詢,可以幫助行政服務大廳或者其他政府部門查詢資訊,提升工作的效率。
在交通領域,大量攝像頭實時採集的圖片和影片資料需要儲存,並且現在還增加了實時處理分析套牌違規等行為,這背後也需要強大的資料儲存管理查詢或者儲存引擎支撐海量的資料,巨杉資料庫能夠有效滿足這種需求。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28530558/viewspace-2153104/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 案例丨「PB級資料」股份制銀行內容管理平臺的探索與實踐
- Uber基於Apache Hudi構建PB級資料湖實踐Apache
- PB級資料實時查詢,滴滴Elasticsearch多叢集架構實踐Elasticsearch架構
- 如何管理和應用非結構化資料:示例、工具、技術和最佳實踐
- 資料治理實踐:後設資料管理架構的演變架構
- Facebook如何實現PB級別資料庫自動化備份資料庫
- MaxCompute讀取分析OSS非結構化資料的實踐經驗總結
- 結構化資料、半結構化資料和非結構化資料
- 如何做PB級大資料線上分析?看阿里實踐大資料阿里
- 快取資料一致性 - 架構師峰會演講實錄快取架構
- 結構化資料與非結構化資料的差異
- 網商銀行×SOFAStack:首家雲上銀行的微服務架構實踐與演進AST微服務架構
- 深耕物件儲存 ECS釋放海量非結構化資料新價值物件
- 巨杉資料庫中標東莞農商銀行非結構化內容管理平臺專案資料庫
- 分析視角下銀行業資料平臺架構演進及實現行業架構
- 網易遊戲運維實踐:服務架構及全球通服-AWS峰會演講實錄遊戲運維架構
- 中小銀行資料倉儲建設 | 最佳實踐
- 海量非結構化資料儲存難題 ,杉巖資料物件儲存完美解決物件
- Gulp 結構化最佳實踐
- 民生銀行資料中臺體系的構建與實踐
- 阿里海量大資料平臺的運維智慧化實踐阿里大資料運維
- CoreData實踐(二)——設計資料結構資料結構
- vivo 海量微服務架構最新實踐微服務架構
- C++資料結構和pb資料結構的轉換C++資料結構
- 微信後臺基於時間序的海量資料冷熱分級架構設計實踐架構
- 中原銀行 Arthas 實踐之路
- 主資料管理的7個實踐總結
- Elasticsearch從0到千萬級資料查詢實踐(非轉載)Elasticsearch
- 快取系統穩定性 - 架構師峰會演講實錄快取架構
- Nebula Graph 在微眾銀行資料治理業務的實踐
- 非結構化資料怎麼盤點?
- Go 語言目錄結構與實踐Go
- Serverless 架構演進與實踐Server架構
- 陳胡:Apache SeaTunnel實現 非CDC資料抽取實踐Apache
- ONES X 深圳農村商業銀行 | 數字化專案管理實踐專案管理
- 資料結構&演算法實踐—堆排序資料結構演算法排序
- 資料結構&演算法實踐—Bogo排序資料結構演算法Go排序
- 資料結構&演算法實踐—梳子排序資料結構演算法排序