杉巖資料非結構化資料儲存解決方案

杉巖資料發表於2019-12-24

傳統的銀行、保險行業的人工櫃檯、信貸申請、承保和理賠等業務除了在資料庫中記錄交易資訊,往往也會產生大量的非結構化資料:身份證照片、紙質檔案掃描件、取證檔案掃描件、現場照片等,依據金融行業相關法規要求,這些檔案需長期儲存,以便於後督審計和避免可能存在的法律風險。

杉巖資料非結構化資料儲存解決方案


隨著網際網路金融的迅猛發展,金融行業的競爭日趨白熱化,越來越多的金融公司希望金融科技能夠幫助企業降低攬客成本和客戶服務成本,提升辦公效率和風險評估效率。為此,各大金融機構競相實施金融科技專案,如:智慧化櫃檯,降低營業網點業務開通成本;無紙化櫃檯,提升櫃檯工作和服務效率;理賠智慧手機客戶端,提升使用者理賠效率;智慧化信貸稽核,提升風險評估效率,降低人力投入成本;基礎架構雲化、容器化,提升基礎資源的利用和管理效率等。


這些新型金融科技的背後,顯而易見地會產生海量的圖片、文件、音訊和影片等非結構化資料,其檔案個數和資料量都呈現爆發性增長,對原有的儲存系統架構帶來了更多的新挑戰。

海量非結構化資料帶來的挑戰


對業務部門來說,海量小檔案的訪問效能至關重要,直接關係到終端使用者的體驗,而一個股份制銀行省分行的櫃檯系統、信貸系統每年會新增上億個檔案,大量小檔案對檔案儲存是一大挑戰,而很多銀行已經在考慮如何實現檔案大集中。


而隨著VTM(遠端虛擬銀行服務系統)、雙錄系統的上線,儲存容量需求高速增長,如保險公司銀保的雙錄資料半年即可增加數百TB資料,儲存是否能夠提供高吞吐能力,來保障音影片檔案的讀寫效能是重要的關注點。


大多數金融機構已經採用分散式資料庫、大資料技術,來實現歷史資料的線上統一儲存和查詢,而非結構化資料的儲存規模可能會達到PB級甚至EB級,在這種情況下如何實現資料的統一儲存和管理、歷史資料的實時查詢、未來的大資料分析,對儲存高度智慧化的管理能力提出了更高的要求。


當前IaaS層雲化是大趨勢,私有云實現了計算和儲存資源的雲化,分散式資料庫實現了結構化資料的雲化,雲化後的資源可按需分配、彈性擴充套件。而非結構化資料儲存的雲化卻缺乏很好的解決方案,尤其是隨著音影片資料的加入,佔用的儲存空間越來越大,而這些資料的單位價值不高,如何降低單位儲存成本也需重點考量。

為了解決銀行、保險關鍵系統(如:櫃檯、信貸、承保、理賠等)的海量證件、合同等檔案數量龐大且不斷累積導致的儲存效能和擴充套件性瓶頸問題,金融行業非結構化資料儲存的技術發展經歷了四個階段:

NAS儲存階段


在金融行業早期檔案數量不多、儲存容量不大的階段, 金融客戶普遍採用NAS外接儲存裝置來放置影像資料,但隨著檔案的海量增長,單臺NAS可管理的檔案數量和容量都出現了瓶頸。在實際專案中我們看到,使用者的檔案數量達到數千萬時,訪問時延可能達到秒級,這將直接影響到對終端使用者的金融服務體驗。而增加多臺NAS外接儲存裝置,又會導致儲存管理複雜性更高,同一應用系統資料存放在不同裝置上導致資料割裂。在中大型企業,IT人員將花費大量時間完成IT運維變更審批流程,同時還要時刻提防這種頻繁變更可能導致的IT運維風險,無法真正聚焦在為業務創造價值上。


ECM階段


隨著檔案數量的增加,金融機構開始引入ECM(企業內容管理系統),ECM統一管理多個NAS外接儲存裝置,並可動態增加NAS,對外提供統一的名字空間,檔案管理規模相對於單臺NAS儲存大大增加。同時,ECM系統還支援檔案的屬性存放和屬性檢索,可以實現跨業務系統的檔案檢索,滿足檔案管理的需要。


但由於ECM介面為非標準協議,需要專門進行應用開發,應用改造成本高,目前主要應用在金融的櫃檯、信貸和後督的影像系統。更重要的是,ECM的投資成本較高,百TB資料的儲存成本高達數百萬,不適合儲存音影片等價值密度較低的資料,維護的成本也非常高。


分散式資料庫階段


隨著大資料技術、MPP分散式資料庫在金融行業的興起,金融行業嘗試利用這些技術解決非結構化資料儲存問題,對於海量小檔案效能和擴充套件性確實有較大突破,且分散式資料庫可以實現檔案後設資料的統一儲存和檢索,滿足對內容管理的需求。


但分散式資料庫是結構化儲存架構,替換檔案儲存存在很多侷限性。首先,由於MPP分散式資料庫的架構限制,很難實現傳統儲存的部分高階功能,如:糾刪碼功能(類似分散式RAID)、檔案去重等,導致儲存成本過高,不適用於音影片等低價值密度資料的儲存。其次,受限於SQL介面,無法實現目錄和子目錄的許可權管理、配額管理、目錄快照回滾等傳統NAS儲存的基本功能,導致資料缺乏安全性機制及資料可靠性保障機制。此外,SQL、NoSQL作為檔案儲存,標準性差、介面使用複雜,不便於企業使用者使用。該技術方案在部分金融機構嘗試後,未能成為主流形態大範圍推廣應用。


物件儲存階段


反觀網際網路行業,近幾年隨著移動網際網路和智慧手機的蓬勃發展,微信、直播、短影片等新型應用帶來的非結構化資料量已遠遠超過金融行業。由於資料量大、檔案數多,因此需要尋找價效比高的儲存方案,網際網路在十年前就已經開始採用基於x86伺服器的分散式架構來解決海量資料儲存問題,出現過的技術包括谷歌的GoogleFS、亞馬遜的S3、阿里的FastDFS等基於HTTP訪問協議的檔案儲存方案,由於亞馬遜的公有云影響力,AWS S3物件儲存逐步成為網際網路行業的事實標準,目前阿里、騰訊、華為的公有云都採用相容S3協議的物件儲存技術。


物件儲存的技術特點是基於x86伺服器+分散式儲存軟體技術構建統一儲存池,利用伺服器本地磁碟實現PB級甚至EB級的大規模儲存叢集,可擴充套件性強。軟硬體解耦,可實現硬體的動態淘汰和更新,無需像NAS進行裝置更新時要完成資料遷移。採用簡化的檔案操作介面,單一名字空間可管理的檔案數量相比NAS大數百倍。基於HTTP協議的SDK訪問,無需掛載作業系統,應用可直接訪問,適合應用雲化和容器化場景及手機APP程式訪問場景。協議標準化,符合基礎架構標準化需求且與公有云相容,便於應用系統在公有云和私有云間無縫遷移。


除了具備物件儲存的基本特點,杉巖分散式物件儲存軟體聚焦金融行業,幫助金融客戶構建本地私有云儲存資源池。同時,將網際網路物件儲存技術進行深度產品化,並推出了更多的特性:
相容FTP/檔案介面,支援金融行業傳統應用實現向物件儲存的平滑遷移;
支援檔案後設資料和後設資料檢索,代替ECM功能,滿足企業內容管理需求;
支援目錄快照和快照策略、檔案多版本和快速回滾,實現非結構化資料免備份,解決磁帶庫備份頻寬不足和調取慢的問題;
支援多資料中心容災及資料中心AA模式,實現業務的就近讀寫訪問;
一套環境同時支援副本和糾刪碼(類似分散式RAID),兼顧金融核心業務系統的效能和音影片儲存成本型應用需求;
支援資料冷熱自動分層,滿足業務效能的同時,降低歷史冷資料的儲存成本。


綜上所述,隨著金融科技的不斷引入,非結構化資料型別更多、資料量增長更快,儲存需要對資料進行統一管理和利用,金融行業的IT管理者需要根據資訊化需求選擇更為合適和具有前瞻性的儲存方案。未來,能夠結合大資料分析、人工智慧技術,實現對金融海量非結構化資料的價值挖掘,推動金融行業蓬勃發展。


【關於杉巖資料】


企業級軟體定義儲存(SDS)方案和服務提供商,“+儲存”理念的倡導者和踐行者,由來自世界500強企業的專業儲存團隊為技術班底組成。幫助企業級使用者輕鬆應對IT向雲遷移的儲存挑戰,為大資料時代的商業決策提供智慧儲存。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956769/viewspace-2670233/,如需轉載,請註明出處,否則將追究法律責任。

相關文章