杉巖資料銀行Documentum遷移方案

杉巖資料發表於2019-12-19

一、方案原理

常規的Documentum遷移工具,如圖1所示EMC原廠提供的EMA(Documentum Enterprise Migration Appliance)遷移工具,通常透過繞開Documentum的內容伺服器API介面,根據Documentum內部檔案物件索引規則直接訪問資料庫和NAS伺服器來加速Documentum遷移過程,效能相比於透過API介面遷移能夠提升10倍,但是每個小時也只能搬遷120萬物件,如果Documentum儲存了10億檔案物件,刨去其他工作或者異常處理的時間,最短也需要35天時間,這是一個充滿風險和不可控因素的過程,另外因為應用側不可能停機等待35天,所以應用側必須改造業務支援同時從兩邊去讀寫資料,增大了業務改造工作量和業務程式碼的複雜度。

杉巖資料銀行Documentum遷移方案

如圖2所示,杉巖提供的Documentum遷移方案,同樣透過直接訪問Documentum的資料庫獲取檔案的後設資料和索引資訊來提高遷移效能,另外基於NAS納管特性,針對歷史存量資料,在業務無需停機的情況下短時間內完成歷史存量資料的納管,然後在業務切割的極短時間視窗內,基於資料庫時間戳快速完成增量資料的納管,此時上層業務即可立即恢復正常服務,整個業務切換完成。

圖7 Documentum遷移時間線

杉巖資料銀行Documentum遷移方案

業務切割後影像系統資料訪問流程示意圖

杉巖資料銀行Documentum遷移方案

業務切割到SandStone MOS完成後,整個影像系統訪問NAS和SandStone MOS的資料流程如圖3所示:

  • 所有新的檔案儲存到SandStone MOS,歷史檔案資料的讀取由物件閘道器服務層自動代理到NAS;業務線上的情況下,管理員透過SandStone MOS生命週期轉移特性,設定NAS資料轉移到SandStoneMOS的具體時間點和策略,SandStone MOS將自動完成全量NAS檔案到自身的搬遷。

二、 業務介面改造

影像平臺使用Documentum,透過Documentum提供的HTTP方式的API介面完成增刪改查操作,SandStone MOS提供的S3介面同樣屬於HTTP方式的API,所以業務系統改造只需要從原來的Documentum介面改為呼叫SandStone MOS提供的標準S3介面即可。原有的方式是:影像系統透過Documentum API對資料進行檢索,得到檔案的r_object_id,進而根據r_object_id獲取檔案。資料完成遷移之後:影像系統透過MOS提供的檢索介面檢索物件,得到物件名,進而根據物件名稱獲取物件。

三 業務切割關鍵問題

1、 NAS納管效能

NAS檔案納管的過程中,從Documentum的資料庫查詢檔案的後設資料和索引資訊,然後將檔案索引以及標籤資訊一併寫入到SandStone MOS,Oracle 資料庫的查詢效能一般比儲存系統寫入的效能高,存在數量級的差別,所以NAS檔案納管的速度主要瓶頸在儲存系統。

參考杉巖實驗室測試報告資料,4節點環境8KB檔案的寫入TPS可以達到5000,因為NAS納管的過程中業務尚未切割到SandStone MOS,所以所有寫效能全部可以分配給到NAS作業,也就是納管的效能參考指標為: 5000/s (具體值需要根據上線方案配置計算,一般會更高)。

2、 資料存量

XX銀行當前影像系統的檔案主要以50KB以下,以及50~900KB的檔案為主,整套系統的資料量在300~400TB的體量,全國30多個分支銀行,每個分支每年影片監控資料在50~60TB左右。

3、切割時間估算

假設存量資料總量按照300TB,平均200KB大小,總共大概是16億個檔案,按照5000/s的速度,那麼如圖4所示:

  • 存量資料的納管需要89小時,大概4天完成;存量資料納管的這4天內,業務資料增量為(30*50TB)/365 = 4.1TB,增量檔案數量大概是2200萬2200萬增量資料的納管需要1.2小時,也就是業務切割時需要停機的時間,加上其他操作時間,預計2小時可以完成。

圖4 業務切割時間線

杉巖資料銀行Documentum遷移方案

4、 失敗回滾

假如業務切割到SandStone MOS上之後,驗收測試發現異常需要處理,可以立即回滾業務系統,切回Documentum,因為實際資料和後設資料都沒有刪除掉,整個系統能夠立即恢復服務,風險小。

四、完整遷移步驟

完整遷移流程圖

杉巖資料銀行Documentum遷移方案

1、準備工作

如圖所示,保證Documentum的DB和NAS服務可以正常訪問,業務系統正常執行,部署好SandStone MOS分散式物件儲存可用。

2、存量資料納管

無需停業務,保持業務正常線上。

記錄當前時間點T1,透過遷移工具從資料庫讀取T1時間點及之前的檔案後設資料及索引一併寫入SandStone MOS,完成存量NAS檔案的納管工作,預計花費時間4天。

3 業務停機

業務切割過程開始,記錄當前時間點T2,停掉業務程式。

4、 增量資料納管

完成T1到T2時間點新增資料文件的納管,預計花費時間2小時。

5、 業務切換

此時所有Documentum檔案資料透過SandStone MOS均可以統一訪問,執行業務程式切換動作,將業務流量指向SandStone MOS。

6 業務恢復

啟動新的業務程式,執行功能驗證測試,如果失敗則執行回滾操作,如果驗證測試成功表明業務切割成功,整個遷移過程結束。

五 後期內容搬遷

1、資料正確性

SandStone MOS內建生命週期轉移NAS檔案的過程中,會自動對遷移完成的檔案做MD5值校驗,從而保證資料的完整性和正確性。

2、平滑遷移QoS

NAS檔案搬遷的過程中為了防止對正常業務造成效能影響,SandStone MOS支援生命週期轉移QoS控制功能,可以根據業務效能需求以及系統效能做合理調配,優先保證業務訪問效能的前提下,最大化資料搬遷效率。

3、資料搬遷週期

業務切割成功之後,所有的新檔案都直接寫入SandStone MOS,所以後續需要搬遷的NAS檔案數量是固定的,按照16億計算,然後搬遷的生命週期轉移QoS控制TPS為500,那麼需要40天的搬遷時間,具體需要根據生產環境配置調整。

六、總結

面對XX銀行上10億的Documentum存量資料,EMC原廠提供的遷移方案需要超過一個月的遷移時間,工作量大、週期長,幾乎不可行。

杉巖資料提供的Documentum遷移方案,結合SandStone MOS特有的NAS納管特性,只需要4天的時間完成存量資料納管以及2小時的停機時間窗完成增量納管以及業務切割,極大簡化了Documentum向物件儲存遷移的業務複雜度,減輕應用改造和遷移工作量,能夠滿足XX銀行Documentum遷移需求。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956769/viewspace-2669423/,如需轉載,請註明出處,否則將追究法律責任。

相關文章