四、備份容災技術

m53469發表於2021-09-09

備份

常用備份拓撲

儲存網路主要分為前端業務網以及後端的儲存網路,業務網主要受理使用者的請求,後端儲存網主要使用者資料的讀取和寫入,有一些企業出於成本的考慮,不會使用後端儲存網,因此會涉及到備份的組網形式。
1.LAN-BASED
不存在後端儲存網,備份的資料流和業務的資料流就需要在一個網路中進行傳輸,其優點是節省開銷,但備份時,備份流量會佔用業務頻寬,影響整體的處理效能。
2.LAN-FREE
如果客戶前端業務網和後端的儲存網都有架設,那麼備份時就可以使用後端的儲存網路做備份,傳輸備份資料流,這樣做就不會影響到前端業務的正常執行。
注:
  LAN指業務網路
3.Server-Free
一般用於虛擬機器備份,透過給主機建立臨時虛擬機器,將需要備份的資料建立快照,把快照掛載在備份裝置上,備份裝置透過讀取臨時虛擬機器內的快照,然後進行資料的轉存操作
(1)CS:備份伺服器,透過備份伺服器來控制整體的備份程式,執行相關的備份策略,是整體的控制伺服器
(2)CA:備份的資料來源(Agent),需要備份哪個伺服器或儲存的資料就將Agent安裝在那個裝置上
(3)MA:備份介質,備份的資料儲存在哪一臺裝置上就在其之上的伺服器安裝Agent

備份策略內容

1.資料型別:檔案、作業系統、資料庫...
2.備份介質:磁碟陣列、磁帶...
3.備份型別:全量備份(恢復時直接恢復,最快)、增量備份(每次備份和上次備份的差異部分,恢復時需要整合前幾次備份的內容,耗時最長)、差量備份(每次備份和全量備份的差異部分,恢復時需要整合上一次全量+這次差量)
4.資料保留時間
5.備份週期
6.備份視窗:啥時候備份,備份多久

常見備份結構

1.DAD:磁碟-磁碟的資料備份,速度快,儲存時間長,且不需要伺服器,但成本高
2.D2T:磁碟-物理磁帶庫的資料備份,儲存不方便,磁碟時間長容易消磁,不過便宜
3.D2V:磁碟-虛擬磁帶庫的資料備份
4.D2D2T:磁碟-虛擬磁帶庫-物理磁帶的資料備份,最安全快速方便,但也最貴

備份開銷計算

1.頻寬開銷:假如公司有8T資料,每天增長100G,備份時間為一小時,求頻寬?
100G1000/(16060有效頻寬%)
2.容量開銷:假如公司200G資料,每天增長20G,每週一次全量備份,資料留一個月,則最小儲存容量?
     原 增  備份
第一週:    200 120  320
第二週:    520 120  640
第三週:    1160 120 1280
第四周:    2440 120 2560
注:
  全量備份得把這一週備份的加上原來的,所以像第一週總共就是200+320
結果:一個月最少要5T容量
備份建議
每天做增量備份,每週一次全量備份,每月清除一次備份資料。

重複資料刪除技術

基於上面全量備份可發現備份的容量開銷實在太大了,所以就需要用到該技術,該技術就是為了解決數備份過程中由於資料量過大佔用大量儲存空間的情況。由於備份時很多資料都是重複,所以空間就會重複佔用,重刪技術首先會在儲存介質的後臺建立一個指紋資料庫,該指紋資料庫在未備份時是空的,開始備份後首先會將檔案切分成資料塊,給資料塊透過雜湊演算法計算指紋值,然後和指紋資料庫作對比,第一個資料庫對比時由於指紋資料庫是空的所以比對不上,也就是當前該資料塊是唯一的,所以將該資料按照原有的計劃寫入,並且將自己的地址和指紋資訊新增進指紋資料庫中,後邊的資料塊會進行資料庫比對,按照上面的方式,如果比對到了指紋資料庫,那麼該資料就不會再複製到備份介質,而是將指紋資料庫中的比對到的地址新增到一個對映到該資料庫的位置。

重刪的分類

1.全域性重刪
2.本地重刪:針對多個重刪源使用幾個指紋庫
3.源端重刪:備份端重刪
4.目標端重刪:伺服器做重刪,華為就是用這種
5.線上重刪:消耗資源
6.後處理重刪:消耗儲存空間
7.檔案級重刪
8.塊級重刪

重刪關鍵指標

1.重刪率:能節省多少空間
2.重刪效能:多久能刪完
3.資料可靠性:是否資料可靠,是否可隨時恢復
4.複製效能:容災場景下需要多久才DR-Ready
5.恢復效能:一旦資料丟失需要多久找回

壓縮

靠壓縮演算法實現(重刪靠切塊比對,實現保留唯一資料)
1.空格壓縮:將多個空格壓縮成一個程式碼
2.遊長壓縮:比如AAAAAAAAAA就變成A.&10
3.定長壓縮:比如AAAAAAAAAA就變成A5.A5
4.關鍵字壓縮:自定義關鍵字壓縮為特定字元
5.哈夫曼壓縮法
注:
  重刪的刪減率比壓縮大,重刪會破壞資料,而壓縮不會,所以建議先做重刪再做壓縮,從而保證資料量縮減時可以達到最大化。

容災

容災分類

1.業務級容災
2.應用級容災
3.資料級容災

容災系統衡量指標/核心引數

1.RPO恢復點目標
災難發生後,系統和資料必須恢復到的時間點要求,也就是說資料丟失的時間量,比如8點備份,9點故障恢復到8點的樣子,那麼RPO=1h。
2.RTO恢復時間目標
災難發生後,資訊系統或業務功能從停頓到必須恢復的時間要求,也就是說故障的恢復時間,比如9點業務故障,9點半恢復,則RTO=30min。
注:
  確保容災業務的高可靠性和可用性,一般要求RPO<=10S,RTO<=3min。

容災系統建設國際標準

1級:Tier1-PTAM,將資料進行複製然後運輸到異地做冷備(資料),RPO:一週,RTO:一週
2級:Tier2-PTAM加熱備站點,將資料複製然後在熱備站點進行留存(資料),RPO:幾天,RTO:幾天
3級:電子連結傳輸,透過網路進行資料傳輸和資料備份(資料),RPO:2-4天,RTO:12h左右
4級:批次/線上資料庫映象或日誌傳輸(應用),RPO:幾小時,RTO:4-8h
5級:兩地間兩階段提交(交易完整性),透過遠端複製等形式進行資料的備份(應用),RPO:1-3h,RTO:1-4h
6級:幾乎0資料丟失,遠端資料競選保證資料完整性和一致性,透過兩地站點進行業務的資料保障(業務),RPO:>=0,RTO:>=0
7級:華為自己出的,在6級基礎上多了自動化系統接管,無人值守自動切換,RPO:>=0,RTO:>=0

容災測試

搭建一個虛擬環境來測試當故障出現後能不能正常使用。

容災演練

模擬出現故障的情況進行實際的業務切換以及故障處置操作。

故障切換

發生真實故障之後,執行業務的切換和拉起。

典型容災解決方案

兩地三中心:3個站點——主站點、同城災備站點、遠端災備站點。



作者:dawsonenjoy
連結:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2819/viewspace-2821222/,如需轉載,請註明出處,否則將追究法律責任。

相關文章