讀資料保護:工作負載的可恢復性07去重技術(上)

躺柒發表於2024-12-08

1. 去重技術

1.1. 去重技術(deduplication)的全稱為重複資料刪除(或去除)技術,也叫作重刪或刪重(dedupe)技術,該技術會認定資料集裡的重複資料,並將其消除,這個資料集可能含有我們在不同時間、不同地點所製作的多個備份

1.2. 功能

  • 1.2.1. 去重技術至少能夠把備份所佔的磁碟空間降低一個數量級

  • 1.2.2. 同一檔案的多個版本

    • 1.2.2.1. 去重技術只會把新版本里特有的資料儲存下來
  • 1.2.3. 位於不同地點的同一份檔案

    • 1.2.3.1. 同一份檔案可能在不同的地方儲存了好幾遍
  • 1.2.4. 比較隱蔽的重複資料

    • 1.2.4.1. 去重系統所能刪掉的資料量是一個變數,它受到許多因素影響,其中包括使用的去重技術本身

    • 1.2.4.2. 備份軟體與去重軟體如果是同一個廠商製作的,這兩個軟體本身知道應該按照什麼樣的順序處理

    • 1.2.4.3. 先給備份資料加密,然後再將其發給去重裝置,那麼實際上相當於沒有任何去重效果

    • 1.2.4.4. 加密其實也可以安排到去重之後再做,所以你應該考慮好去重與加密之間的順序

2. 重複資料是如何消除的

2.1. 去重系統一般會把資料切割成小塊,這樣的小塊通常稱為chunk

2.2. 壓縮(compression)是跟去重完全不同的資料縮減方法

2.3. 要看雜湊去重流程能夠從中認定多少個重複的chunk

2.4. 看後續的壓縮流程能把這些互不重複的chunk壓縮到什麼程度

2.5. 去重的執行範圍

  • 2.5.1. 並不是所有的去重系統都一模一樣,而且每個去重系統所能考慮的資料量也各不相同

  • 2.5.2. 範圍越大,能夠找到並消除的重複資料就越多

  • 2.5.3. 範圍越大,執行去重工作所要使用的資源也越多

  • 2.5.4. 備份集

    • 2.5.4.1. 某些備份軟體只能在同一個備份集(backup set)裡執行去重

    • 2.5.4.2. 只能在你對同一份原資料(例如某個資料庫)所做的這些備份之間去重

  • 2.5.5. 主機

    • 2.5.5.1. 主機範圍內的去重,只能在你對同一個主機(以及它名下的各種原資料)所做的備份之間去重

    • 2.5.5.2. 假如你沒有把去重範圍從備份集擴充套件到主機,那麼資料庫就會備份兩遍,除非你在給整個虛擬機器做備份的時候,能夠透過某種方式將資料庫排除出去

  • 2.5.6. 裝置

    • 2.5.6.1. 最常見的去重範圍

    • 2.5.6.2. 能夠在發給同一臺備份裝置的所有備份資料之間去重

  • 2.5.7. 站點

    • 2.5.7.1. 跟裝置範圍內的去重是一樣的,只不過去重範圍變成了站點

    • 2.5.7.2. 能夠在同一個站點裡的所有備份資料之間去重

  • 2.5.8. 全域性

    • 2.5.8.1. 如果備份系統能夠做全域性去重,那麼它會在發給該系統的所有備份資料之間對比,無論這些資料備份的是什麼東西,無論這些資料來自哪臺主機或哪個站點,備份系統都會在這些備份之間執行去重
  • 2.5.9. 去重系統基本上會對自己在某個去重範圍內所能考慮的資料總量設定上限

    • 2.5.9.1. 上限通常是根據雜湊表的最大容量來確定的

    • 2.5.9.2. 如果雜湊表過於龐大,那麼在其中查詢所花的時間就比較長,這會影響效能

      2.5.9.2.1. 大多數去重系統都會設定上限,以避開這個問題

2.6. 不要只看去重率

  • 2.6.1. 去重率都是在實驗環境下得出來的,他們在實驗時可能會專門構造一些資料,這些資料很難反映出使用者在現實工作中所需處理的備份資料

  • 2.6.2. 目標去重系統與源端去重系統之間的去重率也不太好比較

    • 2.6.2.1. 源端去重系統是在把資料發給備份伺服器之前先做去重的

      2.6.2.1.1. 本身的去重率通常比較低

      2.6.2.1.2. 真正的去重效果,還得看這些資料在備份伺服器上佔據的實際空間

    • 2.6.2.2. 要看徹底備份完某套資料之後,這個備份到底佔用多大的磁碟空間

  • 2.6.3. 絕不是說所有的去重系統在去重效果上全都一樣,也絕不是說同一份資料交給它們去重之後,所得到的結果都佔據完全相同的磁碟空間

  • 2.6.4. 如果你要知道某個去重系統的真實效果,那麼唯一的辦法就是在你們自己的資料中心裡,用你們自己的資料去觀察

    • 2.6.4.1. 要看它所佔據的實際磁碟空間

2.7. chunk的大小很重要

  • 2.7.1. 如果把切割的單位設定成一個二進位制位,那麼實際上只有兩種內容不同的chunk,一種是值為0的chunk,另一種是值為1的chunk

  • 2.7.2. 切割得越密,內容互不相同的chunk的數量就越少

2.8. chunk的大小很重要

  • 2.8.1. 如果把切割的單位設定成一個二進位制位,那麼實際上只有兩種內容不同的chunk,一種是值為0的chunk,另一種是值為1的chunk

  • 2.8.2. 切割得越密,內容互不相同的chunk的數量就越少

2.9. 檔案級別的去重

  • 2.9.1. 把物件儲存裡所儲存的物件叫作檔案,那麼物件儲存實際上就是一種檔案級別的去重系統

  • 2.9.2. 物件儲存實際上就是一種檔案級別的去重系統

  • 2.9.3. 許多儲存系統都可以利用這樣的技術,尤其是檔案系統,它可以運用該技術減少儲存郵件與其他檔案所需的儲存空間

  • 2.9.4. 不僅能夠縮減儲存空間的佔用量,而且能夠用來判斷資料是否受損,如果資料受某種原因影響而遭到破壞,那麼它的雜湊碼就會改變,而根據這個雜湊碼所確定的獨特ID當然也會改變

相關文章