分散式儲存系統可靠性如何估算?

網易雲社群發表於2019-03-01


本文由 網易雲 釋出。

常規情況下,我們一般使用多副本技術來提高儲存系統的可靠性,無論是結構化資料庫儲存 (如典型的 mysql)、文件型 Nosql 資料庫儲存 (mongodb ) 或者是常規的 blob 儲存系統 (GFS、Hadoop) 等,無不如此。

因為資料幾乎可以稱得上是企業生命力的核心,保障資料儲存系統的可靠性對於任何企業來說都不是一件小事。

資料丟失與 copyset(複製組)

“在由 999 塊磁碟組成的 3 副本儲存系統中,同時壞三塊盤的情況下資料丟失的概率是多大? ”,這個跟儲存系統的設計息息相關,我們先考慮兩個極端設計下的情況。

設計一:把 999 塊磁碟組成 333 塊磁碟對。

在這種設計下,只有選中其中一個磁碟對才會發生資料丟失。

這種設計中,丟失資料的概率為 333/C(999,3) = 5.025095326058336*e-07。

設計二:資料隨機打散到 999 塊盤中。

極端情況下,隨機一塊盤上的邏輯資料的副本資料打散在所有叢集中的 998 塊盤中。這種設計下,丟失資料的概率為 C(999,3)/C(999,3)=1,也就是必然存在。

通過這兩種極端的例子我們可以看到,資料的丟失概率跟資料的打散程度息息相關。為了方便後續閱讀,這裡我們引入一個新的概念 copyset (複製組)。

CopySet:包含一個資料的所有副本資料的裝置組合,比如一份資料寫入 1,2,3 三塊盤,那麼 {1,2,3} 就是一個複製組。

9 個磁碟的叢集中,最小情況下的 copyset 的組合數為 3,copysets = {1,2,3}、{4,5,6}、{7,8,9},即一份資料的寫入只能選擇其中一個複製組,那麼只有 {1,2,3}、{4,5,6} 或者 {7,8,9} 同時壞的情況下才會出現資料丟失。即最小 copyset 數量為 N/R。

系統中最大的 copyset 的數目為 C(N,R) ,其中 R 為副本數,N 為磁碟的數量。在完全隨機選擇節點寫入副本資料的情況下,系統中的 copyset 數目會達到最大值 C(N,R)。即任意選擇 R 個磁碟都會發生一部分資料的三個副本都在這 R 個盤上的情況。

磁碟數量 N,副本為 R 的儲存系統中,copyset 數量 S, N/R < S < C(N, R)

磁碟故障與儲存系統可靠性估算

1. 磁碟故障與柏鬆分佈

在正式估算相關概率之前還需要科普一個基礎的概率學分佈:柏鬆分佈。柏鬆分佈主要描述在一個系統中隨機事件發生的概率,譬如描述汽車站臺候客人數為某個值的概率,某個醫院 1 小時內出生 N 個新生兒的概率等等,對泊松分佈做的更為形象的介紹可參閱阮一峰的《泊松分佈和指數分佈: 10 分鐘教程》。

分散式儲存系統可靠性如何估算?

如上為泊松分佈的公式。其中,P 表示概率,N 表示某種函式關係,t 表示時間,n 表示數量,λ 表示事件的頻率。

舉個例子:1000 塊磁碟在 1 年內出現 10 塊故障的概率為 P (N(365) = 10) [注:t 的平均單位為天]。λ 為 1000 塊磁碟 1 天內發生故障磁碟的數量,按照 google 的統計,年故障率在 8%,那麼 λ = 1000*8%/365 。

如上只是損壞 N 塊磁碟概率的統計,那麼怎麼利用這個公式計算分散式系統中資料可靠性 (即資料丟失概率) 的近似值呢?

2. 分散式儲存系統中丟失率的估算

2.1 T 時間內的故障率

對於分散式儲存系統中如何進行年故障率的估算,我們先假定一種情況:T 為 1 年的情況下,系統存滿資料,壞盤不處理,這種情況下統計一下資料的年故障率。

這裡我們先定義一些值

N: 磁碟數量
T:統計時間
K:壞盤數量
S:系統中 copyset 數量 (複製組的個數)
R:備份數量

如何計算 T(1年)時間內資料丟失的概率,從概率統計角度來說就是把 T (1 年) 時間內所有可能出現資料丟失的事件全部考慮進去。包含 N 個磁碟 R 副本冗餘的系統中,在 T 時間內可能出現資料丟失的事件,即壞盤大於等於 R 的事件,即 R,R+1,R+2,… N ( 即為 K∈[R,N] 區間所有的事件 )。這些隨機事件發生時,什麼情況下會造成資料丟失?沒錯,就是命中複製組的情況下。

K 個損壞情況下 (隨機選擇 K 個盤情況下) 命中複製組的概率為:

p = X/C(N,K) 其中 X 為隨機選擇 K 個磁碟過程中命中複製組的組合數

那麼系統出現 K 個磁碟損壞造成資料丟失的概率為:

Pa(T,K) = p * P(N(T)=K)

最後系統中 T 時間內出現資料丟失的概率為所有可能出現資料丟失的事件的概率總和。

Pb(T) = Σ Pa(T,K) ; K∈[R,N]

2.2 分散式系統衡量年故障率

以上我們假設在一年中,不對任何硬體故障做恢復措施,那麼 t 用一年代入即可算出此種系統狀態下的年故障率。但是在大規模儲存系統中,資料丟失情況下往往會啟動恢復程式,恢復完了之後理論上又算是從初始狀態的隨機事件,加入這個因素之後計算可靠性會變得比較複雜。

理論上大規模儲存系統中壞盤、恢復是極其複雜的連續事件,這裡我們把這個概率模型簡化為不同個單位時間 T 內的離散事件來進行統計計算。只要兩個 T 之間連續事件發生的概率極小,並且 T 時間內絕大部份壞盤情況能夠恢復,那麼下個時間 T 就是重新從新的狀態開始,則這種估算能夠保證近似正確性。T 的單位定義為小時,那麼 1 年可以劃分為 365*24/T 個時間段,那麼系統的年故障率可以理解為 100% 減去所有單位 T 時間內都不發生故障的概率。

分散式儲存系統可靠性如何估算?

即系統整體丟失資料的概率為:

Pc = 1 – (1-Pb(T))**(365*24/T)

網易雲物件儲存服務

網易雲物件儲存服務 NOS(Netease Object Storage)是高效能、高可用、高可靠的雲端儲存服務。NOS 支援標準 RESTful API 介面,並提供豐富的資料線上處理服務,一站式解決網際網路時代非結構化資料管理難題。

其中,網易雲採取多重備份機制,為使用者檔案提供多重備份保障,在任何一臺伺服器或硬碟故障時,將立即進行資料恢復,確保資料安全無隱患。歡迎廣大使用者試用和體驗。

最後,如想對本文內容(即分散式儲存系統可靠性估算)作進一步學習和探究的,可參閱作者的另一篇文章:work-jlsun.github.io/2017/02/18/…

原文地址:work-jlsun.github.io/2017/01/24/…l

參考文獻:

Google’s Disk Failure Experience

泊松分佈

泊松分佈和指數分佈:10 分鐘教程

概率論,二項分佈和 Poisson 分佈

磁碟故障與儲存系統的年失效率估算

瞭解網易雲:

網易雲官網:www.163yun.com/

新使用者大禮包:www.163yun.com/gift

網易雲社群:sq.163yun.com/

相關文章