分散式架構馭數而行,海量資料方能有備無患

dobigdata發表於2021-03-28

“過去會區分核心資料和非核心資料。現在是所有資料都很重要,所有資料都不能丟失。”去年武漢一家大型三甲醫院資訊中心主任接受筆者採訪的觀點依然讓人記憶猶新。

無獨有偶,在產業數字化和數字產業化的雙輪驅動下,一個海量資料時代正加速到來。IDC《資料時代2025》白皮書就預測,到2025年全球資料量總和將達到175ZB;其中,來自中國的資料量預計未來五年年平均增長30%,並且到2025年將成為全球資料量最大的區域。

海量資料時代來臨,一方面為企業擁抱數字化、洞悉市場規律、挖掘資料價值提供了充分條件;另一方面,海量資料的儲存、備份、恢復等也給傳統備份方式、產品帶來了前所未有的挑戰。正如愛數公司所認為,資料大爆炸讓資料備不完、存不下、管理難愈發成為各行各業的新常態,而基於分散式架構的備份系統,正是應對海量資料備份恢復挑戰的那一副良劑。

為何繞不開一個“快”字

海量資料的產生離不開外部政策的強力導向和企業數字化轉型的內部強大驅動力。

以中國市場為例,《中國數字經濟發展白皮書(2020)》透露,數字經濟近年來成為經濟發展的又一引擎,其GDP佔比逐年提升,在數字經濟的推動下,各行各業的數字化轉型明顯提速;而剛剛出爐的《十四五規劃》報告中,更是強調提升數字產業經濟佔比的核心目標,全面推動建設數字中國和發展數字經濟。

同樣,海量資料的產生也離不開企業數字化轉型強大的內部驅動力。尤其是隨著數字化轉型進入到深水區,雲端計算、大資料、AI等數字化技術加速在業務場景中落地,極大地產生了豐富的資料。

那麼,與過去相比,如何理解當前海量資料的規模?

用幾個簡單的資料來形象說明。例如,一家中型科技公司的開發測試環境往往達到上萬個虛擬機器主機;交通、智慧城市等場景一年往往能產生超過10PB規模的資料量;銀行、保險等金融機構擁有超億個小檔案……

分散式架構馭數而行,海量資料方能有備無患

各個行業使用者明顯感覺到資料量爆炸性的增長。“面對海量資料,越來越多使用者存在備不完、存不下、管理難的情況。”愛數AnyBackup產品副總裁常華如是說。

具體來看,首先是使用者的資料總量呈現出指數級的增長趨勢,完全備份幾乎無法完成,哪怕使用者,精打細算、調優海量備份任務的計劃排程,依然有觸碰到紅線的風險;其次,採用傳統備份架構體系,往往存在著N套備份系統對應N*N個備份客戶端的情況,使得管理備份任務變得異常複雜;最後,隨著數字化程度越來越高,使用者生產資料增速越來越快,但是規定的備份時間視窗沒有變,使得備份視窗壓力極大。

“傳統備份解決方案通常是採用串聯、堆疊的部署方式,現在已經很難適用海量資料的保護了。”常華表示道,“解決之道就是分散式架構,透過分散式架構的易擴充套件、高吞吐和高可用,來實現海量資料備份恢復的以快制勝。”

分散式架構有何獨特之處

在資料保護領域採用分散式架構乃是順勢而為,順應了海量資料時代資料保護需求的變化。

分散式架構本身並不稀奇,之前在IT各個領域都有著廣泛的應用。那麼,分散式架構應用在資料保護領域有哪些獨特之處,它又是如何實現易擴充套件、高吞吐和高可用來解決海量資料備份恢復的挑戰?

以愛數AnyBackup Family 7分散式架構為例,之所以能實現易擴充套件、高吞吐和高可用,不僅僅是其採用了Scale-Out橫向擴充套件架構,還在於其完成了從客戶端到底層備份介質端到端的最佳化,針對備份恢復的每一個環節進行有針對性的最佳化,從區域性到整體完成與分散式架構的適配、調優。

分散式架構馭數而行,海量資料方能有備無患

例如,在客戶端,針對虛擬化、資料庫、雲平臺等工作負載,愛數提供了專有API,結合各種調優演算法,來實現海量備份效能的提升;又如,透過負載均衡,對於備份任務和備份容量進行多工分發和合理分配,以達到一個整體最優的效能。

“在六節點叢集吞吐量測試報告中,備份吞吐率達到36TB/h,恢復吞吐率達到20TB/h。”常華透露,“愛數AnyBackup Family 7分散式架構今年將實現單套備份系統最高支援32個節點,儲存池容量超過10PB。”

分散式架構馭數而行,海量資料方能有備無患

另外,存算分離架構也是愛數AnyBackup Family 7分散式架構的一大核心特徵。存算分離架構的一大好處就是具有足夠的靈活性,當使用者規模越來越大之後,其對於靈活性要求也會提升,往往需要根據業務或者工作負載的需求來靈活擴充套件計算或者儲存,如果採用計算與儲存緊耦合的方式,計算與儲存擴縮容則極為不方便,無法滿足使用者業務對於靈活性的需求。

以愛數AnyBackup Family 7分散式架構為例,在其存算分離架構之中,分散式計算主要負責海量任務併發和負載均衡,完成各種任務的排程、匹配與最佳化;而分散式儲存則透過多通道的併發和資料負載均衡,將接受過來的資料寫入到備份節點之中。

“存算分離架構,可以最大限度來提升備份與恢復的每個工作環節。”愛數AnyBackup研發副總裁鄧平介紹道,“例如,分散式的SLA策略排程,針對保護任務、保護物件,採取不同的備份策略和週期。”

事實上,採用分散式架構的備份產品在實際業務場景中已經凸顯出其優勢。以某省政務雲平臺為例,其雲主機的資料量已經達到1520TB,資料庫的資料量則達到了1641TB,整個平臺有數千個任務,並且依然保持著很高的增長速度,其每個備份域只需要部署一套備份系統即可完成日常的備份作業,所有39個節點透過一套運營管理產品就實現了全平臺的管理,極大簡化了日常管理工作。

從分散式架構帶來哪些啟示

哈佛大學管理學教授克里斯坦森在《創新者的窘境》中認為,創新關鍵不僅僅在於技術進步或者科學發現,更加關鍵的是在於對市場需求變遷的主動響應。

毫無疑問,海量資料時代,使用者對於備份恢復的需求變化就是“快”,在時間視窗有限的情況下完成對於不斷增長的海量資料的備份、管理與恢復。

這種趨勢直接驅動著以愛數為代表的公司將分散式架構創新應用在備份產品之上,並且以全域性的視角,以及著眼於備份恢復每一個環節的最佳化,來實現“快”這個目標。

面向未來,“快”始終是資料備份恢復的核心目標,分散式架構在資料保護領域的創新還會有巨大的空間,以真正實現海量資料的有備無患。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2765332/,如需轉載,請註明出處,否則將追究法律責任。

相關文章