天翼雲物件儲存ZOS高可用的關鍵技術揭祕

天翼雲開發者社群發表於2022-06-07

物件儲存是一種將資料作為物件進行管理的網路儲存架構,早期常被用於資料備份歸檔等場景。

物件儲存是一種將資料作為物件進行管理的網路儲存架構,早期常被用於資料備份歸檔等場景。隨著各行業數字化轉型深入,非結構化資料呈現爆發式增長,物件儲存作為能夠提供可大規模擴充套件且經濟高效的儲存方案,其應用愈發廣泛,逐漸深入政務、金融等客戶的核心業務領域,這也對物件儲存的可靠性、可用性提出了更高要求。

基於高可靠的底座、完備的安全防護、一體化的運維管理與容災設計體系,天翼雲物件儲存 ZOS為企業提供高可用、高可靠的儲存服務,應對資料爆發式增長和快速查詢需求,保障更多政企客戶安全用雲。

 

天翼雲物件儲存 ZOS整體可用體系建設圖

天翼雲物件儲存 ZOS採用分散式系統架構設計,具有靈活伸縮的接入層和高可靠的分散式架構,可進一步提升儲存服務可用性。

靈活伸縮的接入層

ZOS能夠支援海量的小檔案訪問和儲存。高達10億+資料量的單桶儲存,是對物件儲存產品前端接入網路高負載、高可用性的挑戰。天翼雲ZOS通過一整套基於CStor-LVS和CStor-Nginx的架構來滿足這一需求。

 

如上圖所示, ZOS通過前端接入全互聯高速網路,實現了各個節點在負載上的完美均衡。接入節點間通過keepalived的方式實現了LVS節點之間的高可用,在面對單節點故障的場景時,能夠迅速做出切換,保證業務的連續性,服務可靠性高達99.995%。同時,在Router、LVS和Nginx側,分別實現了各自的一致性Hash,在前端流量持續增長的同時,能夠實現使用者無感知的熱伸縮。

   高可靠分散式架構

ZOS進行檔案儲存時,會以物件的方式將每個檔案切片,並通過Hash計算保證這些分片均勻離散地對映到每個儲存節點、每塊硬碟上。在儲存單元的選取上,可以根據每個硬碟所在伺服器、機架、機房進行識別性選取,進而在多個物理層級上滿足服務可靠性的要求。

 

在底層架構上, ZOS支援多副本和EC糾刪碼的策略,在充分保證資料準確性、安全性的同時,可以根據需要靈活選擇冗餘的型別,在容量利用率、效能、可靠性上達到滿足客戶需求的平衡。

天翼雲物件儲存 ZOS實現高可用還得益於一項關鍵技術:支援3AZ多活架構。

回顧資料儲存的災備技術發展,主要分為以下幾個階段:

離線備份: 技術發展的早期,人們主要通過行動硬碟、光碟進行資料離線備份(也稱為冷備份),實現簡單,無需進行大規模的業務部署和改造,但也存在效率低下、安全性可靠性低且恢復困難等問題。隨著行業內資料量的激增以及磁帶庫等備份介質的出現,市場湧現了大批的備份軟體廠商,可實現大規模資料的自動化離線備份和恢復。

線上備份: 由於離線備份需要中斷線上業務,且恢復操作實現複雜,備份廠商結合應用側研發出線上備份技術(也稱為熱備份)。線上備份實施時無需中斷使用者業務,結合快照能夠便捷地為使用者提供資料強一致性的備份和恢復能力。但是這種方式同樣存在資料備份和恢復週期長的問題。

兩站點雙活 &複製: 在備份技術發展的同時,資料儲存領域也出現了跨站點的容災技術,最先出現的是兩站點的雙活、非同步 &同步複製技術,具有資料線上複製備份、故障恢復時間短等優勢。

跨站點多活: 伴隨著業務可靠性要求的持續升高,多站點多活技術隨之誕生,帶來了比兩站點容災更高的可靠效能力。傳統技術包括兩站點構建雙活+額外一站點複製等。

 

對比幾種災備技術特徵可以發現,在業務恢復難度和時長方面,由於備份涉及多次的資料拷貝和回拷,恢復難度較高且耗時較長;在資源利用率方面,利用傳統備份和複製技術,備份資料目的端通常不直接承載現網業務,會造成部分業務資源浪費;在運維成本方面,雙活、多活技術故障場景業務感知小,切換迅速快捷,且無需人工設定備份 /恢復規則,更方便客戶側運維人員操作和實施。

另外,備份和傳統跨站點容災技術實際上還是基於資料複製技術實現的,通常至少需要 1:1的資料備份,藉助壓縮又會帶來額外的開銷,因此整體的儲存空間利用率也不高。但在實際使用中,很多使用者出於投資成本和可靠性要求等多方面考慮,也會將備份和跨站點容災技術結合使用。

ZOS為適應雲上業務的極速發展和高可用要求,在跨站點多活技術的基礎上,研發實現了3AZ(Available Zone,雲上架構下的可用區,通常為一個物理站點)多活的容災架構能力,每個AZ儲存節點融合為統一的儲存系統,AZ間實現資料自由流動,對外提供無差別的物件儲存服務。

 

ZOS在3AZ多活能力上具備以下幾大技術優勢,在保有傳統跨站點多活技術高可靠性的基礎上,為使用者提供更好的資源可用性和運維體驗。

業務無中斷 :三站點多活架構,任意一個站點整體故障業務不中斷,滿足生產系統業務穩定執行的高可靠要求。

故障無感知 :站點故障後業務自動切換,上層應用無感知,體驗更優。

恢復無干預 :站點恢復後,無需人工干預自動重新上線,系統自動進行資料重構,應用正常平穩執行。

資源高可用 :通過跨站點分散式糾刪技術,充分利用各站點儲存空間; 3站點多活同時承載業務,提供更優於雙活&複製的儲存資源利用率。

視覺化運維 :雲上視覺化監控狀態和告警,輕鬆實現遠端運維。

目前,天翼雲在華北、西安、蘇州等全國多地實現了 3AZ部署。

隨著千行百業數字化轉型程式的不斷加速,雲上業務連續性和可用性已成為企業深化資訊化建設、保障業務可持續發展的重要著力點。天翼雲物件儲存 ZOS可為企業提供低成本、高可用、易運維的物件儲存服務,讓企業資料儲存無後顧之憂,在數字時代的博弈中穩中求勝。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014251/viewspace-2899221/,如需轉載,請註明出處,否則將追究法律責任。

相關文章