拒絕成為空中樓閣,智慧運維為災備建設開啟新思路

dobigdata發表於2021-08-20

2010年,筆者有幸現場觀摩了西部某區域性銀行的容災演練:“資料庫系統癱瘓”和“資料中心發生火災”兩個場景演練全部在真實生產環境進行,演練時間加起來不過10分鐘,恢復速度讓包括筆者在內的現場人員驚歎不已。然而,更讓筆者震驚的是2014年銀監會的通告,該行應急恢復處置機制嚴重缺失,導致系統恢復工作進展緩慢,業務系統中斷長達37小時40分鐘,其間完全依靠手工辦理業務。

這件事情促使筆者曾經思考過:哪怕企業的災備體系建設完備、日常演練流暢,但企業真正的災難恢復能力到底如何?企業又該如何評估自身的災難恢復能力?

如何讓企業的災備系統不成為一種擺設,做到災備建設心中有一杆秤?這是業界一直困擾和渴望解決的。如今,愛數提供了一種新思路,在業界率先將智慧運維能力融入到災備體系之中,為企業構建可見的可恢復能力開啟了新局面。

災備不應成為空中樓閣

過去幾年裡,類似該區域性銀行的案例不在少數,空有災備體系,面對災難/事故卻無能為力。

歸根結底,業務變化所帶來的複雜性與相對穩固的災備體系逐漸不匹配。一方面,各行各業數字化轉型和智慧化升級,帶來的是業務場景數量、形態都在發生急速變化,以一個股份制銀行為例,其業務場景如今就超過300多個,類似因為疫情而興起的雲櫃員場景,也在銀行中迅速普及,新業務場景的井噴,帶來著資料量激增和資料型別更加豐富,也意味著帶來了新的災備需求。

拒絕成為空中樓閣,智慧運維為災備建設開啟新思路

另一方面,企業的災備體系一旦建立,往往是相對固定的,雖然也會有日常的一些演練,但是相比於動態快速變化的業務場景,已經建成的災備體系乃至災備思維卻愈發難適應這種變化,企業災備體系並不知道未來備份儲存容量應該如何規劃,也不知道災備系統執行狀態如何,更不知道新增任務最合適的策略和恢復風險評估。

過去,這些工作往往依賴於資深的災備專家來完成。但顯然,業務的快速變化以及專家資源的稀缺,使得大部分企業都面臨著如何建立有效災難恢復能力的挑戰。愛數資深災備專家常華直言,投入巨資的災備建設,其核心訴求應該是災難恢復能力,當前大部分企業都面臨著災備資源可監控但無法預測,災備恢復能力水平難以評估、可恢復能力不可見等典型痛點。

而解決這些痛點的思路,就是將智慧運維的理念、技術、方案引入到災備體系之中,讓災備恢復能力的指標體系化,災備運營更加智慧化和視覺化,徹底告別過去華而不實的“空中樓閣”建設現象。

智慧運維為災備開啟新思路

智慧運維的理念如今深深影響到資料中心的方方面面。

同樣,把智慧運維的理念、技術和方案納入到災備體系是否可行?愛數首先在業界做了嘗試,將AnyRobot與AnyBackup進行緊密整合,為災備體系融入了智慧運維能力。AnyRobot是愛數開放、高效、經濟的機器資料分析平臺,其目的是在海量機器資料中挖掘出價值。

首先,愛數基於多年面向大型客戶災備建設的經驗和積累的方案,對災備體系中管理者、運維團隊、審計人員等不同角色需求進行調研,瞭解不同角色的需求。愛數技術專家表示,高層管理者更加關注資料是否可用、災備體系的建設成效如何,而運維團隊則更加關注備份、容災的一些具體的操作、狀態和指標,愛數的AnyRobot增強災難恢復解決方案基於這些需求基礎上進行設計。

拒絕成為空中樓閣,智慧運維為災備建設開啟新思路

之後,針對愛數AnyBackup災備環境,聚焦災備恢復能力三個重要方面:災備系統可用、災備資源可用和可恢復能力,愛數進行詳細的分析。例如,針對災難恢復演練的分析,就極具價值,可以根據災難恢復演練情況來分析企業相應的可恢復能力。

此外,愛數對災備執行過程合規和災備體系建設成效視覺化兩個能力進行增強,讓災備體系建設更加完善。愛數技術專家介紹,像災備執行過程所有任務、管理員操作過程是否合規,將有助於進一步提升災難恢復能力。

在這些基礎上,愛數對於AnyBackup環境下災備體系進行指標明細化,然後透過全面分析來幫助使用者增強系統災難恢復能力。

AnyRobot讓災備恢復能力可見

具體來看,愛數AnyRobot智慧運維災備解決方案從五個方面來徹底提升災備恢復能力:

其一、實現了全面的基礎設施監控,保障備份系統可用,包括CPU使用率、磁碟空間、讀寫狀態等,可以全面、及時瞭解備份系統各種資源的基本情況。

其二、實現對備份的儲存容量智慧預測,避免資源儲備不足,例如雲端儲存、磁帶、磁碟等,基於當前備份資料增長情況和剩餘容量情況,管理員可以根據指標情況進行相應操作。

拒絕成為空中樓閣,智慧運維為災備建設開啟新思路

其三、實現備份任務監控分析,有效評估災難恢復的風險,對比歷史備份任務指標和可用備份資源,給出新建備份任務視窗、資料恢復風險評估等建議。眾所周知,備份容災任務一旦增多,在成百上千個任務中發現問題對於管理員是個極大挑戰,而透過智慧手段來洞察備份中的異常,及時給出建議,將極大提升災備恢復能力。

其四、對備份系統的管理員操作行為審計,確保備份資料安全。像對備份系統使用者登入監控、備份系統執行操作命令監控,及時瞭解操作情況和不合規情況。

其五、災備體系監控大屏,積累多個行業大屏模板,形成災備運營的視覺化。這其中,愛數與國內領先的大資料BI廠商帆軟合作,共同為使用者構建災備運營的視覺化,讓使用者對於災備體系狀態一目瞭然。

總體來看,產業數字化和企業數字化轉型在不斷走向深入,業務連續性的重要性也日益突出,如何確保業務連續、提升使用者體驗,災備體系的作用不可低估。面對數字化帶來的新場景、新需求、新痛點,必須要有新思路、新手段、新方案來解決,而愛數將AnyBackup與AnyRobot緊密整合,的確是提供了一種新思路,為使用者災備恢復能力可見開啟了新局面。面向未來,愛數的這種理念必然將惠及到更多行業使用者之中,其解決方案有望發揮更大價值。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2787906/,如需轉載,請註明出處,否則將追究法律責任。

相關文章