IT系統災難恢復基本指南

HitTwice發表於2018-05-07

  資料中心可能遭遇的災難是各種各樣的。包括災難性的自然事件,如洪災、地震和龍捲風,以及網路攻擊、裝置故障等,都可以被歸類為災難。

  公司和組織都應該通過制定災難恢復計劃,將遇到災難時應有的行動和流程細化,以快速恢復關鍵業務功能,避免造成收入或業務方面的重大損失。

  什麼是災難恢復?

  在IT領域,災難恢復聚焦於支援關鍵業務功能的IT系統。“業務連續性”通常與災難恢復聯絡在一起,但這兩個術語並不能完全互換。災難恢復是業務連續性的一部分,它更側重於在發生災難時保持業務執行的各個方面。如今,IT系統對業務的成功至關重要,因此災難恢復已成為業務連續性的一個主要支柱。

IT系統的災難恢復基本指南,瞭解一下?

  災難損失

  如果一個企業對災難沒有任何應對措施,那麼災難所造成的經濟和運營上的損失會將其完全壓垮。據IT災難恢復計劃(DRP,Disaster Recovery Preparedness)理事會2015年的一份報告顯示,一小時的停機時間,就可能會讓小公司損失高達8000美元,中型企業高達74000美元,大型企業的損失高達70萬美元。而且那還是在三年前,今天可能更高。

  某災難恢復服務提供商的另一項調查顯示,超過一半的受訪企業(54%)在過去5年裡經歷的停機時間長達8個多小時。這其中有三分之二的受訪者表示,他們的企業因停機造成的損失超過了每天2萬美元。

  風險評估,識別漏洞

  即便你的公司已經制定了某種災難恢復計劃,可能也仍需更新。如果你的公司沒有相應的計劃,或者正準備進行制定,最好先做一次風險評估,識別IT基礎架構的漏洞,並找到可能出現問題的地方。當然,先決條件你必須清楚地瞭解公司的IT基礎設施。

  在《災難恢復期刊》(the Disaster Recovery Journal)最近的一篇部落格文章中,作者湯姆?羅普克(Tom Roepke)和史蒂文?戈德曼(Steven Goldman)建議,在保持業務連續性的計劃中,將最壞的情況從其他重大威脅中特意分離出來的做法是非常危險的:

  “大體上,大家都會去嘗試找出或定義最壞的情況。這是一個致命的缺陷,因為它決定了之後整個計劃的努力,即使是在潛意識層面。因為當我們插入一個特定的場景時——如瘟疫、地震、網路攻擊等,我們就會自動開始思考和計劃響應/恢復措施,以應對這一特定的、潛意識定義下的事件。當這種情況發生時,我們不僅會在規劃中形成一種隧道式的侷限視角,而且也可能面臨著增加風險的危險。這是因為在我們將最糟糕的情況特意分離探討的時候,只有一兩個特定的領域會被過度關注,而不是真正的事件。”

  羅普克和戈德曼建議,在與專案小組溝通時應關注於“管理危機,重建業務關鍵職能並恢復一切。”

  什麼是災難恢復計劃?

  在搜尋引擎中輸入“災難恢復計劃(預案)模板”,會出現幾十甚至上百個計劃書的模板。這些模板對於你的計劃的制定有一定的參考價值。

  災難恢復計劃本身應基本包括以下內容:

  ·計劃的概述和主要目標。

  ·關鍵人員和災難恢復團隊成員的聯絡資訊。

  ·災難發生後緊急響應行動的描述。

  ·整個IT網路和恢復站點的圖表。(包括如何到達恢復地點、需要到達的人員說明。)

  ·識別最關鍵的IT資產,確定最大的停機時間。瞭解恢復點目標(RPO,Recovery Point Objective)和恢復時間目標(RTO,Recovery Time Objective)。RPO表示當業務恢復重新上線後,應用可以回到或者它的資料允許恢復過去多久的時間點的資料。如果你選擇一個5小時的RPO,那麼系統必須至少每5小時備份一次。RTO是指災難發生後,從IT系統當機導致業務停頓到可以恢復支援各部門運作,業務正常運營所需要的時間。

  ·將用於恢復工作的軟體、許可證金鑰和系統列出一個表格。

  ·來自供應商的恢復技術系統軟體的技術文件。

  ·保險摘要。

  ·處理財務和法律問題的建議。

  ·對公措施(如維護性宣告,降低輿論影響)。

IT系統的災難恢復基本指南,瞭解一下?

  建立災難恢復團隊

  該計劃應該由負責公司內部關鍵IT基礎設施的IT團隊成員協調。其他需要了解該計劃的人包括執行長或委派的高階經理、董事、部門領導、人力資源和公共關係專員。

  除本公司之外,應瞭解與災難恢復工作相關的供應商(例如軟體和資料備份服務提供商)的聯絡資訊。設施所有者、物業管理人員、執法人員和應急反應人員也應在計劃內列出(甚至可以週期性地更新姓名或電話號碼)。

  在管理層將計劃編寫完成、批准之後,需要對計劃進行測試,並在必要時進行更新。安排下一個審查週期,稽核災難恢復功能。當事件發生後(無論大小),一定要更新、更新、更新。計劃不是用來收藏的。

  災難發生了該怎麼辦?

  當災難已經發生時,就該啟動你的事件響應了。確保事件響應團隊(如果它與災難恢復計劃團隊不同屬一支)有一個災難恢復計劃的副本。

  事件響應包括,評估情況(知道什麼硬體、軟體、系統受到災難的影響)、系統的恢復和後續工作(哪些有用,哪些無效,哪些可以改進)。

  下一個趨勢?雲或DRaaS(災難恢復即服務)

  就像許多企業將IT系統遷移到雲端一樣,災難恢復也是如此。雲端計算的優勢包括低成本、更容易的部署以及定期測試計劃的能力。然而,這可能會增加頻寬需求,或者降低公司的網路效能,而且需要使用更復雜的系統。

  2016年,Gartner的相關調查報告中列舉了超過250家DRaaS產品提供商,災難恢復服務市場形勢一片大好,有很多具有不同特性產品可供企業選擇。限於篇幅,此處不對服務提供商進行過多描述。將災難恢復交給專業的人來解決確實是一個不錯的選擇,但應注意對其產品進行全方位的評估。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31473948/viewspace-2154097/,如需轉載,請註明出處,否則將追究法律責任。

相關文章