網路問題導致更多的資料中心中斷

網路通訊頻道發表於2019-03-25

斷電是資料中心中斷的常見原因,但它們不是唯一的罪魁禍首。隨著企業計算環境變得越來越複雜,IT系統和網路故障導致大量資料中心當機。

Uptime Institute一直在研究公開報導停機情況,以追蹤導致意外停機的原因。在過去三年中,該公司從傳統媒體或社交媒體上報導的162起中斷中篩選了部分資訊。在此期間,可用資料量穩步攀升;研究人員收集了2016年27次停電,2017年57次停電以及2018年78次停電的資料。

Uptime Institute的研究執行董事Andy Lawrence表示,“公共服務中斷越來越頻繁地成為新聞。”

Lawrence表示,“幾乎每天都在世界各地發生大規模停機,這並不一定意味著中斷的數量在急劇增加,但停機時間正在獲得更多的關注。”他說。

網路問題導致更多的資料中心中斷

來自Uptime Institute的研究的一個重要發現:電源在整體故障中的影響較小,而網路和IT系統則更為牽連。

這種轉變的一個原因是,電力系統的執行比過去更加可靠,這減少了本地資料中心內部的電力故障數量。

在過去二十年中,科技行業一直專注於設計電力系統,使IT資產能夠在電力系統出現故障或故障的情況下繼續執行。Uptime Institute技術長Chris Brown表示,“供應雙線IT裝置的2N配電系統的出現,使得IT系統能夠透過一系列單一事件繼續執行。”

與此同時,日益複雜的IT環境導致更多的IT和網路相關問題。“現在資料分佈在多個地方,其中一些關鍵依賴與網路、應用程式(架構)的方式以及資料庫複製的方式。這是一個非常複雜的系統,今天擾亂該系統的可能性比過去幾年要少。”Uptime Institute負責IT最佳化和戰略的副總裁Todd Traver說。

評估資料中心中斷的嚴重程度

為了區分可能導致業務癱瘓的停機和僅僅造成不便的中斷,Uptime Institute已經提出了規模。Lawrence說,評級系統允許研究人員瞭解模式如何隨時間變化。Uptime Institute的規模有五個層次:

  • 1級是可以忽略不計的停機。中斷是可記錄的,但對服務的影響很小或沒有明顯影響,也沒有服務中斷。

  • 2級的特點是最小的服務中斷。服務中斷,但對使用者、客戶或聲譽的影響微乎其微。

  • 3級是業務重要的服務中斷。它涉及客戶或使用者服務中斷,大多數是有限的範圍、持續時間或影響。對經濟的影響很小,甚至沒有。會產生一些聲譽或合規方面的影響。

  • 4級是嚴重的業務或服務中斷。涉及服務或操作的中斷。其中包括一些財務損失、違規行為,聲譽損害和可能的安全問題,客戶損失是可能的。

  • 5級是關鍵業務或任務停機,涉及服務或運營的重大破壞。可能存在巨大的財務損失、安全問題、合規性違規、客戶損失和聲譽受損。

當Uptime Institute在三年期間檢查所有公開報告的資料中心中斷(級別1到5)時,IT系統和網路問題超出了電源作為主要原因(見圖)。

網路問題導致更多的資料中心中斷

當比較逐年的原因時,這種趨勢尤其明顯。2017年,28%的停電事故的罪魁禍首是電力。在接下來的一年中,僅有11%的斷電被列為主要原因。與IT系統相關的故障保持相當一致; 在2017年和2018年分別有32%和35%的故障是由它們引起的。網路中斷的主要原因顯著增加:2017年19%的網路中斷歸咎於網路,而2018年這一比例為32%。

“這是事物之間的相互聯絡。這就是為什麼網路中斷的大幅增加會導致中斷。”“這些東西不是透過一個或兩個站點連線的,而是透過三個或四個或更多站點連線的。網路在“IT彈性”中扮演著越來越重要的角色。

此外,隨著更多IT資源被移交給服務提供商,並且不再受使用它們的企業直接控制,IT將增加管理和操作複雜性。

深入研究資料中心停機時間

Uptime Institute深入研究了資料中心中斷的具體原因。在網路方面,中斷的常見原因包括:

  • 光纖在資料中心外部切斷,路由選擇不足。

  • 主交換機間歇性故障,未部署輔助路由器。

  • 主交換機故障,沒有備份。

  • 維護期間的流量配置不正確。

  • 路由器和軟體定義的網路配置錯誤。

  • 對非備份單個元件(如交換機和路由器)斷電。

錯誤配置的路由器和軟體定義的網路是“常見的網路問題。他們應該透過測試檢測到。”Traver說。

Traver說,當談到光纖切割時,公司往往不知道他們有單點故障。他們可能有兩個獨立的供應商,但他們不知道,光纖在同一個溝渠中執行。他們沒有做出適當的盡職調查來確定這一點。

當IT是罪魁禍首時,列舉的一些原因包括:

  • 管理不善的升級,缺乏軟體級別的測試。

  • 大型磁碟驅動器或儲存區域網路的故障和後續資料損壞。這可能是由硬體故障引起的,由於配置或程式設計錯誤而加劇。

  • 負載平衡或流量管理系統中的同步或程式設計錯誤失敗。

  • 錯誤程式設計的故障/同步或災難恢復系統。

  • 對沒有備份的單個元件(例如伺服器或大型磁碟驅動器)斷電。

談到負載均衡/流量管理問題,Lawrence表示,當公司嘗試更廣泛地分發IT資源時,可能會出現程式設計錯誤和同步問題。“減少對單一網站的依賴通常是更廣泛戰略的一部分; 就像你擠壓氣球一樣,問題突然出現在其他地方。”

Traver補充說,當公司“沒有真正規劃所有平臺的應用程式和資料,或者他們沒有經常測試它們時,就會出現問題”。

當電源成為主要問題時,一些主要的停電原因包括:

  • 雷擊,導致斷電。備份軟體/配置失敗。

  • 轉換開關出現間歇性故障,導致無法啟動發電機,或轉移到第二個資料中心。

  • UPS故障和無法轉移到二級系統。

  • 操作錯誤,關閉或配置錯誤。

  • 公用電力損失以及發電機或UPS的後續故障。

  • 電湧引起的IT裝置損壞。

這些都是資料中心的工程師們幾十年來一直在努力解決的問題——如何圍繞這些問題進行設計,如何用他們的設計減輕壓力。

Traver說,總的來說,公司需要更加關注資料中心的彈性。“瞭解您的系統是如何設計的。完全理解 - 所有相互依賴。並且也知道它是如何失敗的,併為失敗做好計劃。這是我認為缺少的那塊。”他說。

“裝置越來越好,管理越來越好,經驗越來越豐富。它正在成為一個更成熟的行業。”Lawrence總結道,“但即便如此,斷電仍然是一個非常重要和昂貴的問題。”

來自 “ https://www.networkworld.com/article/3373646/netwo ”,原文連結:http://blog.itpub.net/31545813/viewspace-2638938/,如需轉載,請註明出處,否則將追究法律責任。

相關文章