隨著資料中心建設的規模不斷擴大，新技術迭代更新，承載資料中心業務的網路變得異常複雜。為了適應資料中心業務的發展，資料中心網路也在不斷更新與變化，給運維工作帶來了極大的難度。資料中心當機事故也難免發生，這不僅增加了資料中心運維人員的工作量，更重要的是給資料中心帶來了巨大的損失，就連全球知名的網際網路巨頭也經常享受這般“待遇”。

網際網路巨頭當機不斷,運維工作成難題

3月3日凌晨，阿里雲出現當機故障，導致購買阿里雲服務的企業網站或網際網路公司APP無法正常使用。一大波程式設計師、運營和運維不得不從被窩裡爬起來幹活。針對阿里雲此次當機，58高階架構師沈劍稱，事故持續了3個小時左右，事後觀察了2個小時。

5月3日凌晨3點43分開始，微軟Azure在全球範圍內出現了大面積當機，整個過程持續了將近2個小時，直到5點30分才完全恢復。受Azure當機影響，包括Microsoft 365，Dynamics和DevOps在內的微軟主要服務均出現使用問題。

6月3日凌晨2點58分開始，谷歌在全球範圍內遭遇了大規模中斷，包括Gmail、YouTube和Google Drive在內基於谷歌雲架構服務的諸多谷歌服務均受到影響。使用者訪問谷歌服務出現各種錯誤提醒，並且阻止使用者訪問電子郵件、上傳YouTube影片等。

6月25日訊息，亞馬遜在官網證實雲端計算服務出現了當機，導致部分網路使用者和多個AWS區域的網路連線受到了影響。出現故障的節點在AWS美東1區，共計33個服務受到影響，其中9個處於完全中斷狀態。

當機事故頻發,運維難度“更上一層樓”一次次當機事件證明了資料中心運維工作的重要性，但似乎不能避免。如今隨著科技的進步萬物互聯時代的到來，資料中心作為重要基礎設施發揮著重要作用，雖然資料中心在國內的發展只有十多年的時間，但已經從只有UPS、空調和IT裝置的普通機房時代，進入到囊括網際網路、大資料、AI、雲服務等全方位服務、動輒擁有數萬機櫃，自然冷、風牆、水下資料中心、液冷伺服器等新技術不斷被創造和應用的新時代。這樣一來，運維管理面臨著更大的挑戰，運維難度也“更上一層樓”。

首先，超大規模的資料中心帶來的人員、組織和效率的變化。以前萬平米以內的資料中心，人工巡檢一次2-4小時，現在數十萬平米，需要更多的運維人員分佈在不同的責任區，增加了管理的難度和成本;其次，電壓等級提高，安全風險增加。以往運維人員接觸的是低壓，現在供電裝置、發電機、冷機都是高壓供電，維護安全要求提升;此外，規模集中，導致風險集中，事故影響更大。例如上文中談到的資料中心當機事故，導致全球大面積的服務和應用中斷，損失慘重，因此運維管理的壓力超前。

減少人為失誤,提升運維管理的專業技能據資料調查顯示，資料中心的當機事故70%是由人為失誤造成的，因此在資料中心規模不斷擴大的同時，運維人員要透過提升自身的技能和專業水平以應對資料中心意外事件的發生：建立一套完備的人員技能評價體系，從多方面考核運維人員技能能力，能夠有效幫助運維人員提高運維技能，促進運維人員主動學習自動提升。運維經驗線上學習，建立運維經驗庫，實現線上運維經驗共享交流平臺，提供運維知識線上實習和學習的渠道。實操環境線上模擬，提供運維模擬實踐操作環境，有效隔離操作風險，幫助快速提高運維實際水平。理論技能線上評測，依託海量IT雲平臺元件題庫，定期考核，隨機出題，實現運維理論能力的線上實時自動測評。實操技能線上測評，構建輕量化線上運維操作、線上程式設計環境，實現運維操作技能與研發技能的線上實時自動評測。

透過自動評測提升效率，實現運維理論技能與實操技能的線上科學自動評測，提高評測效率，確保能力客觀公正的體現。彌補人工運維不足,智慧運維應運而生如今，數字化時代已經到來，資料中心規模和容量都在成倍增長，隨之而來的運維管理複雜度和難度也越來越大，從指令碼運維、工具運維到平臺運維演進至今，人力已接近極限，隨即智慧運維應運而生。如今更多的資料中心企業諸如騰訊、華為、京東等開始加大研發力度投入到智慧運維的浪潮中來，將人工智慧與運維結合，基於已有運維資料(日誌、監控資訊、應用資訊等)，透過機器學習的方法來提升運維效率，從而逐步取代人工的運維。相信未來資料中心將會越來越智慧化。

運維難度“更上一層樓”——不存在的

相關文章