運維難度“更上一層樓”——不存在的
隨著資料中心建設的規模不斷擴大,新技術迭代更新,承載資料中心業務的網路變得異常複雜。為了適應資料中心業務的發展,資料中心網路也在不斷更新與變化,給運維工作帶來了極大的難度。資料中心當機事故也難免發生,這不僅增加了資料中心運維人員的工作量,更重要的是給資料中心帶來了巨大的損失,就連全球知名的網際網路巨頭也經常享受這般“待遇”。
網際網路巨頭當機不斷,運維工作成難題
3月3日凌晨,阿里雲出現當機故障,導致購買阿里雲服務的企業網站或網際網路公司APP無法正常使用。一大波程式設計師、運營和運維不得不從被窩裡爬起來幹活。針對阿里雲此次當機,58高階架構師沈劍稱,事故持續了3個小時左右,事後觀察了2個小時。
5月3日凌晨3點43分開始,微軟Azure在全球範圍內出現了大面積當機,整個過程持續了將近2個小時,直到5點30分才完全恢復。受Azure當機影響,包括Microsoft 365,Dynamics和DevOps在內的微軟主要服務均出現使用問題。
6月3日凌晨2點58分開始,谷歌在全球範圍內遭遇了大規模中斷,包括Gmail、YouTube和Google Drive在內基於谷歌雲架構服務的諸多谷歌服務均受到影響。使用者訪問谷歌服務出現各種錯誤提醒,並且阻止使用者訪問電子郵件、上傳YouTube影片等。
6月25日訊息,亞馬遜在官網證實雲端計算服務出現了當機,導致部分網路使用者和多個AWS區域的網路連線受到了影響。出現故障的節點在AWS美東1區,共計33個服務受到影響,其中9個處於完全中斷狀態。
當機事故頻發,運維難度“更上一層樓”一次次當機事件證明了資料中心運維工作的重要性,但似乎不能避免。如今隨著科技的進步萬物互聯時代的到來,資料中心作為重要基礎設施發揮著重要作用,雖然資料中心在國內的發展只有十多年的時間,但已經從只有UPS、空調和IT裝置的普通機房時代,進入到囊括網際網路、大資料、AI、雲服務等全方位服務、動輒擁有數萬機櫃,自然冷、風牆、水下資料中心、液冷伺服器等新技術不斷被創造和應用的新時代。這樣一來,運維管理面臨著更大的挑戰,運維難度也“更上一層樓”。
首先,超大規模的資料中心帶來的人員、組織和效率的變化。以前萬平米以內的資料中心,人工巡檢一次2-4小時,現在數十萬平米,需要更多的運維人員分佈在不同的責任區,增加了管理的難度和成本;其次,電壓等級提高,安全風險增加。以往運維人員接觸的是低壓,現在供電裝置、發電機、冷機都是高壓供電,維護安全要求提升;此外,規模集中,導致風險集中,事故影響更大。例如上文中談到的資料中心當機事故,導致全球大面積的服務和應用中斷,損失慘重,因此運維管理的壓力超前。
減少人為失誤,提升運維管理的專業技能據資料調查顯示,資料中心的當機事故70%是由人為失誤造成的,因此在資料中心規模不斷擴大的同時,運維人員要透過提升自身的技能和專業水平以應對資料中心意外事件的發生:建立一套完備的人員技能評價體系,從多方面考核運維人員技能能力,能夠有效幫助運維人員提高運維技能,促進運維人員主動學習自動提升。運維經驗線上學習,建立運維經驗庫,實現線上運維經驗共享交流平臺,提供運維知識線上實習和學習的渠道。實操環境線上模擬,提供運維模擬實踐操作環境,有效隔離操作風險,幫助快速提高運維實際水平。理論技能線上評測,依託海量IT雲平臺元件題庫,定期考核,隨機出題,實現運維理論能力的線上實時自動測評。實操技能線上測評,構建輕量化線上運維操作、線上程式設計環境,實現運維操作技能與研發技能的線上實時自動評測。
透過自動評測提升效率,實現運維理論技能與實操技能的線上科學自動評測,提高評測效率,確保能力客觀公正的體現。彌補人工運維不足,智慧運維應運而生如今,數字化時代已經到來,資料中心規模和容量都在成倍增長,隨之而來的運維管理複雜度和難度也越來越大,從指令碼運維、工具運維到平臺運維演進至今,人力已接近極限,隨即智慧運維應運而生。如今更多的資料中心企業諸如騰訊、華為、京東等開始加大研發力度投入到智慧運維的浪潮中來,將人工智慧與運維結合,基於已有運維資料(日誌、監控資訊、應用資訊等),透過機器學習的方法來提升運維效率,從而逐步取代人工的運維。相信未來資料中心將會越來越智慧化。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69951811/viewspace-2664779/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 程式設計師如何讓自己的工作更上一層樓程式設計師
- 分散式 SQL 使資料庫更上一層樓 - thenewstack分散式SQL資料庫
- 讓你的Mac閱讀體驗更上一層樓——Bookends for MacMac
- 預設密碼“admin"將被禁止,安全更上一層樓密碼
- 利用Q5讓遊戲應用更上一層樓遊戲
- 瞭解這12個概念,讓你的JavaScript水平更上一層樓JavaScript
- Office 2021:打造專業品質,讓辦公更上一層樓
- 《星露穀物語》製作人:如何讓成功更上一層樓
- ON1 Effects 2023:讓照片特效更上一層樓 mac啟用版特效Mac
- 如何使用kafka增加topic的備份數量,讓業務更上一層樓Kafka
- 學會這12個框架,你的薪資和level能更上一層樓框架
- 更上一層樓: Android 11 首個開發者預覽版到來Android
- “雙龍抬頭”,沙孚智慧零售助力您的財富更上一層樓
- 告別瑣碎工作:資料專案,讓你的職業發展更上一層樓
- 資料保障更上一層樓 紅塔證券與新華三做了這件事
- 疫情下,雲上運維更顯價值運維
- 優思學院|QC七大管理工具,讓你的管理水平更上一層樓
- 運維為什麼要學開發?linux運維學習難不難運維Linux
- 運維為何難操作?怎樣才能高效運維?運維
- 機器學習中的維度災難機器學習
- 成為奧運冠軍很難,成為女奧運冠軍更難。
- 樓梯有n個臺階,上樓可以一步上1階,也可以一步上兩階。一共有多少種上樓的方法?
- 搬磚 1-5年 的 Java 程式設計師,如何讓自己的職業生涯更進一層樓?變得更值錢?Java程式設計師
- 以賽促學、以賽促練 | 綠盟科技助力吉林大學網路安全人才培養更上一層樓
- 40歲還可以轉行做Linux運維嗎?學習難度大嗎?Linux運維
- Linux運維課程學習週期是多久?學習難度大嗎?Linux運維
- 區別於傳統營銷模式,美雲智數使用者雲助力企業營銷發展更上一層樓模式
- Python爬蟲15--爬蟲遇上多執行緒,速度更上一層樓,爬取1000張圖片連一分鐘也不要!Python爬蟲執行緒
- 分層運維自動化監控運維
- 雲上運維案例分享運維
- 如何學習Linux?Linux運維難學嗎?Linux運維
- 運維告警管理困難重重,我是怎麼做到的運維
- 從百度運維實踐談“基於機器學習的智慧運維”運維機器學習
- 基於AOP的一種RecyclerView複雜樓層開發框架,支援元件化,全域性樓層打通,MVP等高擴充性功能View框架元件化MVP
- 運維一款月變更70+次的服務,是一種什麼體驗?運維
- 變電站運維推陳出新?無人值守卻更勝一籌運維
- Linux運維基礎入門難不難?Linux雲端計算入門Linux運維
- 02聚類演算法-相似度距離公式、維度災難聚類演算法公式