維大殺器來了,未來雲上伺服器或將實現無人值守
雲原生時代下,企業的IT運維面臨架構複雜化、業務需求多樣化和運維資料海量化等挑戰,如何能夠實現精準告警、異常智慧診斷、根因定位、異常預測和異常自動修復,已成為企業數字化轉型的急迫需求。
9月26日,阿里巴巴高階技術專家滕聖波在《GOPS全球運維大會》上發表了題為《雲上伺服器無人值守與自助服務實戰》的主題演講,分享了阿里雲彈性計算團隊如何利用人工智慧技術賦能運維自動化,實現雲上伺服器無人值守,幫助使用者降低雲伺服器例項管理的複雜性,來保障例項服務的穩定和高效執行。本文根據滕聖波的演講整理。
圖:阿里巴巴高階技術專家滕聖波
本文內容架構:
1、雲上伺服器為什麼需要無人值守?
2、阿里雲無人值守的自服務實戰
3、無人值守背後的資料和AI
1、雲上伺服器為什麼需要無人值守?
運維是一種服務,既包含基礎設施軟體服務、也包含人力服務,服務的物件是企業中使用基礎設施的業務團隊,而云計算IaaS是一種運維服務,服務的物件已發展為使用雲服務的開發人員和運維團隊。隨著雲端計算的廣泛落地,大部分企業已經上雲,當前就有100萬多家使用者的業務執行在阿里雲平臺上,阿里雲平臺服務的使用者也越來越多。
隨著平臺使用者規模的擴大,我們發現平臺使用者在ECS例項運維時普遍面臨三個痛點:
(1)背景溝通成本高,為什麼我的例項出問題了?
(2)人工處理需要較長的時間,為什麼這個問題這麼久還沒有解決?
(3)客戶操作不透明,問題看起來修復了,可是剛剛你做了什麼?
為此,我們需要重人力投入在客服人員上讓使用者的問題得以高效解決。為了避免使用者規模擴大帶來的客戶側運維成本的線性上升,我們開始利用人工智慧技術賦能使用者運維管理。在無人零售、無人駕駛成為趨勢的時候,我們認為未來雲上伺服器也將實現無人值守。
事實上,阿里雲彈性計算產品推出十年了,沉澱了眾多ECS例項運維管理經驗和異常“行為”規律。所以依託機器學習的資料驅動,我們通過異常“行為”資料的分析,構建了一套雲上伺服器的無人值守架構,並推出了一系列自助服務,實現了ECS例項的自診斷、自修復、自優化、自運維,幫助使用者降低ECS例項管理的複雜性,從而來保障例項服務的穩定和高效執行。
2、無人值守的自服務實戰
雲端計算IaaS的運維工作可以拆分為服務側運維和客戶側運維,服務側運維是雲平臺的運維工作,通常對使用者不可見的,主要涉及基礎設施、基礎產品和上層管控三個層面,包括機房、物理裝置的運維工作、資源虛擬化、資源排程、熱遷移等工作。隨著使用者規模的擴大,這些運維工作會越來越複雜。而使用者側運維工作,是對使用者自己可見的,主要是使用者對ECS例項的修改操作和自動化工作,包括擴容、重啟、監控、客服服務、工單反應、資源編排和運維編排等。
我們構建的雲上伺服器的無人值守架構,為阿里雲平臺使用者提供了一系列的自助服務。廣義上看,阿里雲的自助服務囊括了ECS例項本身、例項生命週期管理、系統管理和自動化、市場和生態四個維度,如下圖。
圖:廣義上的自助服務
狹義上來說,阿里雲自助服務為使用者實現了ECS例項的診斷、修復和推薦的功能。當天,阿里雲自助服務已提供例項診斷工具、例項優化推薦、自動修復工具、最佳模板推薦和ECS事件自動化等一系列自助服務工具,覆蓋了80% ECS常見問題,將問題解決的平均週期從幾小時縮短至分鐘級,整個過程無需客服人工參與,無隱私洩漏風險,做到了雲上伺服器的無人值守。未來隨著AI+資料的不斷驅動,ECS例項的診斷和修復將會越來越精準。
ECS例項的智慧診斷
根據平臺的資料統計,使用者在使用ECS例項時主要面臨四大類問題:
(1)例項無法遠端訪問
(2)例項無法啟動/停止
(3)例項效能異常
(4)磁碟擴容未生效
所以,在智慧診斷的能力上,我們覆蓋了ECS系統服務、磁碟健康服務、網路健康服務和Guest OS系統配置等維度,使用者一鍵即可完成例項的智慧健康診斷。
ECS例項的自動化修復
在智慧診斷完成後,我們還會為使用者提供ECS例項自動化修復方案,在前者定位問題所在之後,自動化修復能夠在1-3分鐘內解決問題,主要完成ECS系統服務修復、網路問題修復和磁碟修復。
僅僅實現自動化修復是不夠的,我們認為自動化修復還應該是透明合規的。我們通過運維編排服務OOS提供自動化引擎,通過雲助手命令提供GuestOS內的執行能力,運維編排服務OOS+雲助手命令共同幫助使用者完成自動化修復;同時,我們開源了運維編排服務OOS+雲助手命令的程式碼,做到一切修復邏輯對使用者可見;一切修復操作還可以通過ECS例項的映象、快照和資料備份實現回滾;通過阿里雲RAM角色控制實現一切許可權可控,通過阿里雲操作審計ActionTrail實現一切記錄可審計,做到了真正的透明合規。
3、無人值守背後的AI與資料能力
讓我們實現智慧診斷和自動化修復的,是冰山下強大的技術支撐——AI+資料。依託底層的資料中臺,我們完成了包括物理機資料、虛擬化資料、網路資料、控制面資料和GuestOS內資料等資料的採集、清洗、分析和模型的構建;加上AI演算法的不斷調優,我們搭建了使用者畫像、決策樹、預測和推薦模型等,從而保證異常診斷和自動修復越加的精準和高效。
當前,在整體的ECS自助服務架構中,主要依靠管控監控中心實時監測日誌服務、中介軟體監控、API請求監控以及控制檯監控和自助診斷的資料,通過機器學習引擎實現問題預警和處理,進而驅動運維編排服務OOS實現自動化修復問題。
通過這套AI驅動的自服務架構,當前阿里雲ECS實時記憶體異常感知準確率在70%以上,實施預測鏈路延時則控制在100s以內;另外融合專家經驗、案例庫和知識庫,我們構建了一個強大的診斷決策樹,為加快問題的定位和修復提供了強有力的依據。
近兩年,阿里雲彈性計算團隊持續不斷地投入構建異常行為資料集,未來計劃將其演進成為阿里巴巴集團在異常預測上的“ImageNet 資料集”並進行開源,希望能為異常預測在業內的發展貢獻更大的價值。
原文連結
本文為阿里雲原創內容,未經允許不得轉載。
相關文章
- 停車機器人上崗 實現停車場無人值守機器人
- 搭建 Cobbler 無人值守安裝伺服器伺服器
- 透過自動化運維實現無人值守的故障自愈運維
- 京東雲“殺”出來了
- 幽默:無伺服器EJB又回來了伺服器
- 按鍵大師:用Python實現無人值守的自動化操作Python
- 劉強東宣佈: 未來京東將減員50%,每天工作3小時!無人公司來了……
- 無人值守的運維到底靠譜不靠譜?運維
- 未來,人類將何去何從?
- 無人機、無人車與機器人,未來誰更適合當快遞員?無人機機器人
- 雲伺服器的概念(雲伺服器年度最低價來了,就要抓住雙11)伺服器
- IO Interactive 與《殺手》系列的未來走向將會如何?
- 運維轉型之路 —手工運維到無人值守的自動化運維,從根本實現降本增效運維
- 厲害了!5G 將在未來實現的五大進步!!!
- 雲棲大會來了!邀你現場探祕“未來智慧辦公室”【文末免費領票】
- 隔空充電來了!或將帶來一場充電革命
- 六大「未來式」儲存器,誰將脫穎而出?
- 無人值守智慧洗車
- 地磅無人值守系統
- 雲原生=未來?
- 搜狗瀏覽器論壇釋出下線通告 現任CEO王小川未來或將離任瀏覽器
- 亞馬遜雲科技re:Invent迎來十週年 計算、物聯網、5G、無伺服器等雲產業未來技術悉數上新亞馬遜伺服器產業
- 架構思維實現promise,大爺,來瞅瞅架構Promise
- 全球第一個機器人配送站來了,無人配送真的可行嗎?機器人
- Serverless Kubernetes:理想,現實與未來Server
- 無人直播雲蹦迪虛擬線上娛樂真能“蹦”起來
- 社群運營的春天來了!企業微信上線入群二維碼或將讓互通群無限裂變
- 馬麗麗:雲資料庫發展的未來 - 無伺服器資料庫 Amazon Aurora Serverless解析資料庫伺服器Server
- 未來雲端計算市場將重新洗牌 - erikbern
- 報告:未來十年或將塑造航空運輸業的12大主要趨勢
- 世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了機器人
- 伺服器出現了一個新軟體,一幫大佬吵起來了!伺服器
- Java實現圖片上傳到伺服器,並把上傳的圖片讀取出來Java伺服器
- 未來50%的工作會被機器人替代?機器人
- 朋友或敵人:五個問題概述人工智慧的未來人工智慧
- 人氣爆棚!雲端未來ARM叢集伺服器出展第24屆高交會倍受矚目伺服器
- 無人車、無人機、超級高鐵、智慧城市......這是一份來自未來的出行報告無人機
- 虛擬主播上線:多模態將改變人機互動的未來