無人值守的運維到底靠譜不靠譜?

技術瑣話發表於2018-12-27

無人值守的運維到底靠譜不靠譜?

本文根據2018 GOPS·深圳站裴丹博士演講《AIOps 在傳統行業的落地探索》整理

分享:裴丹
編輯:白凡

無人值守的運維到底靠譜不靠譜?

講師介紹:裴丹博士是清華大學長聘副教授,國家青年千人。從20年前開始做運維相關工作,從分散式系統一直做到路由、運營商、wifi、網際網路、企業級,最近有很大的精力在傳統行業 ( 特別是金融業)智慧運維上。裴博士AIOps相關領域發表100餘篇學術論文。部分工作還被美國MIT Technology Review進行了報導。

1、運維行業當前發展和前景

無人值守的運維到底靠譜不靠譜?

運維無處不在,未來所有的服務全都會跑在軟硬體系統中,因此市場規模巨大。我之前在其它場合分享過《基於機器學習的智慧運維》、《AIOps中的科研問題》、《落地生根:AIOps落地路線圖》。這次主要是跟大家解答傳統行業落地AIOps過程中遇到的一些困惑。

無人值守的運維到底靠譜不靠譜?

這些困惑是我在半年多來跟很多合作伙伴交流的過程中遇到並總結出來的。這些行業包括金融、能源、電信、工業製造、智慧城市等。

無人值守的運維到底靠譜不靠譜?

今天主要是以金融業為例來講傳統行業AIOps的落地探索。先總結一下金融業AIOps的現狀:AIOps的概念還有很多不清晰之處;對如何落地AIOps還有很多困惑;不少金融機構已經在AIOps方面立項了;大部分的金融機構正在構建一個運維大資料平臺;部分金融機構從自身痛點出發嘗試AIOps;不少金融機構希望把AIOps作為響應國家AI戰略的試驗田。基於對以上現狀的觀察,我的結論是2018年將是金融業和傳統行業嘗試AIOps的元年。


2、AIOps概述及價值

無人值守的運維到底靠譜不靠譜?

金融業發生的一些故障,比如說銀行轉帳異常、銀行網銀卡錢,客戶無法登入銀行帳戶,支付寶無法登入等等。運維故障無法完全避免,重點是快速應對,不以發生故障為恥,以快速修復為榮。

無人值守的運維到底靠譜不靠譜?

為什麼說運維故障難以完全避免呢?運維現在面臨的接入網路、資料中心網路、軟體模組之間呼叫關係都是非常龐大、非常複雜的, 而且還在不斷地發生變化。 觸發運維事件的觸因 (軟硬體故障、軟體變更、使用者請求變化、惡意攻擊等等)無時無刻不在發生。所以運維工作不可能好做。

無人值守的運維到底靠譜不靠譜?

無人值守的運維到底靠譜不靠譜?

因此,運維人現在基本上是處於“水深火熱”之中,7×24小時在救火,壓力很大。人少事兒多,救火、高壓、背鍋、如履薄冰、幸福指數低,不知道下一秒會發生什麼,睡不了安穩覺,起夜率高,腦袋別在褲腰帶上。

無人值守的運維到底靠譜不靠譜?

為什麼會這樣呢?這是因為,面對目前海量的運維監控資料,如果還用傳統的方法已經是難以為繼了。我們面臨的任務往往是時效性非常強壓力非常大的任務,如故障止損,人工決策往往需要小時級的時間。 根本原因是人是不擅於在短時間內處理海量資料做出實時準確的決策的。 怎麼辦呢?只能透過AI來解決,只有這一條路,沒有別的辦法。而AIOps會給運維人員帶來革命性的影響。

無人值守的運維到底靠譜不靠譜?

它到底是做什麼的呢?就是用AI代替緩慢易錯的人力決策部分,快速給出決策,或者提前規避故障。

無人值守的運維到底靠譜不靠譜?

再給一些相對詳細一點的定義。 首先AIOps的生態系統分為:眼、腦、心、手。我這邊的主要根據是研究“腦”這部分,也就是AIOps的“CPU”。“心”是運維專家設定的整個系統的目標,比如整個運維繫統達到”穩、省、快“的效果。

“眼”是運維大資料平臺。運維事件的觸因(故障、變更、使用者行為變化、攻擊)都會反映在監控資料裡, 而這些運維監控資料都被彙總在“腦”中集中處理,由AI快速決策,並有由“腦”給“手”(運維自動化系統)給出執行指令。最後這個指令傳送到運維自動化系統裡面,進行止損、修復、規避。

無人值守的運維到底靠譜不靠譜?

透過“心腦眼手”四位一體地協作, AIOps能為業務帶來“穩、省、快”的價值,極大提升運維生產力。

那AIOps發展到後來的的終極形態是什麼?我認為是Autonomous IT Operations,無人值守運維。

無人值守的運維到底靠譜不靠譜?

最近看了一部電影《異形:契約》,契約號飛船搭載著冬眠中的2000名乘客和15名船員,飛往一個遙遠的星球,行程幾十年,只有一個機器人船員。幾十年的行程沒有一個人醒著,中間會遇到各種各樣的問題,無數的軟硬體執行的問題都被無人運維自動解決。2000人的生命在幾十年時間裡完全交給無人值守運維。

無人值守運維有可能嗎?還是有可能的。我們看一下系統發生變化的觸因。軟硬體故障我們可以透過故障自愈來處理;軟體變更可以透過無人值守變更來處理;使用者請求變化的時候可以透過自動擴縮容來處理;有惡意攻擊時可以透過自動防禦來處理。上面的每個技術都有技術人員在嘗試了,我們只需要鍥而不捨的堅持下去。無人值守運維也許乍一聽起來像天方夜譚,但是幾年前聽起來像天方夜譚的無人車已經在逐漸變為現實了,為什麼無人值守運維不可以最終變為現實呢?

無人值守的運維到底靠譜不靠譜?

引用比爾蓋茲說的一句話:人們總是高估未來一到兩年的變化,低估未來十年的變革。因此我們不要因為一兩年AIOps沒有飛速落地就覺得AIOps就會半途而廢,而是把眼光放到十年、二十年的尺度來看AIOps的發展。我個人最近已經做出決定要all in 到AIOps這個方向,準備退休前就做這個方向了。如果到20年之後退休的時候還沒做成,我就再工作20年的時間把它做成。


3、金融業AIOps落地方向及應用示例

無人值守的運維到底靠譜不靠譜?

下面講講我認為在金融業落地AIOps可行的落地方向和應用示例。

首先講一下落地AIOps的理想條件。首先是要有痛點,有原動力,不能為了做AI而做AI;其次是運維大資料平臺基本建立;有基礎的運維自動化工具;不管做哪個場景,要可以量化評估效果,這樣才知道到底AIOps有沒有起到作用。

無人值守的運維到底靠譜不靠譜?

要確定嘗試哪些具體場景式可以這麼選:希望短期內能見效的,最好在該方向要有一些科研論文並有開箱即用的演算法產品;如果想一年內能見效,那麼最好要有科研論文,也許尚無開箱即用的演算法產品;如果想探索前沿,可以透過設立科研專案的方式來探索。下面列舉清華NetMan的AIOps實驗室科研成果的產品化程度,供大家落地AIOps依照上述標準來選擇具體落地方向。 這些方向包含AIOps最常見的場景:故障發現、故障止損、故障修復、故障規避,不同顏色表示不同產品化程度。

無人值守的運維到底靠譜不靠譜?

那麼具體什麼叫“開箱即用”呢?就是要用高效分散式的系統把某一具體演算法實現出來,透過流式資料處理得出實時決策結果。在下圖中,輸入是運維大資料系統(“眼”),輸出是運維自動化系統(“手”)。

無人值守的運維到底靠譜不靠譜?

下面透過一個影片演示,給出一個開箱即用的產品(異常檢測和異常定位)的形態。首先異常檢測系統,面對形態各異的KPI曲線,如下圖中的三種不同的業務曲線,不管它長成什麼樣的,只需把一定時間的歷史資料匯入,不用調節任何引數就能做自動對該KPI曲線進行異常檢測。這個異常檢測系統還能自動處理資料缺失,不需要人工干預就自動避免缺失數對異常檢測結果的影響

無人值守的運維到底靠譜不靠譜?

該異常檢測系統同時還能自動檢測CPU、資料庫、記憶體等機器指標的異常。比如說在很多系統裡面有跑批次業務,每天都執行,但是執行時間會有偏移,這對一般的異常檢測系統都有較大的挑戰,會對CPU、記憶體產生誤報或漏報。但是我們這個系統自動就能處理。在另一種情況下,如果某一天,該進行的跑批業務沒有跑,我們的系統也能自動報出來,提醒運維人員注意。

無人值守的運維到底靠譜不靠譜?綜合敏感度調節:上述異常檢測功能肯定無法透過樸素方法達到,需要採用較為複雜的方法。我們努力做到了系統啟動時就針對具體KPI曲線自動調參。如果萬一運維人員對異常程度有不同的敏感度,我們還提供瞭如下兩種方式來調節。第一種方式就是直接拖動捲軸來調節敏感度,從而下圖中綠色箭頭部分不再被檢測為異常。

無人值守的運維到底靠譜不靠譜?第二種調節敏感度的方式更直觀:透過對異常檢測結果進行反饋,系統自動根據反饋結果來調節異常檢測演算法引數。為了減少反饋開銷,系統能夠自動搜尋整條曲線中與標註出的異常區間類似的多個區間。從而運維人員可以一次性標度多個區間,大幅降低標註開銷。

無人值守的運維到底靠譜不靠譜?

異常定位。異常檢測之後,下一步要做異常定位,要知道異常發生在哪兒,從而快速止損。 比如當業務指標,即交易響應時間和交易失敗數發生了變化,在螢幕的右上角就顯示有一個紅點,表示它已經檢測出異常了。點一下紅點它會告訴你定位出的異常是什麼。具體而言是三臺機器出了問題,反映在5個指標上,每一種指標都發生了一些突變。也就是說,當業務出現問題的時候,系統自動定位除了異常所在的計算資源及其異常的指標。我們的目標就是希望透過一個螢幕、一個頁面把最有價值的資訊都集中在一起,讓我們的運維能夠更好做。

無人值守的運維到底靠譜不靠譜?

4、金融業對AIOps落地的十大困惑

上面給出了一些AIOps在金融業的落地方向以及應用示例。下面針對來自金融業對落地AIOps的常見困惑給出我的解答。

無人值守的運維到底靠譜不靠譜?

1、到底什麼是AIOps?。我們想把AIOps作為落地AI的抓手,會不會有些宣稱AIOps的產品並沒有用到AI。如何甄別真假AIOps? 我這裡給出如圖所示的標準。

無人值守的運維到底靠譜不靠譜?

2、現在嘗試AIOps會不會太早,會不會成為小白鼠?事實證明現在已經有不少機構已經在立項嘗試了,所以已經不早了。這邊是創新技術的一個傳播曲線,大家可以根據自己公司的定位和自己部門的定位,在這裡面找到自己的位置。

無人值守的運維到底靠譜不靠譜?

3、有很多網際網路公司現在有了AIOps的案例,是不是說網際網路的案例並不適用於傳統行業呢?真相是好的演算法可以是普適的(如我們的異常檢測演算法),所以要具體問題具體分析。

無人值守的運維到底靠譜不靠譜?

4、是不是說一定要先做一下整體的頂層設計才開始落地呢?要不然把路走歪了怎麼辦,能不能現在設計出來,5年領先,10年不落伍?但是好的頂層設計肯定是需要經驗豐富的AIOps人才,但是不存在這樣的人才。那麼做什麼能夠有把握肯定錯不了呢?把資料標準化、自動化做好,接好大資料平臺,準備好算力,從相對成熟的AIOps演算法切入,組建AIOps團隊並逐漸培養AIOps人才。這是AI應用的普遍規律,同樣適用於AIOps。

無人值守的運維到底靠譜不靠譜?

5、現在的資料不太全,等資料採集完整了再說。其實真相是不同的AIOps場景對資料的要求是不一樣的,只有不斷探索才真正知道什麼叫做完整,否則你都不知道你缺的是什麼,所以你根據目前自身的資料情況,選擇一些合適的AIOps方向來落地。

無人值守的運維到底靠譜不靠譜?

不如之前演示的異常定位,只需要你的業務指標的監控,比如說你的總的交易量、伺服器的資料、記憶體的資料,這些在大多數金融機構已經有了,因此這種場景就能落地了。此外可以透過不斷地嘗試落地各種場景才能發現你真正缺的是什麼,然後再進行完善。

6、能否完全依賴內部的軟體開發人員自己搞一下新的AIOps演算法?其實真相是這樣的:整個AI的發展歷程,它是先有大量的論文,才有落地的實踐,海量的論文可能剩下幾個主流的方法能用。比如說在計算機視覺、語音、NLP方面都是這樣的,因此AIOps也不能突破這個歷程。AIOps系統的研製本質上是科學研究,需要大量的科學實驗才能研製成功。所以每一個演算法在我們的實驗室裡面都需要有專業人才一年以上的潛心研製。所以如果要研製新演算法,建議還是要與專業演算法人才合作,透過合作培養提升自有AIOPs人才。

無人值守的運維到底靠譜不靠譜?

7、開發人員照著論文實現一下已有的AIOps演算法不就行了?真相是論文都是大浪淘沙的,在產品化的過程中往往會帶來新的科研挑戰,需要AIOps演算法人才長期深度的投入。比如說我們產品化異常檢測的時候,經歷了傳統方法、有監督異常檢測、無監督異常檢測、輔助標註、對百萬級曲線進行異常檢測,自動適配曲線鉅變等等。每一步都有一篇發表在學術頂會上的論文,都需要一人年專業AIOps演算法人才的投入,都踩過不少坑。所以開發人員照著一篇已經發表的論文來實現異常檢測的話,這些坑是否都要自己再踩一遍呢,要花多少時間呢?所以建議是與專業的AIOps演算法人才合作產品化。

無人值守的運維到底靠譜不靠譜?下面再就異常檢測給出更多細節。在之前跟百度的一個合作中,我們從KPI中提取出多個特徵,然後要求運維人員給出標註,然後在多維的特徵空間裡面透過隨機森林自動訓練異常檢測器,因此運維人員就不用再自己挑選演算法和引數。

無人值守的運維到底靠譜不靠譜?

但是這個方法的問題是運維人員只對最重要的曲線願意做標註,對於其它曲線不願意做標註。因此在和阿里的合作的一篇新論文中,我們透過完全無監督的方法,用了深度生成模型來做,準確度比之前的更高。

無人值守的運維到底靠譜不靠譜?

上述無監督方法準確率效果很好,但是它有一個小問題,就是它的深度生成模型訓練時開銷量較大。因此我們做了另外一個工作,KPI聚類我們用聚類核訓練深度生成模型,之後把聚類核的模型和引數應用到同一類裡的一千條、兩千條曲線上進行異常檢測。效果也非常不錯,準確率損失很少,但是訓練時間降低了10倍以上。

無人值守的運維到底靠譜不靠譜?

在此引用毛主席《實踐論》中的一段話“實踐、認識、再實踐、再認識,這種形式迴圈往復以至無窮,而實踐和認識紙媒一迴圈的內容,都比較地進到了高一級的程度,這就是辯證唯物論的全部認識論,這就是辯證唯物論的知行統一觀”。做AIOps也是一樣,要不斷地實踐,不斷地認識,不斷迭代,才能真正落地AIOps。

無人值守的運維到底靠譜不靠譜?

8、AI是不是無所不能?能不能用黑盒方法訓練AIOps的演算法?

無人值守的運維到底靠譜不靠譜?

不是這樣的。想透過各種各樣的基礎的機器學習的方法直接訓練出演算法解決運維的場景是不可能的。做AIOps要從系統的角度,把紛紜複雜的運維的場景拆解成不同的演算法模組,而每個模組都是AI擅長解決的問題。因此要做AIOps,需要有一個AIOps的架構師把這個工作做好,否則拆解不好就做不好。

無人值守的運維到底靠譜不靠譜?

無人值守的運維到底靠譜不靠譜?

9、哪個部門做AIOps??應用、系統、網路、資料庫部門感覺很難獨立推動嘗試AIOps。真相:AIOps基於融合的運維大資料,輸出跨部門的決策建議,從已有金融IT人員選拔組建內部AIOps團隊,積極實踐AIOps,接受AIOps正規培訓。

無人值守的運維到底靠譜不靠譜?

10、運維人員接納AIOps,會不會自己丟了工作?一二十年內還不太可能。AIOps可以改善運維人員的工作生活狀態,是難得的轉型AI機會,無人值守運維還需要好多年才能實現,還是要擁抱變化,抓住時代賦予的機遇。

無人值守的運維到底靠譜不靠譜?

5、AIOps未來展望

總結一下,AIOps將為各行各業的運維帶來革命性的影響,其終極形態是無人值守運維。我們演示了故障發現和故障止損等應用示例,並給出了若干近期可落地AIOps場景方向。然後回答了一些傳統行業落地AIOps十大困惑。最後我們也想指出,落地AIOps核心關鍵是AIOps人才的培養,需要傳統行業在內部透過合作、嘗試、探索的方式培養自己的AIOps人才,加速AIOps的落地。2018年將是傳統行業AIOps的元年。

無人值守的運維到底靠譜不靠譜?

最後,我要指出,無人值守運維是持久戰。套用一下毛主席的《論持久戰》的句式:無人值守能實現嗎,答覆是會實現。能夠快速實現嗎?答覆是不能速勝,必須是持久戰。這個結論是正確的嗎?我認為是正確的。

無人值守的運維到底靠譜不靠譜?

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562044/viewspace-2286682/,如需轉載,請註明出處,否則將追究法律責任。

相關文章