DevOps升級&AIOps落地,看看這些大廠都是怎麼做的?

資料庫頻道發表於2018-10-22

現有應用場景的不斷變化使得技術的更迭越來越快,不久之前,人們還在科普DevOps是什麼,但是如今DevOps已有英雄遲暮、日薄西山的跡象,AIOps正以蓬勃之勢邁入大眾視野。如何才能從DevOps走向AIOps?也許,這篇文章可以給你答案!

2018年10月17日—19日在北京海淀永泰福朋喜來登酒店舉行的第十屆中國系統架構師大會,專門設定了《基礎架構運維:從DevOps到AIOps》專場演講。該專場分為上午和下午共兩場演講,本文,我們先來看看上午場中的宜信、京東數科、阿里巴巴、去哪兒網,他們都是如何實踐的?

謝知求:宜信全維度監控與應用運維平臺及開源賦能

宜信技術研發中心自主研發了一套智慧化服務技術棧——UAVStack。為什麼會取名叫UAV呢?宜信技術研發中心架構師謝知求解釋說,UAV是無人機的縮寫,寓意無人機翱翔藍天,智慧的、透明的完成任務。

據悉,UAVStack的設計思想採用了“微智慧”,功能包括全維監控(UAV.Monitor),應用效能管理(UAV.APM),使用者體驗管理(UAV.UEM),容器化支援(UAV.Container) ,服務治(UAV.ServiceGovern),任務機器人(HIT)等。

針對智慧運維AIOps,謝知求表示可以分為3步走,全維監控、全維關聯和全維智慧。

第一步全維監控,透過統一採集體系,完成指標(Metrics)、呼叫鏈(Tracing)、日誌(Logging)這三大類監控資料的採集,保證了資料的時效、對齊和品控。

第二步全維關聯,全維關聯透過採集系統、應用和服務的現實描述以及它們的關聯關係,結合知識圖譜技術,實現系統對現實的增強感知,這種資料也叫畫像資料(Profiling),進而利用畫像資料實現對指標、呼叫鏈、日誌等監控資料的實時關聯。

第三步全維智慧,引入智慧任務機器人,用機器取代人去做決策。在這一階段,一方面透過對接大資料平臺實現對機器學習模型的訓練,同時將知識圖譜和機器學習模型轉化成可插拔式的服務,以實現對任務機器人“決策能力”的持續交付。

董璐:京東數科DevOps落地攻略

傑克· 韋爾奇曾說過,“如果外界的變化率超過了內部的變化率,那末日就不遠了。”也正是受此啟發,京東數科開始推進DevOps。京東數科持續整合平臺研發負責人董璐表示,透過推進DevOps,他們想要達到減、加、降、升的效果。

其中,“減”指的是減少溝通成本,落實文字,線上管理;“加”指的是增加質量把控

除QA外,增加單元測試、程式碼掃描等;“降”指的是降低研發風險,制定規則,驗證、告警;“升”指的是提升自動化水平,包括構建、校驗、掃描、採集、統計等操作。

京東數科DevOps的演變落地共經歷了三個階段,分別是工具化、平臺化和一體化。工具化階段,讓複雜又重複的工作變得簡單;平臺化階段,將工具組裝到一起,變的更強大;一體化階段,把各個部件組合到一體,協作起來。對於下一步的發展目標,董璐也給出了明確的答案那就是生態化,內聚力量,外聯資源,多點賦能。

柯旻:阿里巴巴大資料智慧運維實踐

如果要論網際網路公司的技術實力,那麼阿里就不得不提。隨著公司的不斷髮展,規模的飛速增長,阿里運維體系也在不斷演進變化。

運維1.0時代是元件監控模式,透過指令碼代替手工運維模式;運維2.0時代是流程化運維模式,透過標準化規範化,把元件監控與運維流程相結合,批次自動化運維;運維3.0時代是平臺化運維模式,進一步固化運維常見場景,實現一體化監控,提升端到端運維能力,對運維服務集中化管理。運維4.0時代是智慧、資料化運維模式,高度自動化,精細化,精準化,透過大資料機器學習等技術以提供智慧分析決策,運維能力服務化。

在從DevOps走向AIOps的過程中,必須還要經歷一個DataOps的階段。在大會上,阿里巴巴大資料資深技術專家柯旻向我們展示了資料化運維的相關案例,例如全鏈路分析診斷、硬體自愈、聚類異常檢測、聚類尋優、運籌最佳化。

肖雙:百萬級報警平臺的架構設計與實現

監控是每個公司基礎架構中不可缺少的一部分,如何構建適用於公司不同階段不同需求的監控系統需要技術團隊不停的探索和嘗試。在這個主題中,去哪兒網高階運維開發肖雙以去哪兒網百萬級監控報警設計與實現為核心,和我們分享了他們Ops團隊在建設監控系統期間遇到的問題和解決的方法。

2014年的時候, 去哪兒網開始自主調研開發適合自己的監控系統,並逐漸研發成功,成為了現在使用的watcher。Watcher 是基於開源專案Graphite+Grafana深度開發, 支援主機基礎監控報警和業務監控報警,提供統一的管理展示介面,報警監控都可以在統一的介面上檢視和配置。

目前watcher在去哪兒網應用量級大概是監控的應用有1500+,指標量四千萬+,每週的報警量百萬+。相比於之前的監控系統來說,watcher具備以下特點:使用者可以自定義報警以及自定義個性化報警;自定義報警級別,還有值班排班,當前我們規定了P1-P4 四種級別;樹形結構的指標和檢視展示,一個目錄樹結構對於組織架構和對指標和檢視上的管理都是非常清晰和方便的;橫向擴充套件能力強,資料高可用。

想要第一時間瞭解大會更多精彩資訊,歡迎訪問大會專題: http://zt.it168.com/topic/sacc2018/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545814/viewspace-2217163/,如需轉載,請註明出處,否則將追究法律責任。

相關文章