百度雲企業級運維平臺——NoahEE

AIOps智慧運維發表於2018-10-12

640?wx_fmt=gif

作者簡介

Masquerader  百度雲智慧運維專案經理

640?wx_fmt=png

負責百度雲企業級運維平臺(NoahEE)專案,探索運維知識庫、AIOps等前沿運維技術,致力於分析使用者需求、規劃與設計產品並驅動團隊將內部技術形成產品,最終在客戶環境落地。


文章概覽

過去的文章為大家介紹了百度雲智慧運維的方方面面,從監控、部署等傳統的運維技術到智慧異常檢測、故障自愈等智慧運維技術,這些運維基礎能力和黑科技,是十年來百度工程師對技術孜孜不倦求索的結果,也見證了百度運維十年間的創新曆程。很多同學在看了這些文章後,都在想如何把這些領先的運維技術與理念用到自己的工作中,但苦於建設運維平臺不是一蹴而就的,成本也讓人望而卻步,於是不少同學都在希望我們能夠有一個產品的形式輸出這些技術,方便將這些前沿技術運用到自己的工作環境中。

在分析了各行業的運維場景與需求,結合百度歷年來運維的經驗與技術沉澱,並經過運維團隊的精心打磨後,今天我們可以很驕傲的給大家呈現這個百度的運維產品企業版 – NoahEE

在介紹NoahEE之前,有必要說一下百度內部的統一自動化運維平臺Noah。Noah來源於聖經中“諾亞方舟”的故事,我們用這個名字來寓意能夠避免災難,穩固而堅實的平臺。作為一系列運維繫統的集合,Noah包括了服務管理、機器管理、資源定位、監控報警、自動部署、任務排程等等,已經服務了百度數年之久。我們推出的NoahEE(Noah Enterprise Edition)脫始於Noah,為企業提供了一站式運維解決方案,覆蓋了包括日常的故障管理和變更管理中典型的運維場景,致力於為政企、金融、教育等行業提供業務可用性保障、提升運維效率。

640?wx_fmt=png

圖1  NoahEE概覽

接下來,我們把這艘諾亞方舟分解開來,近距離觀察一下這艘船的方方面面。

服務管理


我們首先介紹服務管理是因為服務管理是整個運維工作的基礎,也是NoahEE這個平臺上各個系統能夠進行批量自動化操作的關鍵。服務管理這個概念的出現,是隨著業務快速膨脹的必然,其要解決的主要問題是一個“”,或者說“規模”的問題。在早期業務較為簡單時,一個服務可能部署在幾臺甚至一臺機器上,進行變更等運維操作簡單直接,登入到機器上人工操作就好了。隨著業務的發展,分散式應用與服務的廣泛使用,我們越來越多的面臨著運維場景與運維執行之間的脫節。

舉個例子,今天17:00開始對X機房的地圖導航模組進行升級。對於產品研發的同學來說,關注點是語義明確且更具描述性的“運維場景”;而對於運維人員來說,關注點是此次升級操作所涉及的機器等資源在哪裡。在業務規模發展到一定程度後,運維工作還停留在早期人工或指令碼方式執行的階段時,這樣的差異非常頻繁的發生。

在實際的運維中,還有更多的因素需要考慮,例如機器是否會分配給不同部門(資源的隔離)?許可權又該如何控制?隨著規模變大,人力成本等管理成本上升,然而效率低下、可用性不升反降等等都是非常可能出現的問題。百度對於這個問題給出的答案是,必須先要解決資源組織管理問題。簡單的說,服務管理要解決的最核心問題就是如何對資源進行有效組織管理與定位

640?wx_fmt=png

圖2  解決規模帶來的問題

在服務管理這個地基打好後,我們再來回顧下上面的例子。這個例子中,地圖研發的同學就可以在運維平臺中選中導航的模組進行升級,運維平臺會通過服務管理來定位此次升級操作需要影響的機器並進行批量的操作。NoahEE中的所有運維繫統,都以服務管理為基礎來進行運維操作,例如在監控系統中,我們可以對導航模組(而不是單臺機器進行操作)新增一些指標採集任務,並在一定條件達成時報警。服務管理通過對資源合理的組織,極大的簡化了運維操作提升了運維效率

資產管理


在機房裡,各種各樣的伺服器、網路裝置和安全裝置7x24小時的運轉,為我們的業務提供了硬體保障,是企業的重要資產。各種裝置的物理損壞、升級、新增、搬遷等等都在考驗著機房運維人員的能力。怎樣維護這些資產並記錄資訊,是個很重要的問題,搞得不好,這些資產可能變成運維人員的“包袱”,越多越頭疼。

對這些裝置的運維操作,通常都涉及不少的物理操作,比如說更換損壞的硬碟,增加記憶體條等等。這裡涉及到幾個要解決的問題:

  1. 故障如何及時發現?發現後由誰來進行修復?

  2. 物理操作維護怎樣反應到系統裡?

  3. 不同角色(職責)的運維人員之間如何協同操作?

對於故障處理與修復,NoahEE通過故障自動發現與工單流程解決了上面的問題。系統自動探測故障放入故障池,並建立故障工單,由相應的人員進行操作。另外,NoahEE提供了不同的工單流程覆蓋了日常機房運維中的操作,從裝置採購入庫、上架、機架變更,直到裝置下架、出庫全生命週期覆蓋,做到所有運維操作記錄可追溯。有了資產管理,運維人員可以在伺服器完成入庫、上架工單後即可在服務管理中看到該伺服器並進行管理,無須任何其他操作。一圖勝千言,我們看看資產管理的特點:

640?wx_fmt=png

圖3  資產管理

部署管理



應用部署一直是運維工作中的重點,一般來說,我們面臨的問題有:

  1. 批量部署難,怎樣定位目標機器?如何快速部署?

  2. 灰度測試難,怎樣通過靈活的部署方式,先進行小流量線上測試,待效果達到預期後再擴大部署?

  3. 回滾難,發現問題後怎樣回滾?

上面的第一個問題,實際上在服務管理中已經解決了,也就是說服務管理幫我們完成了資源定位工作。其他的問題,NoahEE的部署管理模組通過“分級釋出”來解決。在部署管理模組中,我們可以方便的定義併發度、部署步驟、影響範圍以及暫停操作等,在部署的過程中發現問題即可暫停並回滾至之前的狀態。除了部署等操作,部署管理模組還提供了批量執行命令等操作(比如批量啟停某一服務)。如圖來總結部署系統的能力:

640?wx_fmt=png

圖4  部署管理

監控管理



在任何工作裡,資訊掌握的全面與否往往關乎到工作的成敗。“知己知彼百戰不殆”這句話說的就是這個道理。運維工作中,監控系統就是這個讓我們做到這點的關鍵。軟硬體是否工作正常,出了問題是否能及時發現與報警,甚至是對異常事件等進行提前預測,都仰仗監控系統。在NoahEE的監控管理模組中,你可以期待全面的各種監控相關功能,包括了採集Agent、強大的匯聚計算與指標派生、靈活的報警機制、高效的時序資料庫(TSDB)等等。除了這些以外,考慮到企業中更復雜的監控場景,例如通過SNMP/IPMI等標準協議對於網路裝置等進行資料採集,報警通知方式可以自定義,支援和企業內通訊軟體例如Lync等進行整合。NoahEE的這些監控能力,可以讓你全面掌握運維工作的方方面面,各種問題洞若觀火。

一張圖簡單地將NoahEE監控模組的特點總結一下: 

640?wx_fmt=png

圖5  監控管理

今天介紹的NoahEE文章裡,我們只介紹了基礎運維技術相關的產品,當然除此之外,我們還提供高階版的智慧運維產品,相信將基礎版運維平臺與自動異常檢測、輔助根因診斷、智慧故障自愈等AIOps技術結合,會讓運維更上一個臺階,為業務帶來更大價值。

總  結

作為一個自動化運維平臺,NoahEE的功能全面且易於使用,在這篇文章中無法面面俱到的詳細闡述,大家可以通過訪問我們的運維網站http://aiops.baidu.com來詳細瞭解我們的運維產品。網站中除了有NoahEE運維平臺的介紹外,還有我們智慧運維產品的相關介紹,歡迎大家訪問該網站並聯系我們試用各運維產品。

640?wx_fmt=png

640?wx_fmt=png

↓↓↓ 點選"閱讀原文" 【瞭解更多精彩內容】 

相關文章