優雲新一代智慧化運維管理解決方案

IT大咖說發表於2018-03-27

優雲新一代智慧化運維管理解決方案


內容來源:2017年4月23日,優雲軟體解決方案中心總監童華權在“雲時代下的運維管理實踐”進行《優雲新一代智慧化運維管理解決方案》演講分享。IT 大咖說作為獨家視訊合作方,經主辦方和講者審閱授權釋出。

閱讀字數:3981 | 6分鐘閱讀

嘉賓演講視訊回顧及PPT:suo.im/NM8OI

摘要

優雲軟體解決方案中心總監童華權為我們帶來優雲作為國內在運維領域做得比較深刻的廠商,在運維管理方面的一些見解。

運維面臨的挑戰

資料中心進入“兩化轉變”

資料中心轉向“兩化轉變”,技術架構層面隨著雲端計算、大資料、物聯網、微服務、容器等新技術廣泛使用,呈現出“混合化”趨勢。運維模式層面上,DevOps理念快速推廣,CI/CD深入人心,尤其是GoogleSRE、國內BATJDevOps等網際網路實踐,運維模式上也呈現出明顯的態(Bimodal, Gartner )特徵,穩態與敏態的融合業務模式,運維模式也出現隨之變化,運維管理面臨雙態IT帶來的挑戰。

優雲新一代智慧化運維管理解決方案

軟體定義資料中心(SDDC)對運維的挑戰

軟體定義資料中心(SDDC)要求具備簡化並自動化的運維管理,並支援應用和基礎架構交付自動化。

優雲新一代智慧化運維管理解決方案

上圖是軟體定義資料中心的模型。軟體資料中心對運維和管理有幾個新的訴求。它要求更加簡化和自動化的運維管理能力,還有應用和基礎架構交付自動化能力。這是在新的軟體定義資料中心環境下對運維和管理的一些新訴求。

互聯技術架構應用對運維的挑戰

企業資訊化建設中,新型網際網路開放技術架構的廣泛應用,對各類新技術的運維支援成為當前迫切的需求。

Devops對運維的挑戰

DevOps理念的快速推廣,促進了業務與技術的加速融合,及開發與運維的加速融合,對運維管理尤其是自動化運維提出更高的要求。

運維業務模式轉變的挑戰

在雙態背景下,資料中心運維業務模式發生了明顯轉變,技術與業務、開發與運維加速融合。

在開發層面上,我們要更加註重持續交付的能力;在運維層面上,要求更高水平的自動化管理能力和更加敏捷的運維管理過程。

因為要更好地為業務服務,所以我們在使用者和業務層級也要求有更好的管理和支撐能力。越來越注重使用者的體驗和使用者行為的分析,這樣才能為業務進行保障和促進業務的發展。

雙態運維管理理念

新背景下的運維管理理念分享

我們提出了一個軟體定義運維(Software Definition Ops)的概念。把運維業務定義出來並且快速地實現,能夠投入到日常的運維過程中去。

運維軟體平臺PaaS化,是運維生命力關鍵,是雙態運維最佳技術實踐。基於可定義的範疇內的內容,通過平臺化把它們落地。基於運維PaaS平臺,實現運維場景化的梳理,運維場景標準化的確認,通過更大範疇內的自動化運維把它做出來,還有就是運維的視覺化以及持續不斷提升走向智慧化的方向。

雙態運維-軟體定義運維(SDO)實踐策略

雙態通過運維PaaS平臺對運維場景進行快速定義即可投入執行,實現面向多變業務的敏捷運維支撐,包括運維場景分析、場景定義、場景運營、持續優化等生命週期。

資料中心運維業務梳理

資料中心運維業務梳理是運維場景分析的依據,是標準化、規範化的前提,也是自動化的基礎。

優雲新一代智慧化運維管理解決方案

通過上圖可以把一個資料中心所要管理的內容都梳理出來,總結為四個方面。

第一個就是調研評估,比如需求管理、風險分析、容量分析等一系列工作。還有就是例行操作、響應支援和優化改善。

優雲新一代智慧化運維管理解決方案

運維場景大致可以分為幾個部分。資產檔案管理,資產檔案管理是現在非常火的一個CMDB的概念,理清自己到底有多少IT資產,形成運維的基礎。還有全方位監控管理、執行值班與故障處置、變更與校對管理以及巡檢與作業管理。

雙態運維平臺建設

優雲全棧網際網路+運維平臺

採用微服務、大資料的新一代網際網路技術架構,定位於運維PaaS平臺,採用統一平臺+產品APP模式,平臺提供統一採集操作層和資源庫,產品APP基於平臺服務和元件規範,可不斷豐富擴充套件和相互聯動。

優雲新一代智慧化運維管理解決方案

1、資產檔案管理

資產配置管理常見問題(一)

由Excel說起的資產配置管理,資訊零散、缺乏全域性管理,消耗大量的人力成本,及時性低。

資料容易被任意修改,缺乏版本控制,資料準確性低。

資產配置管理常見問題(二)

傳統運維工具,資源管理範圍大、維護過程複雜,反倒增大的運維人員工作負擔,使用意願低。

一直處在資料維護的困局當中,從未有餘力思考如何發揮配置資料的價值。

資料中心IT資產檔案管理方案場景

系統通過全網掃描與自動化採集、社交化維護方式促進CMDB的自動化構建、敏捷化維護、場景化應用。

優雲新一代智慧化運維管理解決方案

眾所周知,自動化掃描是非常有價值的。它可以幫助我們找到網路環境中有哪些IP和資源,做到沒有遺漏。

再通過細化的配置採集,找出我們所需的資料中心裡出現的資源詳細資訊,構建一個完整的配置資訊。

配置資料的維護需要各自團隊去維護自己的資料,讓最熟悉的人負責自己的資料才是合適的,這就是團隊化的維護圈。

在資料維護的過程中還要注意反饋機制,使用者在使用過程中做出相應的回覆,就是一個非常好的反饋機制。所以我們採用了點評、點贊、訂閱等一些社交化的理念,使使用者覺得使用CMDB的時候不像一個上世紀的老古董,而是具有時尚化的感覺。

構建一個配置資料的消費圈,消費圈裡的人可以共享同一份資料,這份資料也可以通過圖形化的方式展示出來,應用到各種各樣分析的場景中。

2、全方位監控管理

監控常見問題(一)

業務應用與使用者體驗出現問題,而IT基礎設施一切正常。

我們看到的往往都是一些日常維護的視角,而使用者所看到的是我們所有問題累積後的結果。

監控常見問題(二)

我們無法感知終端使用者的真實體驗,無法瞭解我們應當在哪些方面進行優化改善,更無法奢望獲得使用者的認可。

根據IDC的統計,大約40%的故障是由終端使用者首先發現,並通知服務檯的。

監控常見問題(三)

故障排查定位花費大量的精力,需要網路、系統、應用、開發團隊參與,投入大量人力成本。

資料中心全方位監控方案場景

針對以上問題,我們提供了面向基礎資源、應用後臺、應用前端的監控能力。從應用使用者體驗到應用程式碼的應用端對端應用效能與故障監測,並支援業務交易與使用者體驗監測。

大規模雲監控

全面支援傳統架構與網際網路架構的監控,系統同時支援非代理方式進行資源監控。

支援萬節點資源的秒級監控;支援超過6000個指標及指令碼級擴充套件;支援監測資源進行標籤化管理與展示;支援監控展示儀表盤的自定義。

優雲新一代智慧化運維管理解決方案

3、執行值班與故障處置

運維值班與故障處置常見問題

執行值班是IT執行的守護者,我們是否有真正能做到:清晰掌握執行態勢、快速分析定位故障、觸發故障處置措施。

常見問題有:執行態勢展示是否直觀、明瞭,高層、中層、執行層無法各取所需;監控告警資訊無法集中展現與處理;不具備故障分析與定位的能力;故障處置過程不連續貫通。

優雲新一代智慧化運維管理解決方案

告警流水式處理與故障根因分析

支援告警集中管理,具有高效能告警關聯引擎,自動化告警處置,做到報的出、報得準、找得對。

ECC大屏視覺化展示

“看得清、管得住”是管理學的真諦,運維視覺化是資料中心執行安全可靠的儀表盤,支援按需設計。

ECC大屏設計三模式:執行態勢展示(參觀模式)、運維指揮排程(指揮模式)、執行值班模式(值班模式)。

4、巡檢與作業管理

運維操作常見問題

在資料中心軟體定義化、技術架構網際網路化、業務快速發展、應用持續交付等背景下,尤其是Devops理念在運維領域的全面推廣,自動化運維成為運維管理能力提升的“點金石”。

運維壓力大、效率偏低;運維規範化難以真正落地;運維操作存在安全隱患,根據“墨菲定律”——錯誤總在發生,所以鍋就在那裡;業務變化帶來的持續交付壓力;IT服務的自動化交付水平低。

巡檢與作業管理場景分析

自動化操作的標準化、自動化,是運維規範化的關鍵,是提高運維效率、降低操作風險的關鍵,也是快速故障處置與應急響應的重要手段。

優雲新一代智慧化運維管理解決方案

自動化巡檢管理

巡檢能力:針對Windows、Linux、AIX重要指標進行自動巡檢;支援靈活增加系統巡檢專案。

豐富巡檢項:系統引數、服務狀態、錯誤日誌、異常登入、關鍵程式、合規檢查。

自動化運維作業

系統支援環境準備、系統補丁升級、系統引數修改、合規檢查、服務啟停、資料備份、應急切換等自動化作業場景。

應用持續交付與Devops

應用快速部署,包括環境準備、基礎軟體部署、應用部署、引數配置等部署活動,支援應用持續交付。

作業場景編排與作業排程管理

系統支援運維操作最佳實踐指令碼庫,支援靈活的作業編排與作業排程能力,實現資料中心的自動化運營。運維人員由炮灰轉變成戰場指揮官。

5、變更與交付管理

變更與交付常見問題

運維部門具有明確的服務特性,但服務便利性、服務效率、服務水平等方面我們是否能讓使用者滿意。

不清楚到底對外提供哪些服務,以及運維團隊需要如何進行支援不清晰;為終端使用者提供的服務的途徑單一,往往依賴於電話、郵件;內部對運營效率與協作水平較低;缺乏工具與方法讓對外服務自動化流轉。

優雲新一代智慧化運維管理解決方案

運維服務流程ITSM

ITIL/DevOps流程全面支援

支援ITIL V3 / ISO20000理念相關運維流程;支援通過服務目錄梳理運維業務,以服務目錄驅動流程;支援表單、流程的拖拽式靈活設計;採用社交化、敏捷的流程互動模式,支援工單的評論、動態等。

社交化支援

提供工單關注功能;提供工單的評論功能,評論支援回覆;評論支援圈人功能;評論支援即時的站內信或其他方式通知。

即時運維協同ChatOps

ChatOps概念定義

ChatOps是一種實時聊天驅動型的運維模型,通過將自動化機器人植入到聊天會話當中,形成了人、機器,資料的自動化、透明化的聯動,使運維團隊能夠高效的溝通協作和執行任務,ChatOps是DevOps的一種實踐演進方法。

優雲新一代智慧化運維管理解決方案

ChatOps幫助組織平滑演進到DevOps

ChatOps面向運維內外部使用者的統一運維入口,使用組織運維模式對使用者透明,可以幫助逐步平滑演進到DevOps更高階段。

ChatOps在GitHub的起源與應用

管理Github內部的伺服器,啟停,升級、打補丁;郵件管理,收發個人郵件;程式碼提交通知;程式碼構建,部署上線;資料庫管理,刪除資料,備份資料…

運維智慧化運維平臺建設規則

優雲智慧化運維管理平臺可以幫忙各類企業使用者逐步走向運維“一體化”、“自動化”、“智慧化”的運維管理更高水平。

1、一體化,傳統運維工具分散,工具間缺乏有效的運維資料與場景融合,因此基於新技術架構之上運維PaaS平臺成為主流選擇;

2、自動化,將人工運維轉變化自動化運維,逐步實現日常運維操作與應用持續交付等運維場景的自動化落地,提高運維效率與過程規範化、降低人工操作風險;

3、智慧化,通過大資料分析、運維智慧機器人技術實現運維智慧化管理,支撐故障自愈、容量伸縮、應急保障等。

優雲新一代智慧化運維管理解決方案

希望優雲能夠幫助大家從一體化運維向自動化運維轉變,並且未來能看到自動化的曙光,謝謝大家。

我今天的分享就到這裡,謝謝大家!


相關文章