優雲蔣君偉:自動化運維成本仍然很高

優雲軟體發表於2017-09-25

9月10日-11日,上海光大國際會展中心隆重舉辦了“2017上海站CNUTCon全球運維技術大會”。本次大會的主題是“智慧時代的新運維”,各個公司為觀眾帶來了他們關於該主題的思考,並分享了他們的實踐經歷。InfoQ有幸邀請了杭州優雲軟體有限公司的產品副總裁蔣君偉老師接受我們的採訪。談到對自動化運維未來的展望,蔣老師表示自動化運維必然是大勢所趨,但是因為相關技術債務的存在,自動化運維的成本還很高。那優雲自己的技術與產品是如何去做高效運維的呢?本次採訪帶你瞭解一二。

InfoQ:與其它同類產品相比,優雲有哪些優勢?
蔣君偉:要介紹優雲的產品優勢,我想可以簡單說明一下優雲是如何來的。優雲來自廣通,廣通公司成立於2003年,14年以來一直專注於運維領域,廣通的產品也隨著運維行業的趨勢發展,從最初的監控、CMDB、ITIL到APM,行業的客戶也深入到政府、金融、運營商領域,我們對使用者運維痛點與上一代運維產品的瓶頸,有深刻認識。
所以,2016年,廣通成立全資子公司,推出了新一代運維產品線優雲,與同類產品相比,我們有以下優勢:

  1. 平臺化:打通運維場景,避免運維資訊孤島與運維工具碎片化的情況
  2. 自動化:結合自動化操作編排,實現故障自愈與運維自助式服務
  3. 社交化:通過ChatOps App,由運維機器人輔助運維人員,隨時隨地完成運維工作
  4. 大資料:內建運維資料分析演算法,有效解決資料中心容量規劃難題
  5. 分散式:支援水平擴充套件,可隨資源規模增長而增加管理能力

InfoQ:優雲產品採用了哪些核心技術?
蔣君偉:優雲產品的核心技術包括:
1、 安全、穩定、低負載、易擴充套件的採集代理平臺
採集代理是運維體系中非常重要的落地工具,由於企業使用者的環境非常複雜,所以採集代理在技術設計需要非常注意:
優雲Agent主要使用Python與Java技術平臺實現,所以在伺服器的相容性上有很大保障;
為相容被防火牆與網閘隔離的網路,Agent總是單向對Server發起連線,拉取作業或上報結果,這種方式也可以讓Agent叢集形成一個網狀級聯,相容多級網路;
同時Agent會主動降低程式的優先順序,以降低CPU消耗,控制記憶體與磁碟使用,將對部署伺服器的影響降到最低;
Agent使用強引擎弱指令碼的設計思路,內建了ssh/wmi/snmp/ipmi等互動協議,允許使用者快速使用shell/python/groovy等指令碼快速擴充套件Agent能力。
2、 視覺化埋點技術
優雲UEM產品可以實現使用者Web端與移動端的使用者操作體驗監控,不像傳統的使用者體驗監控產品,我們不需要預先埋點,我們可以幫助產品經理生成使用者的操作熱區,並直接在產品介面上操作,決定要關注哪些使用者的操作行為。這個埋點依賴兩個部份完成:
使用者互動資料的全量抓取技術:通過在應用端部署前端agent js, agent會監聽頁面中的相關操作,比如點選事件,超連結等,將相關資料(比如來源、去向)全部記錄下來,並每隔1分鐘進行上報,由服務端儲存分析。
使用者介面元素標記技術:可以直接在被監控應用端進行框選,設定頁面元素標記,這些元素會和全量採集的資料進行匹配(比如通過匹配css選擇器、文字等)。通過這種視覺化標記的方式就可以直接關注使用者需要的資料,無須開發者手動對頁面元素進行埋點。
3、全鏈路監控技術
優雲UEM與APM,已經將使用者端的操作與服務端對此操作的執行過程結合在一起,通過UEM的使用者端請求染色,可以跟蹤每一個請求操作到服務端,針對服務端的常用RPC協議,如http/dubbo/rmi等,也可以通過嵌入式agent進行染色與跟蹤。因此,一筆操作所經過的每一個計算節點與資料儲存節點的呼叫堆疊,我們都可以捕捉到,並能呈現分析其中的瓶頸節點與程式碼。
4、 影像質量分析演算法
優雲VideoMon產品使用的影像與視訊質量分析演算法,可以快速完成攝象頭成像質量的分析,其中診斷的準確性與快速是技術關鍵。使用訊號波動檢查、畫素灰度值分析、非灰色畫素集中區域分析、影像弱邊緣數分析等演算法,來實現視訊訊號丟失檢測、偏色檢測、清晰度異常檢查等功能。

InfoQ:談談對全棧雙態運維解決方案的具體理解?
蔣君偉:這裡有兩個關鍵詞:

  1. 全棧
    全棧體現瞭解決方案的覆蓋面是完整的,運維的物件,可以從基礎架構到業務應用;從物理資源到雲資源;從使用者端到服務端的全鏈路運維。
  2. 雙態
    雙態則有兩層含義。從技術層上來說,雙態要求產品能同時進行傳統IOE架構的運維,以及x86架構的雲資源運維;從管理上來說,應能支撐ITIL與DevOps這兩種運維體系。

我認為全棧雙態運維解決方案,應該能滿足這兩個關鍵詞。

InfoQ:優雲產品解決方案已經應用到了哪些行業和哪些客戶中?具體效果如何?
蔣君偉:自16年7月釋出我們的產品後,很多使用者都非常踴躍,到目前我們也實施了不少典型案例:
1、 某金融雙態方案,實現雲資源交付的服務自助化
金融目前是最典型的雙態運維場景了,一方面金融核心系統要保持非常穩定,是穩態,另一方面移動支付渠道又要求應用的迭代與響應非常敏捷,是敏態。
通過優雲的Monitor,我們實現了傳統業務與網際網路業務的全棧監控;並且通過ITSM實現流程自助服務,業務部門提交的資源申請工單,在審批通過時,藉助CMDB與Automation,實現業務部門的資源交付、應用部署自助化。

2、 某部委業務大資料分析監控方案
此客戶全國擁有數萬的站點需要上報業務資料,這些資料的處理要求非常高的時效性與準確性。由於站點的規模變大、資料種類增加以及資料監控粒度的增加,舊的業務支撐保障系統已無法滿足對業務資料的實時監控需求。
優雲Store運維資料平臺具有大資料分析能力,能實現這些上報的業務資料實時流資料處理,結合CMDB中的站點基本資訊,實現監控指標的多個管理維度分析,並通過Show大屏視覺化呈現全國的資料質量。

3、 某海外平安城市運維專案
平安城市中存在大量的IT裝置與海量的物聯網裝置需要運維管理,其運維團隊對於整個城市的攝象頭故障總是頭痛不已,一直處於被動運維的狀態。
優雲VideoMon能快速完成上萬路的攝象頭影像質量分析監控,大量減少運維團隊的巡檢成本。對存在故障的結點,優雲Alert通過告警熱圖功能,從地域、型別、業務等多個維度,為使用者呈現故障分佈情況,快速幫助使用者找到問題根源,縮短故障修復時間。

InfoQ:談談對自動化運維的展望。
蔣君偉:自動化運維必然是大勢所趨,並且會越來越快地改變我們的運維工作,目前我們所處的時代是一箇舊與新的過渡時代,就像集裝箱發明後的航運業一樣。
在集裝箱剛開始被發明出來的階段,大家從心理到技術上都沒有作好準備,包括貨主、公路、鐵路、港口、吊車到輪船,都沒有為集裝箱做好配套。但由於幾個關鍵事件,集裝箱的標準化,以及隨之配套的操作、運輸手段,很快就改變了全世界。
我們現在也是,雖然容器及服務、函式及服務技術已經出現,但我們還有太多的歷史債務需要償還,所以現在的標準化與自動化的收益還不明顯,自動化運維的成本還很高。
但隨著歷史債務的解決,新的應用研發、運維手段,都會圍繞著這些新技術配套起來,到時候自動化運維就非常容易實施與獲得巨大收益。
最後,我們運維人員也會像碼頭工人一樣,需要改變我們的技術工作內容與深度,否則就會被下崗。

瞭解更多優雲產品,請訪問優雲官網 www.uyun.cn

嘉賓介紹:
蔣君偉,優雲產品副總裁,IT運維領域的十年老兵,先後研發了網路管理、系統管理、CMDB、ITSM等產品,併成功建設了國內多個全國性的網路管理與運維管理專案。現從事優雲新一代資料中心運維產品研發工作,主要負責產品線規劃、核心技術研發、研發團隊建設與運維諮詢等工作。


相關文章