全新SaaS運維監控平臺構建書

信仰聖光吧發表於2014-07-01

第一部分 引言

伴隨的IT服務的發展,IT服務的概念也在發生著巨大的變化。IT運維服務已經由原來侷限在使用者自身環境下的IT服務,延伸到覆蓋公用雲、私有云、外包服務商等多緯度、全天候的SaaS運維模式,

從狹義理解,IT服務僅僅是為了解決資訊系統出現的故障,在系統出現停頓的時候可以快速的恢復。而目前的IT服務已經包含了更多的內容,IT服務滲透在資訊系統的整個生命週期之中。本文基於該理念,對IT服務系統的實現進行分析研究。文章基於網脊運維通SaaS(Software as a Service)模式理念,,構建統一平臺下支援多型別使用者使用的基於SaaS模式的IT自動化運維平臺。使使用者在使用效果上與企業自有IT服務運維平臺基本沒有區別,但節省了大量用於購買硬體裝置、技術支援和維護執行的資金,同時使得原來分散在不同區域多個機構孤立的資訊有了資訊共享的條件,使得使用者能對分散在不同地方的IT系統進行控制、並及時瞭解相關資訊。

同時結合網脊運維通的手機APP,使用者可以隨時、隨地地瞭解自身IT基礎環境、業務系統等IT資源的可用性、效能、安全事件等主要監控類別,同時結合手機APP上的一鍵通功能,使用者可以方便地對遠端機器進行硬體重啟,預錄製命令指令碼執行等方便、快捷的一鍵運維功能。

運維通整合了簡單、實用的監控、遠端操作等實用功能,讓普通使用者無需購買、安裝複雜的IT運維繫統就可以享受線上的IT監控、運維繫統,同時具備即時通訊功能的工單流轉系統,可將使用者、外包服務商、IDC機房維護工程師等角色有機地整合在一起,是一個完全創新的基於SaaS模式的社交型IT運維技術平臺。

第二部分 概述

2.1運維通設計背景

運維通的設計背景主要是針對目前網際網路上的裝置、應用越來越多,而一般客戶的運維技術人員多在公司本部,系統、裝置多託管在遠端機房,他們希望能有一套整合了遠端連線、線上監控的自動化運維解決方案,同時可以很好地整合到手機APP上,隨時隨地對遠端裝置進行監控或者簡單常用的快捷操作等功能,同時IDC託管機房也希望可以擴充自身的業務範圍,不停留在低價競爭的機櫃出租業務上,而是可透過運維通系統對使用者提供系統、實用的監控、遠端維護、工單流轉/考核等功能,從而可持續性地提升使用者服務體驗,提高自身品牌的客戶美譽度。

2.2設計原則

線上系統的監控、運維與普通運維解決方案看似有許多相似的地方,但其實還是有很大的不同,普通運維解決方案部署在本地,監控的裝置數量有限,使用的使用者數量也有限,但線上SaaS系統則明顯不同,監控的裝置往往是海量資料,一個普通IDC就有上萬臺裝置,使用者數量則往往過千,如果採用普通IT運維網管軟體的設計是完全不行的,同時在SaaS模式下,整個監控是在公網上完成,使用者對安全性要求比較高,如果採用外掛的方式,使用者也一定會比較抵制,總之,線上SaaS運維繫統的設計有其自身的特定,我們在開發運維透過程中,遵循了以下設計原則:

?        彈性化架構

考慮到線上SaaS系統的運營特點,運維通的設計採用了高度可擴充套件性的雲系統架構,整個系統分為三個層次,按需部署的收集器、管理伺服器以及資料庫叢集,任何層面的裝置都是採用負載均衡的方式工作,任何裝置實效後會自動切換到相應的健康裝置上。

?        高效能

網脊運維通的收集器,每臺至少可監控、管理500臺裝置(主要是snmp協議特點,而非運維通設計瓶頸),每臺管理伺服器至少可以管理30臺收集器,一個2臺管理伺服器、60臺收集器的小型運維通系統叢集就可以很好地管理、監控3萬臺網際網路裝置,其效能指標是比較高的。

?        安全性

與完全執行在使用者企業內部網路的本地監控系統不同,網脊運維通系統是為廣大使用者透過SaaS方式來監控、管理自身裝置而研發的,所以網脊科技在開發過程中摒棄了其企業解決方案運維通的很多功能強大,但會犧牲安全性的監控專案和監控策略,使用者裝置無需安裝外掛,主要透過配置SNMP(支援V3)對特定的收集器的只讀功能來實現監控功能,遠端操作等透過配置IPMI的功能來實現,因為透過標準的網路管理協議來進行操作,與使用者的業務系統是完全隔離的,安全性比存在後門的外掛方式要強很多。

?        移動網際網路

網脊運維通的操作,除了普通的web瀏覽器的工作方式外,手機APP的良好操作體驗是比較重要的設計原則之一,我們將一些相對複雜的配置保留在web端,而檢視、快捷遠端操作等重要功能,我們在手機介面都很好地進行了擴充,使用者可以很流暢地體驗隨身、隨時對線上IT系統監控、快捷操作的易用、方便。

?        二級管理介面

網脊運維通的業務推廣模式主要依靠與具備相應實力的IDC運營合作伙伴共同擴充的方式來實現,運維通設計了專門的合作伙伴二級管理介面,合作伙伴可以透過該管理介面實現:替換其專屬LOGO、廣告,批次匯入/修改/刪除使用者、充值/餘額查詢、客戶專屬服務工程師分配等功能。

 

第三部分 運維通解決方案

運維通是一個監控、運維門戶,使用者只需經過簡單的註冊後,就可以線上實現網際網路IT資源的監控、故障報警、報表、ITIL事件跟蹤、一鍵通自動化運維等功能,同時具備,以保障客戶網際網路業務應用的可靠執行。

現在很多國內的IT使用者都在考慮如何把自己的業務部署到私有云或混合雲環境中,以增強其業務的可擴充性及高可用性,從理論上來說,雲架構可以提供更高可用性的IT基礎環境,但實際上雲端計算不是萬能的,最近亞馬遜及Google的多次重大雲故障說明,雲端計算環境除了系統層面以上的應用軟體問題,其更加複雜的架構及資源池演算法等因素,都需要更專業的監控管理工具及具備雲端計算知識背景的運維人員才能很好勝任雲平臺的高可用運維,但一般企業顯然不能把他的運維團隊搬到運營商機房去,這時候,運維通就有了用武之地,下面簡單介紹網脊運維通的主要特點:

3.1 一鍵通功能

運維通的一鍵通功能,主要實現的功能就是透過預先配置好的IPMI介面協議,實現類似遠端KVM的一些功能,主要可以實現以下功能:

  • 遠端開、關機----可對遠端託管的已經當機、藍色畫面的遠端伺服器,直接進行重啟操作,無需IDC購買價格高昂的PDU裝置,只需連線伺服器主機板上的IPMI介面,透過運維通軟體就可以實現硬重啟;
  • 一鍵命令 ---- 對於常用的運維命令指令碼,如:重啟服務、重啟程式等等,可預先設定好後,在手機APP上一鍵執行,當某個服務出現僵死,而自己不在電腦旁邊時,這個功能就變的非常實用;


 

手機上也具備完整的一鍵通功能,具體使用介面可見下圖:


 

 

 

 

 

 

 

 

 

 

 

 

 

 


3.2主機監控

線上SaaS監控系統中,最重要的部分是伺服器主機的監控,透過監控主機的主要可用性、效能、日誌等指標,使用者可以隨時瞭解和掌握放在遠端資料中心機房的裝置工作好壞,配合手機APP的及時推送資訊,免除在IDC託管機房還需購置簡訊閘道器等問題,主機監控主要涉及的監控專案主要有:

  • CPU/記憶體 ---- 這是非常基本的監控專案,運維通以儀表板的方式直觀地展現CPU、記憶體的消耗情況,讓使用者瞭解這一基本資源的消耗情況;
  • 埠監控 ---- 與目前主流的雲監控、SaaS監控系統的總埠流量監控不同,運維通的埠監控可以任意定義物理或虛擬埠的監控,對於多臺裝置託管在IDC,跑不同業務的使用者該項功能非常實用,並且埠監控是以連續波形的方式展現,使用者可以透過設定小時、日、周等方式變換視角。
  • 程式監控 ----- 一般的雲監控平臺只可監控總程式數,這個對於網管人員非常不實用,運維通可以選擇任意程式來進行監控,也是以連續波形的方式來展現。
  • 磁碟監控------以影像化的方式展現目前所設定的監控磁碟、分割槽的總容量、可用容量等磁碟資訊。
  • 服務監控-----使用者可設定被監控的任意服務埠,系統會自動監控其服務狀態,如果埠down則為紅色,正常則為綠色

 

手機介面展示如下:

 

 


 

3.3網站監控

網站監控也是SaaS監控中非常重要的部分,畢竟大部分的線上系統主要是各種網站,對於網站監控,網脊運維通可以從不同的監控點來監控被監控網站的延時響應時間,這對目前國內的網路環境還是有必要的,下圖為網脊運維通網站監控實際的例子:

3.4自定義分組與拓撲圖

網脊運維通除了針對主機、網站等進行監控外,還允許使用者對該物件進行自定義分組,並且透過類似VISIO的繪圖功能來繪製自己的網路拓撲圖,讓使用者非常直觀地瞭解自己被監控裝置的工作情況,


3.5豐富的自定義報表功能

網脊運維通的報表是可以按照使用者的需求進行自定義配置,自定義的規則可以監控的任意專案來進行設定,並可匯出為PDF格式,具體設定專案見下圖所示:

 

 

 

 

 


 


3.6豐富的事件查詢機制

網脊運維通的事件機制比一般SaaS監控產品或雲監控產品豐富,可按照系統的不同分類監控專案,如:主機、網站、磁碟、程式等等來進行分類檢視,同時也可選擇不同的時間區間來進行事件檢視,支援資訊內容檢索、元件檢索等等輔助功能,詳細見下圖:


3.7自定義閥值、報警

網脊運維通的監控專案,主要是線上伺服器的一些重要的可用性、效能、事件等監控指標,每個監控專案,使用者都可以自定義觸發報警的閥值、報警級別等相關條件,做到事件、報警按照使用者的意願和需求來生成,免卻大量無用報警、事件的煩惱。


第四部分 部署方案

網脊運維通的監控功能簡單、實用,但考慮到是SaaS應用方式,故其部署相對普通的監控系統來說要龐大和複雜一些,運維通的架構其實是分為4個層面,收集器、互動層、管理伺服器/資料庫、前端負載均衡/web伺服器。面向使用者裝置的是收集器,主要負責採集使用者裝置的snmp監控資料,透過IPMI/SSH/WMI等協議與裝置進行互動,與收集器連線的中間層面為RadisMemcache資料快取及互動層面,該層面負責將收集器和管理伺服器之間的互動,保證收集器出問題後,管理伺服器可以維持資料的完整性並把資料互動到其他收集器,管理伺服器和資料庫負責儲存使用者配置資訊、業務資料,前端負載均衡/web伺服器負責與使用者GUI互動。

4.1 部署方式

運維通主要是為大量使用者同時使用而設計,其部署相對普通的內部區域網運維監控產品有所不同,運維通的部署分為以下4個層面:

1: 收集器

收集器的部署,取決於監控使用者的多少,一般按照每收集器監控500臺主機左右來進行收集器部署,網路拓撲上,可採用雙網口,與內部中間層面互動的介面用內部介面,速度快,網路環境封閉、安全,監控使用者裝置的介面使用外部介面。

2: 配置伺服器

配置伺服器的部署數量主要取決於收集器的數量,一般按照301的數量來進行配比,配置伺服器最好透過內部網路介面連線收集器,配置伺服器無需外部介面,只需要連線收集器和資料庫。

3: 資料庫

資料庫存放所有的監控策略、監控到的各種資料、使用者資訊等等,當使用者量比較大的情況下建議採用叢集的方式來部署,運維通採用的是mongoDB,其叢集部署最少需要5臺裝置。

4: nginx/web伺服器

由於使用者量比較大,採用nginx來做web伺服器的負債均衡,web伺服器採用的是Django方式,網脊運維通的網頁內容相對還是比較簡明,2000使用者左右用一臺web伺服器都沒什麼問題,當使用者數突破這個限制比較多的情況,可以使用Nginx負載均衡來解決。

 

網脊運維通與被監控裝置直接需要開通相關通訊介面如下表所示。部署前需要測試各埠是否可以正常通訊。運維通部署的相關協議埠如下:

 

 

 

服務名稱

源地址

目的地址

備註

SSH

22

收集器地址

公網被監控裝置

遠端命令等

WMI

135

收集器地址

公網被監控裝置

windows命令等

SNMP

161

收集器地址

公網被監控裝置

監控資料

web服務

80/81

外部使用者

web伺服器/nginx

web訪問

資料庫

27017/27018

配置伺服器/web伺服器

資料庫叢集

資料庫服務

memcached

11211
11212
11213

web伺服器

配置伺服器

快取服務

rpyc

12233

收集器地址

配置伺服器

傳輸連線服務

 

網脊運維通典型部署的拓撲圖如下:

第五部分 服務方案

為了更好地在IDC及運營商合作伙伴推廣網脊運維通解決方案,網脊公司將為合作伙伴提供運維通的實施、維護服務和二次開發服務。

 

5.1服務範圍

服務物件範圍包括:

1、合作伙伴的所有網脊運維通產品;

2、服務期限:一年。

 

5.2故障級別

問題級別

問題定義

處理時限

一級故障

業務中斷或半中斷狀態,已影響使用者的正常使用

現場服務,鑑於地域的因素,如果在非現場服務時間內,工程師到達現場的時間為2小時內,並4小時內修復故障或採用省地各局同意的替代方案恢復業務,保證業務的正常執行和使用者的正常使用

二級故障

存在故障隱患,業務處理能力下降,並影響了使用者業務的正常使用

6小時修復

三級故障

對業務有輕微影響,但不影響業務執行和使用者正常使用的問題

12小時內給予技術支援

四級故障

不影響業務執行和使用者使用的問題

24小時內給予技術支援

 


 

5.3工作內容

5.3.1日常支援

1、在本次運維通的服務專案中,網脊工程師將為省地各局提供日常的支援服務,包括7*24小時的電話熱線服務、郵件服務以及傳真服務。支援的內容可以包括運維通的配置疑問,產品諮詢等非監控系統故障的問題。

2、客戶服務經理根據需求提供服務計劃,定期與省地各局溝通控制服務質量,並在服務實施中負責相關協調。

5.3.2現場服務工程師工作內容

為省地各局提供每月二天的5×8駐場服務,由熟悉運維通產品和熟悉省地各局網路環境的現場工程師執行,現場工程師1人,按照省地各局公司考勤進行考核,駐場服務工作內容如下:

1、  緊急故障處理

2、  運維通變更支援

3、  系統監控

4、  運維通配置策略最佳化

5、  運維通軟體升級

6、  運維通運維文件

7、  培訓服務

 

5.4 日常工作內容詳細說明

5.4.1日常服務

省地各局服務需求 

1、需設定專門的客戶服務經理及專家支援團隊,提供支援人員聯絡資訊;

2、客戶服務經理根據需求需提供服務計劃,定期與省地各局溝通控制服務質量,並在服務實施中負責相關協調。

廠家提供7×24小時服務熱線,提供如下技術支援:

1)、產品技術諮詢;

2)、故障申報及處理;

3)、培訓需求受理;

4)、系統功能實現方案設計;

5)、提供對省地各局提供的所有服務的全程處理記錄文件;

6)、為省地各局提供技術支援問題知識庫。

服務說明 

1)客戶服務經理及專家支援團隊―――可詳見6.2部分;

2)客戶經理提供服務計劃、定期溝通並協調相關事宜,在6.2部分中已經包括;

廠家承諾提供以下服務及支援:

1)、產品技術諮詢;

2)、故障申報及處理;

3)、培訓需求受理;

4)、系統功能實現方案設計;

5)、提供對省地各局提供的所有服務的全程處理記錄文件;

6)、為省地各局提供技術支援問題知識庫。

5.4.2客戶服務經理及專家支援團隊

省地各局服務需求提供一對一客戶服務經理及專家支援團隊

服務說明 

1)針對省地各局提供一對一服務的客戶服務經理,省地各局對服務有了新的要求及需要改進的地方可直接聯絡客戶服務經理,由客戶服務經理做出統一安排。

2)作為運維通廠商,網脊能夠為省地各局提供強大的專家支援隊伍。

 

5.5運維通培訓支援

省地各局服務需求  提供運維通系統培訓服務

服務說明 

1)在省地各局存在運維通體系培訓需求時,網脊將根據當月服務時間、服務內容以及培訓人員能力水平協調提供。

2)當運維通系統出新的版本、功能模組、補丁版本時,網脊將對這些部分出具介紹郵件,在省地各局需要進一步瞭解得情況下,可安排培訓。

3)當省地各局有新人到崗時,第一時間安排運維通基礎培訓。

 

網脊運維通專案組

20146

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29714215/viewspace-1200682/,如需轉載,請註明出處,否則將追究法律責任。

相關文章