針對運營商行業的虛擬化應用效能監測管理解決方案

MCZH0904發表於2020-02-27

近幾年,由於政府、醫療、大型企業上雲程式的發展,移動、電信、聯通各 大運營商不斷完善自己的雲服務,來滿足政府和企業越來越複雜的業務需求。隨 著各級省市區政府政務和網站的上雲,以及各大企業關鍵業務的雲上執行,客戶 對於上雲業務的穩定性和流暢性提出了更高的要求,運營商的相關運維管理部門

(如:移動的網路部、網管中心、電信的網路運維部、企信部、聯通系統運維部 等)在減少“故障率”和降低“投訴率”方面面臨更大的挑戰。

 

遇到的問題

客戶對上雲業務(如:政務雲、醫療雲、企業雲等)的穩定性和流暢性要求 極高,且業務環境及雲環境非常複雜,一但問題產生,只能被動接受投訴,導致 運營商的“投訴率”居高不下。故障涉及如鏈路、網路延遲、重傳、CPU 、儲存、 SDN 、記憶體、作業系統等諸多因素,故障排查缺乏快速有效的分析工具,無法 改變“投訴率”過高的被動局面。

除了公有云業務,運營商資訊系統部還負責內部私有云的運維,同時部分核 心業務依然在實體伺服器上執行,這就造成了資訊系統部需要面臨“多雲混合管 理,虛實效能監控”的挑戰。由於內部網路包含了資料中心節點互聯區、核心生 產區、管理網路區等多個區域,運維部門非常渴望能夠實現“南北流量”和“東 西流量”的共同監控。同時也需要“虛擬網和實體閘道器聯監測”,在出現問題時 能夠做到實時記錄和時間回溯。

引用某省運營商運維部主任的原話:我們需要搞清楚業務慢的原因。之前部 門經常被業務部投訴,有委屈也說不清,明明是應用本身的問題,也會歸到我們運維工作沒做到位。我們迫切需要一個真正能做到虛擬化故障定位和效能監控的

系統,會為我們的工作帶來極大的價值。

 

需求:

需要全方位視覺化效能監控體系

對於雲管理者而言,沒有視覺化就沒有有效的管理。無論是在資料中心還是 公共雲或私有云中或混合雲中,端到端視覺化已變得非常重要。同時視覺化也是 大資料分析的一種呈現,如不能構建和基礎資源和業務應用的一一對應的關係, 管理將無從入手。裡面需要涉及宿主機、虛機、儲存、網路、服務路徑、應用等 等;涵蓋了 IPM>NPM>VPM>APM 多個領域

需要一鍵式快速排查故障的手段

在出現問題時過度依賴經驗和技能、部門協調耗費大量時間和人力,不能在 第一時間定位故障,缺乏快速界定故障層次、判定問題責任的有效依據,耽誤了 MTTR 考核指標。

可用工具:明辰智航雲安網路與虛擬化效能管理系統

產品採用虛擬化模版部署,整合了大資料分析引擎及高可用機制,避免了系 統故障時的恢復時間。採用高效率的儲存架構,能實時響應並同時紀錄歷史資料; 方便任意時間段資料的讀取。

不需要改變現有云平臺架構,部署簡易,避免實施風險

可以監控到虛機與虛機、虛機與實體機的東西、南北向資料

支援 SAAS 模式,租戶可以直觀看到自己資源和應用的真實情況。

 

使用效果

 

 

全棧式視覺化效能監控

1. 全棧式視覺化,使用一種產品解決了端到端所有資源效能視覺化的問題,(包 含了應用效能監控,基礎設施效能監控,網路監控,儲存監控)將故障排除 時間縮短至數分鐘。

2. 提供回溯觀察模式、以時間軸形式直接回溯到故障發生時的資訊,可以針對 問題點做回溯分析。

3. 關注業務健康,減少業務故障時,分析、查詢、部門協調時所消耗的時間, 並通根本原因分析消除了雲平臺運維團隊和業務團隊之間的不信任等問題。

4. 識別了雲架構中的東西監控的盲點,提供原始資料包檔案,做到有效的證據 支撐。

 

及時發現問題,找到效能瓶頸

1 前瞻式的效能故障預判,像體檢一樣,可以在終端使用者感受到影響之前發 現並解決問題。多次及時解決了甘肅移動、廈門電信 CPU 超配/ 低配, 儲效能下降所帶來的相關業務效能下降的影響。

2 強大的資料穿透分析能力,顯示了某個時段效能下降的根本原因。使用根 本原因分析,一鍵分清了故障的邊界、自動關聯虛擬資源池與應用服務的 邏輯關係,提供直關展現。

 

最佳化資源配置節約投資

1. 根據實際資源使用情況最佳化雲資源使用成本,發現低效率或殭屍虛機,從而

減少浪費,為科學調優提供了真實的證據支撐。

2. 直觀看到配置不足的主機或虛機,從而避免資源不足導致應用效能問題。

自動發現服務依賴關係全景圖

1.   終端無需安裝外掛即可構建服務依賴關係。

2. 自動完成繪製圖譜,深入分析虛機和資源以及業務之間的依賴關係,從而 可以迅速對問題進行影響性分析、故障排除。

3. 提供歷史的服務對映關係與變更之後的比較,發現應用效能下降的關鍵組 件因素。

4. 支援跨多個雲的資產梳理,服務關係梳理,迅速找到效能瓶頸、透過應用 響應時間和關聯資料檢視每個服務的應用效能。

 

1. 第一時間知道使用者或租戶的使用體驗,避免遭到投訴或準備應急預案。 並迅速判斷出影響範圍及原因

2. 識別出使用者應用延遲的根本原因,分析出是客戶端的延遲、網路的延遲、 儲存的延遲、程式的延遲、應用的延遲、還是伺服器端的延遲,從複雜 的分析排查過程解脫出來。

希望我的分享能夠幫助到您。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69963239/viewspace-2677488/,如需轉載,請註明出處,否則將追究法律責任。

相關文章