伺服器監控運維方案,一體化智慧觀測伺服器狀態

北京智和信通發表於2024-05-24

隨著資訊科技發展,伺服器已經成為支撐各類應用系統的核心基礎設施。業務數量的日益增長和穩定執行的高要求,也給伺服器的穩定性與可靠性建立了更高的標準。然而,傳統的伺服器管理方式往往難以發現潛在問題,導致故障預警與處置的滯後,進而影響業務的正常執行。

北京智和信通伺服器監控運維方案透過對伺服器高效、實時的自動化監控和預警,及時發現並處理潛在問題,避免故障的發生或擴大,提升伺服器執行效率和穩定性,保障業務的持續穩定執行。

第1章 伺服器監控範圍與指標

智和信通方案採取主動輪詢結合日誌、事件分析的方式,在主動收集伺服器效能資料的基礎上,接收伺服器傳送的事件和日誌資訊,對伺服器狀態進行全面感知。

1.1.常見伺服器型別和品牌

方案涵蓋的伺服器型別包括常規伺服器、虛擬化伺服器、雲伺服器、小型機、儲存伺服器、超融合伺服器叢集等,支援的作業系統包括Windows、Linux、Unix、Aix、Solaris、國產中標麒麟、銀河麒麟、紅旗Linux、鴻蒙系統、AliOS、SPGnux、Deepin、華為尤拉等。

目前,已實現對國內外常見伺服器品牌,如:華為、H3C、銳捷、浪潮、聯想、HP、IBM、DELL、中科曙光、深信服等,小眾或較為老舊的品牌型號也可透過靈活可配的模型庫進行擴充套件適配。

1.2.常見資源監測點和指標

方案透過帶內和帶外的方式對服務的硬體狀態、系統狀態和伺服器上執行的應用、業務等進行監控。內建CPU、記憶體、網路卡、磁碟、溫度、電壓、風扇等多種資源監測點和對應的監測指標,未覆蓋的資源和指標也可以透過模型庫不斷進行擴充。

資源監測點

監測指標

基礎資訊

品牌、型號、序列號等

Ping

服務成功率、平均響應時間、丟包率、抖動等

CPU

使用率、執行緒數、程序數、會話數、頻率、型號、主頻、生產廠家、核數、一級快取、二級快取、三級快取等

實體記憶體

使用率、可用記憶體大小、總記憶體空間、型號、型別、最大頻率、生產廠家、部件號、序列號等

虛擬記憶體

使用率、可用記憶體大小、總記憶體空間等

硬碟

型號、序列號、生產廠家、韌體版本、型別、轉速、容量、出廠日期等

磁碟

狀態、名稱、磁碟序列號、使用率、可用空間、總磁碟空間、容量預測、磁碟I/O、磁碟佇列長度、生產廠家、部件號、介質型別等

網路卡

狀態、序列號、生產廠家等

網路介面

狀態、輸入/輸出流量、輸入/輸出頻寬、輸入/輸出速率、丟包率、利用率、誤位元速率等

程序

狀態、ID、名稱、路徑、引數、系統程序數、執行程序數、空閒程序數、CPU佔用率 記憶體佔用率等

主機板

型號、序列號、韌體版本、電壓、溫度等

通訊埠

狀態

服務

狀態、名稱、數量等

溫度

健康狀態、執行狀態、實時溫度值等

電源

健康狀態、執行狀態、電源功率、槽位號、序列號、冗餘狀態、型號、槽位號、韌體版本、工作模式、輸入模式等

風扇

健康狀態、執行狀態、轉速、消耗功率、風扇利用率等

檔案/資料夾

狀態、大小、型別、修改、數量等

1.3.伺服器品牌型號及指標擴充套件

方案採取使用者自定義擴充套件伺服器品牌、型別及其資源的方式,賦予使用者強大的適配能力,最大可能地實現對不同時期、不同品牌、不同型號伺服器的管控。

支援自定義伺服器型別、伺服器資源、故障監視器、效能監視器、TRAP監視器等,提供配置伺服器模板的功能,允許使用者自定義伺服器真實皮膚圖。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

第2章 伺服器實時監控

伺服器承載大量業務,若出現故障則極有可能導致業務的中斷和資料的丟失,因此需要對伺服器的各項效能指標進行實時監控,發現效能瓶頸和潛在的故障風險。

2.1.伺服器影像化監控

2.1.1.自動發現伺服器及其他裝置

在網路可達範圍內,僅需輸入IP範圍即可自動發現網路中的伺服器及其他裝置,識別其廠商、型號,生成資源邏輯拓撲或真實皮膚圖,匹配故障與效能監視器,並自動發現伺服器與交換機、伺服器與其他裝置直接的連線關係,生成視覺化鏈路,透過可視拓撲動態展示伺服器、鏈路的執行狀態。

2.1.2.自動生成網路拓撲

方案以圖形化方式系統展現網路拓撲關係,支援樹形結構和平面結構的聯動展示,也可以按片區、按地域、按層級等多種佈局方式劃分網路,在拓撲中以不同顏色圖示、光效展現伺服器的實時狀態資訊。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

2.1.3.視覺化展示伺服器資源

在拓撲圖的基礎上,進一步展示伺服器的細節,可以是其物理元件,也可以是使用者定義的其他監控物件。提供資源邏輯拓撲,以圖形方式展示記憶體、CPU、磁碟、程序、服務、電源、風扇、溫度等資源資訊,對伺服器進行細化監控,實時告警,對裝置進行事前管理,降低故障發生率。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

2.1.4.智慧監控鏈路

智慧識別鏈路關係,支援自動發現或手動編輯伺服器之間、伺服器和其他裝置之間的鏈路、執行狀態、流量效能資料。透過直觀的拓撲圖幫助網路管理人員實時瞭解網路連結情況,配置情況及伺服器執行情況。

支援展示上傳流量、下載流量、狀態、接收/傳送資料包量、上傳下載丟包率、包錯誤率、上傳下載頻寬使用率、連通狀態、管理狀態等。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

2.2.伺服器效能態勢感知

實時監測並感知伺服器的相關效能情況,多維度處理、分析、展示伺服器效能態勢,實現“可觀、可管、可控”。

2.2.1.全面監控伺服器效能

全面採集伺服器的各項效能指標,如CPU使用率、記憶體使用率、磁碟空間、網路頻寬、風扇狀態、電源狀態等,並可按照時間範圍、資源型別、效能指標等多種維度,以圖形、表格等多種形式進行展示。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

2.2.2.實時、歷史效能分析

對實時、歷史效能資料進行統計分析,透過曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月檢視效能指標變化。運維人員能隨時把握伺服器效能變化態勢,防患於未然。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

2.2.3.多伺服器效能對比

支援選擇多臺伺服器進行同維度效能資料分析,提供視覺化效能對比檢視,透過效能對比分析伺服器效能變化趨勢。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

2.2.4.磁碟容量預測

透過智慧演算法分析磁碟容量歷史資料,生成符合未來趨勢的模擬資料和容量預測,並根據容量可使用時間進行自定義預警,最佳化資源規劃。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

2.3.日誌與事件管理

接收伺服器主動傳送如伺服器訪問量、使用者登入、使用者登出、登入失敗、作業系統啟動、作業系統關鍵性停止、系統啟動/重新啟動、感測器故障、感測器恢復等事件與日誌訊息,集中儲存、解析處理後,將錯誤、告警、攻擊行為等異常資訊及時地通知使用者。透過統一介面集中管理事件與日誌,提高其完整性和可追溯性,幫助使用者快速定位問題並採取相應的解決措施。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

2.4.故障告警與智慧收斂

搭載多種告警機制,自定義配置告警閾值,具備主動的故障監控功能,從眾多的事件和狀態中,系統地將零散的狀態資訊,總結成為當前狀態,並對異常狀態進行告警,第一時間獲取準確的告警資訊,快速標示已執行操作的告警,迅速定位產生告警的伺服器,提升告警處理效率,極大降低因伺服器故障帶來的損失。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

告警管理採用自動去重、風暴抑制、關聯聚合、維護期時間遮蔽、依賴遮蔽等多種智慧告降噪機制,透過AI演算法,對各類告警進行自動壓縮收斂,減少90%的無效告警,抑制告警風暴,有效避免誤報和漏報,直達故障根因。

2.5.伺服器狀態自動巡檢

可自定義巡檢策略,預設執行時間進行自動化巡檢,定期巡查伺服器實時執行狀態,並向指定郵箱傳送結果報告,把握網路執行中的易出現問題的環節,做到預防為先。可自行選擇要統計的網路範圍、伺服器型別、資源型別、伺服器支撐的業務、伺服器關聯的鏈路等生成巡檢報表。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

2.6.伺服器流量透視

提供端到端的流量透視能力,從伺服器主機、介面到服務、應用、會話等層級的實時流量監控和歷史流量分析,識別頻寬消耗較大的應用程式、服務、協議,避免網路容量過載,監控網路攻擊和惡意流量,提升終端使用者網路體驗。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

第3章 伺服器承載的業務狀態撥測

針對伺服器支撐的業務應用效能與使用者體驗進行檢測分析,無需安裝外掛就可以為使用者提供開箱即用的企業級主動撥測式業務監測。以拓撲形式展示每個業務流程中的每臺相關裝置,支援裝置邏輯檢視和皮膚檢視,展示業務流程中涉及的所有的裝置之間的鏈路關係,流程方向。

構建包含各業務整體流程的呼叫依賴關係圖譜,展示業務部署中網路裝置間多維度關係拓撲。對從業務的前臺受理到真正完成的整個業務流程所依賴的業務應用、伺服器、中介軟體、資料庫、作業系統等進行實時監控分析,呈現業務各節點的實時執行狀態,包括使用者體驗、節點可用性、節點負載等狀態資訊,快速定位業務瓶頸根因,並可根據使用者自愈策略,觸發自動運維實現故障自愈。

第4章 統計報表和大屏展示

透過定義伺服器相關資料包表的能力,實現伺服器效能和狀態的靈活展現和統計分析,透過同比、環比、TOPN等分析方式並結合報表排序規則、過濾規則等能力,週期自動生成報表,幫助使用者更好地瞭解伺服器的各項負載情況和執行態勢,為最佳化資源配置和效能調整提供依據。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

透過大屏展示核心運維資料態勢,細粒度可達網路中伺服器、伺服器資源和鏈路。所有的網路故障與效能瓶頸都一目瞭然地呈現,大大降低了管理成本,同時也提高了運維人員處理故障的能力,節省的故障處理時間,為運維人員管理網路提供了可靠的保證。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

第5章 伺服器遠端控制和編排式配置

方案提供伺服器遠端控制的能力,採用“監控+運維+控制”的方式,將不同型別、不同型號、不同廠商的伺服器統一納入控制,集中管理。透過智慧演算法對伺服器的資源配置進行智慧動態調整,以便更高效地利用資源,降低能耗。

5.1.伺服器遠端配置執行

將週期性、重複性、規律性的大量日常伺服器配置工作,如批次分發配置檔案、一鍵開關機、程序管理、應用管理、配置SSL證書、限制遠端訪問、定期備份伺服器資料等,轉化為依託於平臺的自動執行工作流,實現對伺服器的批次、定時等自動化控制。

5.2.故障自愈以伺服器磁碟爆滿自動清理為例

以伺服器實時監控和日誌、事件管理為基礎,動態發現網路故障,智慧判斷告警型別及級別,利用自動化故障診斷和修復能力,實現常規故障自動處置,特殊告警觸發升級與工單,最終實現故障恢復,減少人工干預,提高運維效率。

下面以伺服器磁碟爆滿自動清理為例,介紹如何透過智和網管平臺實現伺服器故障自愈。

效果要求:當伺服器磁碟使用率超過90%時,觸發自動清理策略,釋放磁碟空間。

第一步:將需要管理的伺服器納入平臺進行監控,並將監視器設定為磁碟使用率超過90%進行嚴重級別告警。

第二步:進入安管模組的運維編排選單,建立磁碟爆滿自動清理策略。根據真實排障過程,透過進行策略節點拖拽編排的方式規劃自愈流程。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

第三步:配置觸發方式。方式支援透過告警觸發和透過時間觸發兩種方式進行,為實現故障自愈的效果,我們選擇透過匹配告警的方式觸發策略。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

編排流程配置完成後,裝置出現對應的嚴重級別告警後,立即觸發磁碟清理策略,自動執行編排內的操作,對故障進行校驗和處置。並在執行過程中,對每一步處置操作進行記錄形成日誌,確保有跡可循。

5.3.配置備份、對比與恢復

支援配置檔案批次備份、下載、週期性備份、檢視等,對伺服器的多個備份檔案進行對比。定期自動對伺服器配置進行巡檢備份,並可進行對比分析,為使用者管理網路做出合理的建議提供資料支撐,支援進行已備份配置間的對比分析和針對性的配置恢復。

第6章 伺服器資產CMDB管理

透過構建伺服器資產資料庫,將伺服器的資訊包括資產編號、資產名稱、品牌型號、來源、購買日期、硬碟容量、處理器、記憶體容量、機箱規格、負責人等資訊以及維保到期時間、維保單位等維保資訊統一管理。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

動態感知納入監控的伺服器執行狀態,並以圖譜的方式呈現伺服器與其他資產、配品配件、機房、機櫃、網路鏈路、使用人等靜態關聯關係。

第7章 伺服器運維工作全面無紙化

結合伺服器運維工作,如伺服器採購、維修、更換等業務需求場景,自定義工單模板內的欄位,並對欄位排序進行調整,使工單根據業務的不同更加貼合使用者實際使用情況。將伺服器運維相關工作全面轉為無紙化辦公,簡化運維工作流程,在每個處理流程的節點上責任到人。

伺服器監控運維方案,一體化智慧觀測伺服器狀態

第8章 應用價值

北京智和信通伺服器監控運維方案為使用者提供了一個全面而高效的工具,以管理其IT基礎架構,幫助使用者日常運維工作效率大幅提升。透過資料分析報告使用者可以深入瞭解伺服器的執行狀態和系統效能,從而最大化地挖掘和利用伺服器的價值,避免資源不必要的浪費。

透過此方案的實施實現對伺服器的實時監控,運維團隊能夠及時獲取硬體狀態、系統效能和網路連線等關鍵資訊,整體運維工作從傳統的被動響應模式轉變為積極主動的預防策略。一旦系統檢測到異常資訊,便會立即觸發告警機制,並結合自動化運維能力,快速實現故障自愈。這種轉變不僅顯著減少了因系統故障導致的當機時間,也極大地降低了上層業務中斷的風險。透過保障企業的業務連續性,為使用者避免因業務中斷而可能造成的經濟損失。

此外,方案還具備強大的擴充套件性和靈活性,能夠輕鬆應對企業不斷變化的伺服器管控需求。隨著企業業務的快速發展,伺服器數量和規模也會不斷增長,而此方案可以透過簡單的配置和擴充套件,保持對伺服器的持續監控。

同時,方案還提供了豐富的自定義功能,使用者可以根據自己的實際需求和業務特點,定製個性化的監控指標、告警規則、報告內容等,從而更好地滿足差異化運維需求。這種靈活性使得方案能夠廣泛應用於不同行業、不同規模的使用者,幫助使用者實現更加高效、可靠的伺服器監控運維管理。

總體而言,北京智和信通伺服器監控運維方案不僅提供了全面的伺服器監控功能,還具備強大的自動化運維和故障自愈能力,能夠幫助使用者實現更加高效、可靠的伺服器運維管理。

相關文章