某鐵路資訊中心承擔大量實時監測、例行巡檢和排障維護等工作,為鞏固資訊化建設成果,提高整體運維效果,保障鐵路資訊系統穩定執行,需對現有網路監測系統進行升級改造。
裝置型別:伺服器、交換機、資料庫、中介軟體、虛擬機器、磁碟陣列、應用軟體、作業系統、雲平臺等。
裝置品牌:華為、H3C、深信服、MySQL、Oracle、Tomcat、JBoss、RabbitMQ、Nginx、中鐵信安、聯想、IBM、CentOS、Red Hat、Windows Server等。
功能需求:
- 實現資料中心與異地機房內不同品牌、型號的網路裝置、伺服器、儲存裝置等統一納管;
- 提供詳細的裝置監控指標庫,支援對不同裝置的CPU、記憶體、磁碟、網口、溫度等指標進行實時監控;
- 提供實時的裝置掉線、鏈路斷開告警;
- 自動定位故障位置和故障影響範圍,提升排障效率;
- 具備告警分析管理能力,能夠解決誤報錯報問題,提高告警準確度,可以透過多種途徑觸達告警資訊;
- 提升例行巡檢效率,自動化生成巡檢月報、半年報、年報等報告;
- 解決現有工具下無法對業務系統、資料庫、中介軟體的監控運維難題;
- 可以對日誌資料進行梳理、解析,實現日誌資料結構化儲存展示並將異常轉化為告警,解決日誌資訊複雜、難管理的問題;
- 解決人工進行裝置配置管理工作量大且操作複雜的問題,能夠快捷地對裝置配置進行管理;
- 實現運維知識的積累,構建運維知識庫。
智和信通方案
智和信通在深入理解某鐵路資訊中心的運維需求後,提出了一系列針對性的解決方案,旨在提升其監控運維平臺的執行效率、穩定性和智慧化水平,並透過此解決方案的實施助力資訊中心運維工作更加高效、穩定地進行。
異地裝置統一納管
在網路可達範圍內,僅需輸入IP範圍即可自動發現資訊中心和異地機房中的各類裝置,對裝置進行統一納管。
識別其廠商、型號,生成資源邏輯拓撲或真實皮膚圖,匹配故障與效能監視器,並自動發現裝置間連線關係,生成視覺化鏈路,透過可視拓撲動態展示裝置、鏈路的執行狀態。
豐富且可擴充套件的監控指標庫
針對某鐵路資訊中心的裝置品牌和型號,在匹配我們標準模型庫的基礎上,透過SNMP、IPMI、SSH、Telnet等協議對裝置及監控指標進行擴充套件。
- 對伺服器的監控指標:伺服器品牌、型號、序列號、開機時長、CPU使用率、記憶體使用率、硬碟容量、磁碟使用率、磁碟容量預測、磁碟I/O、電源狀態、溫度資訊、風扇狀態、網路介面流量頻寬等;
- 對交換機的監控指標:交換機品牌、型號、CPU使用率、記憶體使用率、電源狀態、風扇狀態、埠流量、網口狀態、網口輸入輸出流量、網口輸入輸出頻寬等;
- 對資料庫的監控:表空間、鎖數量、死鎖、併發數、連線數、快取命中率、讀寫次數、讀寫速度、讀命中率、已用空間、最大空間等。
- 對中介軟體的監控:執行緒數、記憶體佔用量、會話數、繁忙執行緒數量、請求服務數、請求服務錯誤數、連線數等。
- 對虛擬機器的監控:虛擬機器型別、CPU使用率、記憶體使用率、磁碟使用率、磁碟容量、網口狀態、網口輸入輸出流量、網口輸入輸出頻寬等。
- 對磁碟陣列的監控:CPU使用率、記憶體使用率、磁碟空間使用率、磁碟I/O、網口狀態、介面流量等。
- 對作業系統的監控:Ping、CPU使用率、記憶體大小、記憶體使用率磁碟空間、磁碟使用率、網口狀態、傳送/接收流量、傳送/接收頻寬、傳送/接收丟包率、傳送/接收錯誤包率、廣播包故障率、程序狀態、埠狀態等。
- 對雲平臺的監控:磁碟可用資源、記憶體使用率、CPU使用率、吞吐量等。
全面的告警管理,支援多種通知方式
支援多種告警機制,自定義配置告警閾值,具備主動的故障監控告警功能,第一時間獲取準確的告警資訊,快速標示已執行操作的告警,迅速定位告警裝置,提升告警處理效率,極大降低因網路故障帶來的損失。
採用自動去重、風暴抑制、關聯聚合、維護期時間遮蔽、依賴遮蔽等多種智慧告警降噪機制,對各類告警進行自動壓縮收斂,有效避免誤報和漏報。告警發生後,檢索異常問題關聯涉及的各項維度與影響範圍,一步定位到發生故障的源頭裝置,快速定位故障根因。提供介面顏色、提示聲、光效閃爍、資訊列表、Email、簡訊、釘釘、企業微信、個人微信等多種通知渠道,告警通知無延遲。
多維度效能管理,感知網路狀態
實時監測並感知網路效能狀態,全面覆蓋使用者IT環境。採集納入監控的伺服器、交換機、資料庫、中介軟體、虛擬機器、磁碟陣列、應用軟體、作業系統、雲平臺等裝置的效能指標。支援對實時、歷史效能資料進行統計分析,透過曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月檢視效能指標變化。
裝置事件、日誌集中管理
全面裝置主動傳送的Trap、Syslog、Filter Alarm等事件與日誌訊息,進行集中儲存和解析並提取有效資訊,將日誌儲存為可統計分析的結構化資料。根據對日誌資料的挖掘與分析,透過配置告警規則和場景,將異常日誌自動轉化為告警,定位其影響範圍。
端到端業務撥測,構建業務依賴關係圖片
針對使用者貨運系統、排程系統、車流服務等業務應用效能與使用者體驗進行檢測分析,以拓撲形式展示每個業務流程中的每臺相關裝置。按照硬體層-虛擬化層-應用服務層-介面層-資料層-介面層-使用者層等建立業務依賴關係圖譜,並以視覺化的方式直觀表達各層級對下層的依賴關係,以及同級之間的依賴關係。
對從業務的前臺受理到真正完成的整個業務流程所依賴的業務應用、伺服器、中介軟體、資料庫、作業系統等進行實時監控分析,呈現業務各節點的實時執行狀態,包括使用者體驗、節點可用性、節點負載等狀態資訊,快速定位業務瓶頸根因,並可根據使用者自愈策略,觸發自動運維實現故障自愈。
全量自動巡檢,解放人力
支援自定義巡檢策略,對裝置的執行情況進行統計和報表生成,並可預設時間巡檢策略執行時間,進行自動化巡檢,如自動每週、每月、每年的固定時間對裝置當前狀態進行巡檢,可向指定郵箱傳送巡檢結果報告,實現對網路裝置的定期檢查,把握網路執行中的易出現問題的環節,做到預防為先。
裝置遠端控制,配置檔案備份對比
將週期性、重複性、規律性的大量日常伺服器配置工作,如批次分發配置檔案、一鍵開關機、程序管理、應用管理、埠限速、ACL配置等,轉化為依託於平臺的自動執行工作流,實現對伺服器的批次、定時等自動化控制。
也支援配置檔案批次備份、下載、週期性備份、檢視等,對裝置的多個備份檔案進行對比。定期自動對裝置策略進行巡檢備份,並可進行對比分析。
構建運維知識庫,促進知識共享協作
將各類運維操作、故障判斷等經驗,轉化為存在於平臺內的知識,形成團隊知識庫。涵蓋知識的儲存、檢索、更新、維護、稽核,將運維工作中所需的運維文件、操作指南、排障實踐、處置流程和配置資訊等進行分類管理,所有成員均可進行知識分享,從而加速問題解決過程,促進團隊間的知識共享和協作,提升整體運維效率。
應用價值
過去某鐵路資訊中心網路監測工作主要依賴於傳統的巡檢和人工排查方式,在引入智和信通運維監測平臺對網路監測系統升級改造後,不僅實現了對某鐵路資訊中心網路的執行狀態進行實時監控,更實現了全自動巡檢和裝置遠端配置管理,不但有效預測並防止潛在故障的發生,也標誌著其運維方式從傳統的巡檢和人工排查方式向智慧化、自動化運維管理的轉變。
透過智和信通運維監測平臺實時瞭解網路裝置的執行狀況、網路流量的變化情況及網路拓撲結構的變化等資訊,無需再到現場進行巡檢,不僅提高了工作效率,也降低了工作成本。同時,對資訊中心網路的執行資料進行深入挖掘和分析,提供更加準確、全面的故障預測和預警,及時發現網路中的潛在故障點,透過多種報警方式,如簡訊、郵件釘釘、微信等,確保使用者能夠及時接收到故障資訊並採取相應的處理措施。避免故障擴大化,減少由於裝置故障或網路問題導致的鐵路事故。除了實時監控和故障預警外,智和信通運維監測平臺還提供了豐富的管理功能。透過平臺對網路裝置進行遠端管理和配置,實現裝置的自動化管理和維護。
在智和信通運維監測平臺的部署和應用後,不僅依託於強大的資料分析和處理能力,使得使用者可以更加精準地定位故障源頭,並採取有效的措施進行修復,大大提高了運維工作效率,也減少因故障帶來的損失。同時,透過自動化和智慧化的運維管理,降低了對人力資源的依賴。運維人員無需再頻繁地進行手動巡檢和排查,而是可以透過平臺自動生成的報告和資料分析結果,快速瞭解網路的執行狀況,極大地提高了運維工作的質量和穩定性。