雲上運維案例分享

Linksla發表於2022-10-24

一、背景

當下,越來越多的企業選擇業務資料上雲。不可否認資料上雲後,增強了擴充套件的便利性,但是同時也提高了運維管理的難度。如何實現雲上業務管理,是運維工程師們面臨的新問題。


LinkSLA智慧運維管家,不僅提供私有云的運維管理,同時為公有云上業務系統提供了統一運維平臺。方便IT運維工程師實時掌握公有云上系統的執行狀況。


二、案例

下面我給大家分享一個雲上運維監控的小案例:


1、夜間重啟

在5月底,某三甲醫院接入10臺互聯互通雲上系統,並接入平臺統一進行運維監控。


接入後,平臺檢測到其中2臺雲系統多次在凌晨發生重啟。


而云系統管理工程師反饋並未發現裝置重啟現象。在MOC工程師建議下,雲管理工程師登入系統,檢視伺服器日誌,找到了系統重啟記錄。


經過排查,是Windows系統夜間進行打自動補丁更新,導致伺服器重新啟動。


雲裝置管理工程師重新配置伺服器打補丁策略,夜間重啟問題得到解決。


2、cpu使用率異常

幾天後,平臺接到其中一臺雲系統的CPU使用率異常告警。MOC工程師檢視近三日CPU使用率時序圖,發現此裝置的CPU使用率在每日凌晨1:00--4:00 和凌晨6:30--7:00兩次接近100%,導致系統執行慢,MOC通知使用者確認是否需要調整,對CPU進行擴容。然而云裝置管理工程師,反饋是夜間備份所致。


在使用者的要求下,雲裝置管理工程師對CPU進行擴容。但是擴容後,平臺檢測到問題仍然存在。透過MOC工程師協助提供的系統網路流量時序圖,確定CPU使用率升高的時間段與網路備份時間並不重疊。排除CPU使用率高是網路備份原因導致。


最後,在軟體工程師協助問題排查出是應用軟體問題,CPU使用率高問題終於問題得以解決。實際上也驗證了我們透過“生命體徵”的監測,可以反推“內臟系統”的隱患。


三、總結

透過以上案例,我們可以看到資料上雲後,運維工程師更需透過專業監控工具實時掌握雲上業務執行情況,為業務系統保駕護航。LinkSLA智慧運維管家,完美的提供瞭解決方案。


資料上雲只是輕鬆運維的開始,專業,可信,方便,快捷的統一運維監控平臺才是雲上運維順利進行的保障。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2919934/,如需轉載,請註明出處,否則將追究法律責任。

相關文章