服務案例|故障頻發的一週,居然睡得更香!

Linksla發表於2023-11-22

醫院運維,聽起來平平無奇毫不驚豔,但其中的含金量,可不是 “維持系統正常執行”就能總結的。畢竟醫院對業務連續性的超高要求,讓運維面對的問題都是暫時的,下一秒可能就有新問題需要發現解決。

 

醫療資訊化不斷提高,各類裝置、終端數量呈爆發式增長。 IT執行環境日趨複雜,系統間關聯逐漸加深,機房管理、系統監控...運維工作加量不加價。在保障資訊系統高可用,穩定與安全之間,資訊部門選擇所有。

 

 當我們試圖解決醫院棘手的運維問題,就要去做系統性建設。安徽某三甲醫院攜手 LinkSLA智慧運維平臺,已經走過四個年頭,早早完成從傳統運維到智慧運維的升級,不僅改善對業務系統的支撐,同時幫助運維工作提質增效。

醫院運維能力提升主要集中在三個方面:

1、全棧資源統一監控

涵蓋 多型別、品牌監測,支撐大規模複雜資料的關聯分析,一個介面瞭解醫院所有 IT資源執行狀態。

2、 IT資源視覺化呈現和分析能力

資料呈現更靈活,將網路拓撲、關鍵效能指標、系統健康狀態和警報資訊等視覺化呈現,提供資料的圖形展示,運維人員可快速掌握和分析資訊。

3、 故障的快速定位與恢復,保障 業務連續性。

實時自動巡檢,準確定位故障節點,將故障處理時效從小時級降至分鐘級。自動識別並分析業務及關聯資源的常見故障,變被動響應為主動預防,有效降低故障發生率。  

 

該使用者上週罕見的頻發告警故障,平臺透過及時的告警和服務響應,幫助使用者快速解決故障保障業務系統的穩定健康。客戶表示雖然告警變多了,但是平臺比他更主動,出手更快。很享受這種可控、可靠的服務。


案例一、解決 nutanix節點記憶體使用率高問題


宿主機的記憶體使用率看似微不足道,實際檢查起來費時費力,很多使用者會過濾掉,不願為這種小事每天做例行檢查。但是小問題也會引發大事件,嚴重可導致非計劃停機,大面積的業務中斷。

上週一 16:55分,平臺收到該客戶Nutanix-Hypervisor記憶體使用率超出閾值告警。

 

MOC工程師通知現場工程師處理,提醒記憶體使用過高,建議 將部分虛擬機器遷移,從 02節點遷移至01節點。

 

虛擬機器遷移後,告警問題得以解除。 平臺透過 moc7*24線上值守,幫助客戶更輕鬆高效運維,提前告知客戶,做好空間規劃與清理,有效避免小事情造成麻煩。

案例二、解決 HIS資料庫日誌空間滿問題


週二 14:22,平臺收到HIS資料庫日誌檔案空間使用率過高告警,THIS4的日誌檔案增高,接近100。

 

日誌檔案使用率閾值設為 80%,過去一段時間使用率在10%左右平穩執行,根據當天時序圖顯示,從14:20開始,短短5分鐘THIS例項的日誌檔案就從2.74G火速上升到28.86G,日誌檔案異常暴增,背後到底發生啥?讓moc帶我們走進現場。

 

MOC工程師第一時間溝通現場工程師,檢查故障確定因資料庫差異化備份導致, 資料庫 : COMMON、HRP_HB、MZHSZ、 NIS_MOBILE、THIS4備份完成後,磁碟空間使用率恢復正常, 告警得以解除。

分鐘級的告警響應,源自於平臺對每個業務元件的指標、日誌進行實時監控檢測,一旦觸發告警 moc工程師會第一時間響應,通知現場工程師直到問題解決。將隱患扼殺在萌芽狀態,大大降低系統當機風險。


案例三、解決 C盤IO繁忙率高問題 


週三 7:18,【OC】磁碟繁忙率超過閾值, C盤讀寫請求服務佔所用時間百分比"Percent_Disk_Time"大於90%,逼近100%。

 

moc工程師初步判斷兩種可能。 其一, C盤負載過重,導致磁碟無法及時處理所有的讀寫請求,其二,磁碟驅動器出現了故障或其他問題。

 

MOC工程師與現場工程師溝通,建議進行系統效能分析和磁碟故障排除, 檢查系統中的磁碟活動情況,檢視程式或應用程式是否過多佔用磁碟資源,嘗試 清理磁碟碎片,釋放磁碟空間。進行病毒掃描,確保系統沒有受到惡意軟體的影響。如果是硬體故障,可能需要更換磁碟或進行維修。

透過現場工程師排查,最終得出由於部署服務反覆停止和重啟導致   C佔用率過高導致,重啟伺服器後恢復正常

LinkSLA改變傳統人工排查故障的方式,透過實時自動巡檢,一站式的資料管理分析,快速定位響應告警,效率大幅提升。傳統需要供應商多次溝通才能完成故障定位修復,甚至耗時1個月以上時間,基於平臺的監控資料以及專家支援,故障發現定位恢復時間縮短至小時級。

       此外,透過 MOC工程師,客戶可以輕鬆使用平臺,無需時刻緊盯監控,也能掌握平臺執行狀態,遇到突發問題,moc會第一時間通知,協助故障定位和提供解決方案,真正做到事前有御防,事中有保障,事後有總結。

       LinkSLA智慧運維改善資訊部門對業務系統的支撐能力,同時大幅降低運維人員的工作強度,使其將更多精力用於運維管理,未來醫院發力智慧醫療,也將受益智慧運維的高效工作,收穫長期價值。     


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70013542/viewspace-2996617/,如需轉載,請註明出處,否則將追究法律責任。

相關文章