語雀P0級事件爆發,留給運維的機會不多了?

Linksla發表於2023-10-31

打工人的焦慮,已經延伸到線上文件了。近日,語雀P0級故障想必大家都有所體會,當機近8小時,筆記、離線同步完全不可用。作為使用者尤其擔心我的文件資料是否會因此消失。

這潑天的8小時,放眼網際網路界也是相當炸裂的。

從次日的故障處理通報可知,團隊在收到運維監控系統報警後,定位故障根因來自於新的運維升級工具中的一個致命bug,該bug帶來了一系列嚴重的影響。更深層次的問題在於高可用架構體系的設計、運維流程,以及專案規範的不完善。

教訓是個體的,經驗是共享的。語雀表示:作為一款千萬級使用者的線上文件, 應該做到更完善的技術風險保障和高可用架構設計,尤其是面向技術變更操作的“可監控,可灰度,可回滾”的系統化建設和流程審計,從同 Region 多副本容災升級為兩地三中心的高可用能力,設計足夠的資料和系統冗餘實現快速恢復,並進行定期的容災應急演練。

如何提升運維效率,保障系統的穩定運維,故障如何才能快速恢復,並從根本上避免此類故障再次出現才是運維的核心要義。

1

 不斷完善監控系統

「無監控,不運維」,監控系統的地位不言而喻。 監控什麼,能發揮什麼價值,結合LinkSLA智慧運維管家進一步闡述。

1、實時採集監控資料 包括硬體、作業系統、中介軟體、應用程式等各個維度的資料。實時掌握瞬息萬變的複雜的業務系統,對業務的健康穩定有著極其重要的價值。

2、實時反饋監控狀態 ,透過對採集的資料進行多維度統計和視覺化展示,能實時體現監控物件的狀態是正常還是異常。

3、預知故障和告警 ,能夠提前預知故障風險,並及時發出告警資訊。

4、輔助定位故障 ,提供故障發生時的各項指標資料,輔助故障分析和定位。

5、輔助效能調優 ,為效能調優提供資料支援,比如慢SQL分析與最佳化,介面響應時間等。

6、輔助容量規劃 ,為伺服器、中介軟體以及應用叢集的容量規劃提供資料支撐。例如看似簡單的空間增長問題,實際檢查起來非常費時費力,很多使用者會過濾掉,不願為這種小事每天做例行檢查。透過AI機器學習演算法,進行趨勢性監測分析,提前一週告知客戶,做好空間規劃與清理。

2

 更有效地使用監控系統

在故障覆盤時,有沒有做監控? 監控是否及時? 監控資訊是否有助於快速定位問題?這三個問題一定會被追問。 可見有監控系統還遠遠不夠,如何用好才是關鍵。
統一部署,全鏈路監控

將分散監控實現集中統一的監控管理,建立統一的事件管理體系,對告警嚴重等級設定標準、規範事件處理流程,提高運維效率。透過視覺化大屏,可全面直觀地掌握業務系統及IT資源執行狀態。

趨勢預測,提前預知

清楚使用哪些指標來刻畫監控物件的狀態,比如對某個介面進行監控,可以採用請求量、耗時、超時量、異常量等指標來衡量。

機器學習演算法透過資料分析趨勢變化,對未來趨勢進行預測,自動調整閾值,提前對故障進行響應,實現告警收斂、異常監測, 輔助運維人員聚焦關鍵故障資訊,極大程度地提高運維效率。

設定合理的報警閾值和等級

達到什麼閾值需要告警?對應的故障等級是多少?

傳統運維依賴人工和靜態規則,無法適應動態複雜變化的場景。LinkSLA智慧運維可基於歷史資料,利用智慧演算法深度學習,對未來時間段的數值精準預測,將預測值作為基線,更貼近使用者使用場景。

告警分為5個等級,對應的處理方式也不同。MOC線上值守工程師根據告警等級,選擇線上處理或溝通現場工程師進行處理,確保問題得到及時響應。

3

 完善的故障處理流程

快速恢復——應急預案很重要

應急方案很重要,故障處理第一原則是快速恢復。系統恢復執行足夠快,就不會造成太大影響。一個合格的應急方案,要包含 系統、服務、輔助工具等方面。 如系統或上下游出現問題,知道如何配合上下游分析問題;服務上如 日誌、程式、配置檔案在哪裡,如何檢查服務是否正常,如何重啟服務,如何調整應用級引數等。知曉這個服務影響什麼業務; 輔助工具上 如何使用自動化工具輔助分析並應急。 這就 要求運維人員熟悉系統邏輯,架構部署,應用作用,埠,服務等級的應急處理。

告警要及時、準確 

故障處 理的時效 性,關鍵在於是否及時發現故障,是否及時處理故障 這兩點的 前提還在於告警是否 準確。 如果運維監控 平臺 產生大量的錯誤、重複、無效告警,則大大 降低了運維 效率,浪費 大量的精力和 成本處理這些無效告警。

試用2個月的使用者表示   “告 警減少了65%,MTTR減少了30%” 大大的節約了公司處理告警的時間成本和風險。戳?

僅用2個月,告警減少65%,這家公司做對什麼?

完善故障處理流程 

在日常的運維場景中,普遍存在2個問題。一是 無法時刻關注系統的告警情況, 其次是遇到告警問題不知該如何處理。 MOC工程師7*24值守解決系統關注問題,固化ITIL流程, 當系統 出現故障報警後 對報警資訊進行篩選,對於高危報警能第一時 間通知客戶,並提供技術支援。 這一點大大降低使用者的系統風險和人力成本的投入,解決告警處理問題。

在故障處理案例中,從問題的發現到解除,只用了15分鐘。戳?
案例分享|從發現到處理,15分鐘故障解決


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2992064/,如需轉載,請註明出處,否則將追究法律責任。

相關文章