語雀P0級事件爆發,留給運維的機會不多了?
打工人的焦慮,已經延伸到線上文件了。近日,語雀P0級故障想必大家都有所體會,當機近8小時,筆記、離線同步完全不可用。作為使用者尤其擔心我的文件資料是否會因此消失。
這潑天的8小時,放眼網際網路界也是相當炸裂的。
從次日的故障處理通報可知,團隊在收到運維監控系統報警後,定位故障根因來自於新的運維升級工具中的一個致命bug,該bug帶來了一系列嚴重的影響。更深層次的問題在於高可用架構體系的設計、運維流程,以及專案規範的不完善。
教訓是個體的,經驗是共享的。語雀表示:作為一款千萬級使用者的線上文件, 應該做到更完善的技術風險保障和高可用架構設計,尤其是面向技術變更操作的“可監控,可灰度,可回滾”的系統化建設和流程審計,從同 Region 多副本容災升級為兩地三中心的高可用能力,設計足夠的資料和系統冗餘實現快速恢復,並進行定期的容災應急演練。
如何提升運維效率,保障系統的穩定運維,故障如何才能快速恢復,並從根本上避免此類故障再次出現才是運維的核心要義。
不斷完善監控系統
1、實時採集監控資料 ,包括硬體、作業系統、中介軟體、應用程式等各個維度的資料。實時掌握瞬息萬變的複雜的業務系統,對業務的健康穩定有著極其重要的價值。
2、實時反饋監控狀態 ,透過對採集的資料進行多維度統計和視覺化展示,能實時體現監控物件的狀態是正常還是異常。
3、預知故障和告警 ,能夠提前預知故障風險,並及時發出告警資訊。
4、輔助定位故障 ,提供故障發生時的各項指標資料,輔助故障分析和定位。
5、輔助效能調優 ,為效能調優提供資料支援,比如慢SQL分析與最佳化,介面響應時間等。
6、輔助容量規劃 ,為伺服器、中介軟體以及應用叢集的容量規劃提供資料支撐。例如看似簡單的空間增長問題,實際檢查起來非常費時費力,很多使用者會過濾掉,不願為這種小事每天做例行檢查。透過AI機器學習演算法,進行趨勢性監測分析,提前一週告知客戶,做好空間規劃與清理。
更有效地使用監控系統
將分散監控實現集中統一的監控管理,建立統一的事件管理體系,對告警嚴重等級設定標準、規範事件處理流程,提高運維效率。透過視覺化大屏,可全面直觀地掌握業務系統及IT資源執行狀態。
趨勢預測,提前預知
清楚使用哪些指標來刻畫監控物件的狀態,比如對某個介面進行監控,可以採用請求量、耗時、超時量、異常量等指標來衡量。
設定合理的報警閾值和等級
達到什麼閾值需要告警?對應的故障等級是多少?
傳統運維依賴人工和靜態規則,無法適應動態複雜變化的場景。LinkSLA智慧運維可基於歷史資料,利用智慧演算法深度學習,對未來時間段的數值精準預測,將預測值作為基線,更貼近使用者使用場景。
告警分為5個等級,對應的處理方式也不同。MOC線上值守工程師根據告警等級,選擇線上處理或溝通現場工程師進行處理,確保問題得到及時響應。
完善的故障處理流程
應急方案很重要,故障處理第一原則是快速恢復。系統恢復執行足夠快,就不會造成太大影響。一個合格的應急方案,要包含 系統、服務、輔助工具等方面。 如系統或上下游出現問題,知道如何配合上下游分析問題;服務上如 日誌、程式、配置檔案在哪裡,如何檢查服務是否正常,如何重啟服務,如何調整應用級引數等。知曉這個服務影響什麼業務; 輔助工具上 如何使用自動化工具輔助分析並應急。 這就 要求運維人員熟悉系統邏輯,架構部署,應用作用,埠,服務等級的應急處理。
告警要及時、準確
故障處 理的時效 性,關鍵在於是否及時發現故障,是否及時處理故障 。 這兩點的 前提還在於告警是否 準確。 如果運維監控 平臺 產生大量的錯誤、重複、無效告警,則大大 降低了運維 的 效率,浪費 大量的精力和 成本處理這些無效告警。
試用2個月的使用者表示 “告 警減少了65%,MTTR減少了30%” 大大的節約了公司處理告警的時間成本和風險。戳?
在日常的運維場景中,普遍存在2個問題。一是 無法時刻關注系統的告警情況, 其次是遇到告警問題不知該如何處理。 MOC工程師7*24值守解決系統關注問題,固化ITIL流程, 當系統 出現故障報警後 會 對報警資訊進行篩選,對於高危報警能第一時 間通知客戶,並提供技術支援。 這一點大大降低使用者的系統風險和人力成本的投入,解決告警處理問題。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2992064/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 當“B”AT成為歷史 留給百度的時間不多了
- 10年不換手機號,運營商會給什麼優待?
- 運維向運營轉型,會是企業IT傳統運維的發展方向嗎?運維
- 產品開發中不給力語錄
- 運維為什麼要學開發?linux運維學習難不難運維Linux
- “雲”端的語雀:用 JavaScript 全棧打造商業級應用JavaScript全棧
- 20款開發運維必備的頂級工具運維
- 15 年測試經驗,卷不動了,把機會留給後浪們吧,出去讀書試試看~
- 寫給資料庫運維的兄弟資料庫運維
- 次留73% 3留40% 休閒遊戲爆款是如何調優與發行的遊戲
- 我是一個不會運維的後端程式設計師運維後端程式設計師
- 小程式的出現留給APP的時間還會久嗎?APP
- 因疫情鎖國的印度,給本土遊戲公司帶來了怎樣爆發式的增長機會?遊戲
- P0級事故頻發後,這家公司終於醒悟了!
- 學歷造假但能力極強的程式設計師,你會不會留?程式設計師
- 女生適不適合做Linux運維開發工程師?Linux運維工程師
- IT運維的發展如何運維
- 併發操作餘額,給996留點福報996
- 維運世新身織會質務發教eik
- Linux運維工程師推薦學習的開發語言Linux運維工程師
- 機房運維的真香定律運維
- 網上網投被黑系統升級維護不給提款怎麼辦?
- 123、留別王維
- 叮咚!7.24 運維節,墨天輪給運維小夥伴送福利啦!運維
- 2020年初的疫情黑天鵝事件爆發後,公路貨物運輸量急劇下降事件
- 給Linux系統運維新手的四點建議Linux運維
- 網賭系統維護升級客服各種理由不給提款怎麼辦?
- 網路賭博被黑提款通道維護升級不給提款該怎麼辦?
- 運維小姐姐說這篇Consul叢集和ACL配置超給力(保姆級)運維
- Linux運維人員必會開源運維工具體系Linux運維
- 【linux運維】linux運維會被淘汰嗎?會消失在雲端計算中嗎?Linux運維
- 網上賭博提款通道維護升級不給提現該怎麼解決?
- 會議結束後,莫留機密在身後
- 推薦給運維人的14個最佳審查工具運維
- 推薦給“懶惰” Linux 運維工程師的 10 個關鍵技巧,瞬間提升運維效率!Linux運維工程師
- 網路網賭網站出款埠維護升級銀行維護不給提現該怎麼辦?網站
- 這 4 種 Redis 常用運維工具都不會?你算啥運維人Redis運維
- 簡化IT運維工作,就要學會使用自動化運維工具!運維