前公司一次線上問題解決的旅程
前某公司一次線上問題解決的旅程
背景:
在前某公司的2B業務某服務做測試工作,基本業務為上游收到訊息後,發給本系統,本系統處理結束後訊息發給下游
問題的出現:
- 本系統處理新訊息時報Exception,未能入庫和計算,push了下游不能預料的訊息給下游
- 下游採取了預設路徑處理該訊息
當時處理:
- 發生問題後,迅速修改程式碼和上線,半小時左右問題消失
- 需要重新處理這半個小時的業務
後續處理:
- ELK log系統通過elastic search工具抽取所有業務資料,並去重 - 測試做
- 同步ELK log系統抽取最早的一份異常資料,分析log,並開發程式將log重新整理為rabbitMQ的標準報文格式 - 開發做
- 1的檔案經2的程式處理後獲得裸報文資料檔案 - 開發做
- 通過postman批量傳送3獲得的訊息,觸發重新入庫,計算和釋出訊息 - 測試做
一些想法:
- ELK的log過濾和分析還是很好用的
- message是分散式系統的基本功
- 談責任,開發測試反目成仇;談補救,上陣親兄弟各司其職
現在滾蛋了,還是很感恩和幾個好兄弟一起做專案的時光啊
相關文章
- 一次線上問題的排查解決過程
- 一次線上 CPU 飆升問題的分析解決
- 一次線上OOM問題分析OOM
- 記錄一次解決App崩潰問題的解決方案APP
- 記一次跨域問題的解決方案跨域
- 記一次線上FGC問題排查GC
- 一次線上OOM問題的個人覆盤OOM
- 記一次 Composer 問題的解決過程!!
- 記錄一次無法很好解決的問題
- 一次ASM空間滿了的問題解決ASM
- 故障解析丨一次死鎖問題的解決
- 前後端分離解決跨域問題後端跨域
- 前後端分離 跨域問題解決後端跨域
- 解決「問題」,不要解決問題
- 一次線上CPU高的問題排查實踐
- 一次線上問題排查所引發的思考
- SEO公司來解決網站上容易發現的問題網站
- 如何透過CRM解決公司業績下滑的問題
- 記一次線上事故,redis 的keys問題,cpu引起的效能問題Redis
- 一次 nginx 返回 302 問題解決Nginx
- 終於解決了這個線上偶現的panic問題
- Elasticsearch 線上實戰問題及解決方案探討Elasticsearch
- SpringBoot解決前後端跨域問題Spring Boot後端跨域
- 哈哈!樓下問題解決!謝謝,各位前輩!
- 記一次線上崩潰問題的排查過程
- 記一次線上websocket返回400問題排查Web
- 波音公司基於TRIZ理論解決問題
- Palm公司擬大規模裁員 解決官僚問題
- 回憶一次時鐘問題的解決(簡單粗暴)
- tkinter 元件 的 只能驗證一次的問題的的解決方案.元件
- 線上直播原始碼開發IOS端問題解決方案原始碼iOS
- 解決 Laravel 5.8 前後端分離跨域問題Laravel後端跨域
- 一次JVM記憶體問題導致的線上事故JVM記憶體
- Arthas常用功能及一次線上問題排查
- 記一次線上報錯日誌問題排查
- 一次線上問題處理過程記錄
- 記錄一次解決服務請求的跨域問題跨域
- 利用sys schema解決一次詭異的語句hang問題