前公司一次線上問題解決的旅程
前某公司一次線上問題解決的旅程
背景:
在前某公司的 2B 業務某服務做測試工作,基本業務為上游收到訊息後,發給本系統,本系統處理結束後訊息發給下游
問題的出現:
- 本系統處理新訊息時報 Exception,未能入庫和計算,push 了下游不能預料的訊息給下游
- 下游採取了預設路徑處理該訊息
當時處理:
- 發生問題後,迅速修改程式碼和上線,半小時左右問題消失
- 需要重新處理這半個小時的業務
後續處理:
- ELK log 系統透過 elastic search 工具抽取所有業務資料,並去重 - 測試做
- 同步 ELK log 系統抽取最早的一份異常資料,分析 log,並開發程式將 log 重新整理為 rabbitMQ 的標準報文格式 - 開發做
- 1 的檔案經 2 的程式處理後獲得裸報文資料檔案 - 開發做
- 透過 postman 批次傳送 3 獲得的訊息,觸發重新入庫,計算和釋出訊息 - 測試做
一些想法:
- ELK 的 log 過濾和分析還是很好用的
- message 是分散式系統的基本功
- 談責任,開發測試反目成仇;談補救,上陣親兄弟各司其職
現在滾蛋了,還是很感恩和幾個好兄弟一起做專案的時光啊
相關文章
- 一次線上問題的排查解決過程
- 一次線上OOM問題分析OOM
- 記一次線上FGC問題排查GC
- 一次線上問題排查所引發的思考
- 一次上線遇到的DB2 dprop問題DB2
- 一次線上CPU高的問題排查實踐
- 一次線上OOM問題的個人覆盤OOM
- 解決線上Oracle連線耗時過長的問題現象RPYBOracle
- 記錄一次解決App崩潰問題的解決方案APP
- 終於解決了這個線上偶現的panic問題
- Elasticsearch 線上實戰問題及解決方案探討Elasticsearch
- 記一次 Composer 問題的解決過程!!
- 一次 nginx 返回 302 問題解決Nginx
- 記一次線上崩潰問題的排查過程
- SpringBoot解決前後端跨域問題Spring Boot後端跨域
- 記一次線上websocket返回400問題排查Web
- 線上問題排查:記一次 Redis Cluster Pipeline 導致的死鎖問題Redis
- 線上直播原始碼開發IOS端問題解決方案原始碼iOS
- 記錄一次無法很好解決的問題
- 故障解析丨一次死鎖問題的解決
- 一次JVM記憶體問題導致的線上事故JVM記憶體
- 一次線上問題處理過程記錄
- Arthas常用功能及一次線上問題排查
- 記一次線上報錯日誌問題排查
- 前後端分離解決跨域問題後端跨域
- 石家莊線上教育系統熱線:您的教育問題解決了嗎?
- SEO公司來解決網站上容易發現的問題網站
- 如何透過CRM解決公司業績下滑的問題
- 解決代理連線超時問題
- Matlab解決線性規劃問題Matlab
- 波音公司基於TRIZ理論解決問題
- laravel線上環境表單驗證重定向問題解決方案Laravel
- 回憶一次時鐘問題的解決(簡單粗暴)
- 代理伺服器的連線問題及解決伺服器
- 解決伺服器被黑上不了網的問題伺服器
- tkinter 元件 的 只能驗證一次的問題的的解決方案.元件
- android 記一次解決鍵盤遮擋問題Android
- android記一次解決鍵盤遮擋問題Android