生產事故後續
2019年3月5日的生產事故,是我成為一名光榮的程式設計師後的第一次。團隊所有人一起緊急處理,在發現問題後的兩個小時內,恢復了服務。
沒有人責怪我,我依舊很忐忑。
主管很生氣,卻也沒有再說責備的話,只是告訴我必須找到原因,後續會召開復盤會議。
老闆目前還在出差,群內關於事故的訊息老闆沒有回覆,不知道是沒注意,還是準備回來了再處理。
回顧整個過程,我的心態也發生了很大的變化。一開始我是不信的,我一直覺得自己負責的這一塊僅供內部使用,並未牽扯到生產環境和客戶端。發現問題小夥伴的緊張態度和主管審問般的語氣擊碎了我的懷疑。緊跟著主管開始發號施令,我的任務是撤下相關功能並找出原因。帶著不甘心,我開始查日誌,做測試,嘗試復現問題。
然而,直到問題解決了,我依舊沒有找到原因。主管再次強調必須找到原因。
我找到同組的小夥伴幫我review我的程式碼,她確認程式碼沒有問題。我更加困惑了,原因到底出在哪裡?
我根據系統操作記錄再去找運營人員,是他修改了資料。根據他模糊不清的描述,我認為是他誤操作導致資料被覆蓋的。我沒有直接指出這一點,因為即使是他的操作失誤,也是建立在我給他提供這個功能的基礎上的。
運維的同事聯絡了我,問我是否有可能是後端和前端部署時間不一致導致的。這句話讓我突然想到,在運營人員操作前後,我曾經hotfix過一個bug,這個bug會導致form開啟後顯示上一次開啟的資料。若在他執行修改時第一次開啟form時關鍵欄位是沒有資料的,那後續開啟form執行修改,就會刷掉已有資料。而之所以我無法復現該問題,是因為測試程式碼已經是最新的了,沒有該bug。
最後,我提交了事故報告給主管。報告中指出,問題的原因是我的程式碼不規範,並且說明了問題已經解決。
截至目前,沒有特別處罰。希望老闆回來也不會有。畢竟老闆還未就此事發言,說不定人家根本不關心(๑ʘ∆ʘ๑)
相關文章
- 出了生產事故,到底要不要罰錢?
- 深夜生產事故,人工多執行緒來救場!執行緒
- 一次因生產事故與chatGpt的對話ChatGPT
- 記一次生產事故 磁碟被佔滿
- 「生產事故」MongoDB複合索引引發的災難MongoDB索引
- 一次生產事故的最佳化經歷
- 特斯拉ModelX發生高速事故,撞車後起火造1人死亡
- 記一次記憶體溢位導致的生產事故記憶體溢位
- 記一次生產事故:30萬單就這樣沒了!
- 週末生產事故!一次心驚肉跳的伺服器入侵排查....伺服器
- 凌晨1點突發致命生產事故,人工多執行緒來破局!執行緒
- 記一次最近生產環境專案中發生的兩個事故及處理方法
- 張馳諮詢:精益生產培訓延續改進生產流程的7個方法!
- 一次JVM FullGC的背後,竟隱藏著驚心動魄的線上生產事故!【石杉的架構筆記】JVMGC架構筆記
- 深入認識二進位制序列化--記一次生產事故的思考
- 打造Ubuntu為PHP開發生產力工具[持續更新]UbuntuPHP
- TPM防止裝置事故發生的具體措施
- 解讀喬新亮的《看透本質:研發出了生產事故,到底要不要罰錢?》
- SAP 談談PFCG建立ROLE後打包產生TR
- NGINX生產環境反向代理到後端tomcat配置Nginx後端Tomcat
- mysqldump同步生產到生產資料MySql
- 對手機丟失後可能產生的危害的思考
- TPM是如何幫助企業防止安全事故發生的?
- FMEA是如何幫助企業防止安全事故發生的?
- 後疫情時期:重塑更具可持續性的時尚產業產業
- Math類產生隨機數後保留一位小數隨機
- DFMEA=拯救者,可以避免很多質量問題事故的發生!
- 【文獻解讀】Generating Sentences from a Continuous Space,VAE產生連續空間變數變數
- Hadoop 2.0產生Hadoop
- 往後餘生
- 提高開發生產力 - 生產力指南篇(之一)
- 關於離職後續
- 字尾陣列(後續)陣列
- JS腦圖--後續完善JS
- Captcha服務(後續1)APT
- 新央企地產巨頭中國融通誕生背後 資產規模超萬億元
- 生產車間如何做好精益生產管理培訓
- P0級事故頻發後,這家公司終於醒悟了!