生產事故後續

weixin_33766168發表於2019-03-08

2019年3月5日的生產事故,是我成為一名光榮的程式設計師後的第一次。團隊所有人一起緊急處理,在發現問題後的兩個小時內,恢復了服務。

沒有人責怪我,我依舊很忐忑。

主管很生氣,卻也沒有再說責備的話,只是告訴我必須找到原因,後續會召開復盤會議。

老闆目前還在出差,群內關於事故的訊息老闆沒有回覆,不知道是沒注意,還是準備回來了再處理。

回顧整個過程,我的心態也發生了很大的變化。一開始我是不信的,我一直覺得自己負責的這一塊僅供內部使用,並未牽扯到生產環境和客戶端。發現問題小夥伴的緊張態度和主管審問般的語氣擊碎了我的懷疑。緊跟著主管開始發號施令,我的任務是撤下相關功能並找出原因。帶著不甘心,我開始查日誌,做測試,嘗試復現問題。

然而,直到問題解決了,我依舊沒有找到原因。主管再次強調必須找到原因。

我找到同組的小夥伴幫我review我的程式碼,她確認程式碼沒有問題。我更加困惑了,原因到底出在哪裡?

我根據系統操作記錄再去找運營人員,是他修改了資料。根據他模糊不清的描述,我認為是他誤操作導致資料被覆蓋的。我沒有直接指出這一點,因為即使是他的操作失誤,也是建立在我給他提供這個功能的基礎上的。

運維的同事聯絡了我,問我是否有可能是後端和前端部署時間不一致導致的。這句話讓我突然想到,在運營人員操作前後,我曾經hotfix過一個bug,這個bug會導致form開啟後顯示上一次開啟的資料。若在他執行修改時第一次開啟form時關鍵欄位是沒有資料的,那後續開啟form執行修改,就會刷掉已有資料。而之所以我無法復現該問題,是因為測試程式碼已經是最新的了,沒有該bug。

最後,我提交了事故報告給主管。報告中指出,問題的原因是我的程式碼不規範,並且說明了問題已經解決。

截至目前,沒有特別處罰。希望老闆回來也不會有。畢竟老闆還未就此事發言,說不定人家根本不關心(๑ʘ∆ʘ๑)

相關文章