1、什麼事覆盤
覆盤,源自圍棋中的一個術語,指棋手下完一盤棋後,要在棋盤上重新擺一遍,看看哪裡下得好,哪裡下得不好。下得好的要繼承,下得不好的, 要在重新擺的過程中探究怎麼樣落子才更好。
線上問題覆盤,透過還原問題現場,問題發生時間線,分析設計、開發、測 試、上線、運維等各個環節的問題、充分暴露風險,找到問題發生根本原因,透過行之有 效的改進措施,避免同類問題的再次發生。
2、覆盤的目的
- 避免同樣的(類似的)錯誤不再發生
- 為經驗的傳承和能力的提升提供依據
- 把失敗轉化為財富,把成功轉化為能力
3、什麼時候覆盤&誰來複盤&如何準備覆盤
什麼時候覆盤?
- 通常為線上故障發生後3天內(視問題嚴重程度&影響範圍,可在3-7天內完成,趁熱打鐵考慮,通常建議一週內完成)
哪些角色需要參加?
- PM、RD、QA、專案經理(須參加)
- 對應模組介面人(可能為PM/RD/QA,建議參加)
- PM leader、RD leader、QA leader(視問題嚴重程度&影響範圍,可選參加)
- 專項負責人(可選參加)
如何準備覆盤?
覆盤發起人需要完成:
- 專案背景梳理、觸發場景是什麼、影響範圍和持續時間、問題排查時間點整理(做了什麼,誰做的)、問題根本原因是什麼(需形成覆盤文件)
- 各角色、干係人拉到群裡約時間地點,並至少提前1天把覆盤文件發到群裡供參與人查閱(覆盤會上明確需要某個參與人發言的,可做專門提醒)
4、覆盤過程怎麼做
4.1 問題回溯
- 專案背景
- 時間脈絡
- 直接根因
- 觸發條件
- 影響範圍
4.2 原因分析
- 設計&實現
- 線下測試
- 線上部署
- 問題發現
- 線上止損
4.3 改進計劃
- 產出改進措施
- 短期
- 中期
- 長期目標
- 改進措施的可行性討論
- 措施:可落地、可評估
- 可行性考慮因素:
不容易實施 | 容易實施 | |
收益大 |
專項改進 — 中長期目標 |
快速處理 — 短期目標 |
收益小 | 可不處理 - 浪費時間 |
可稍後處理 — 短期目標 |
4.4 落地跟進
- 跟進機制
- 短期事務:實時通報(釘釘、郵件)
- 長期事務:專項週報等
- 負責人&時間
- 負責人:唯一
- 時間:有期限,有承諾
- 效果追蹤
- 技術改進:設定里程碑,review事項達成
- 流程改進:形成規範,實際run起來