如何做線上問題覆盤

海布里Simple發表於2024-11-06

1、什麼事覆盤

覆盤,源自圍棋中的一個術語,指棋手下完一盤棋後,要在棋盤上重新擺一遍,看看哪裡下得好,哪裡下得不好。下得好的要繼承,下得不好的, 要在重新擺的過程中探究怎麼樣落子才更好。

線上問題覆盤,透過還原問題現場,問題發生時間線,分析設計、開發、測 試、上線、運維等各個環節的問題、充分暴露風險,找到問題發生根本原因,透過行之有 效的改進措施,避免同類問題的再次發生。

2、覆盤的目的

  • 避免同樣的(類似的)錯誤不再發生
  • 為經驗的傳承和能力的提升提供依據
  • 把失敗轉化為財富,把成功轉化為能力

3、什麼時候覆盤&誰來複盤&如何準備覆盤

什麼時候覆盤?

  • 通常為線上故障發生後3天內(視問題嚴重程度&影響範圍,可在3-7天內完成,趁熱打鐵考慮,通常建議一週內完成)

哪些角色需要參加?

  • PM、RD、QA、專案經理(須參加)
  • 對應模組介面人(可能為PM/RD/QA,建議參加)
  • PM leader、RD leader、QA leader(視問題嚴重程度&影響範圍,可選參加)
  • 專項負責人(可選參加)

如何準備覆盤?

覆盤發起人需要完成:

  • 專案背景梳理、觸發場景是什麼、影響範圍和持續時間、問題排查時間點整理(做了什麼,誰做的)、問題根本原因是什麼(需形成覆盤文件)
  • 各角色、干係人拉到群裡約時間地點,並至少提前1天把覆盤文件發到群裡供參與人查閱(覆盤會上明確需要某個參與人發言的,可做專門提醒)

4、覆盤過程怎麼做

4.1 問題回溯

  • 專案背景
  • 時間脈絡
  • 直接根因
  • 觸發條件
  • 影響範圍

4.2 原因分析

  • 設計&實現
  • 線下測試
  • 線上部署
  • 問題發現
  • 線上止

4.3 改進計劃

  • 產出改進措施
    • 短期
    • 中期
    • 長期目標
  • 改進措施的可行性討論
    • 措施:可落地、可評估
    • 可行性考慮因素:
不容易實施 容易實施
收益大

專項改進 — 中長期目標

快速處理 — 短期目標

收益小 可不處理 - 浪費時間

可稍後處理 — 短期目標

4.4 落地跟進

  • 跟進機制
    • 短期事務:實時通報(釘釘、郵件)
    • 長期事務:專項週報等
  • 負責人&時間
    • 負責人:唯一
    • 時間:有期限,有承諾
  • 效果追蹤
    • 技術改進:設定里程碑,review事項達成
    • 流程改進:形成規範,實際run起來

相關文章