得物質量度量之“三級指標體系”及其應用實踐

得物技術發表於2022-06-22

管理學大師彼得 - 德魯克曾說過:無資料不管理。 數字是人們快速認知事物的一種有效方式。無論在生活還是工作,對事還是對人都息息相關。碰上難以用數字描述的事物或現象肯定是沒有找對適用的指標和度量方式。尤其對於質量工程方面的工作,定量的呈現遠比定性描述更有說服力。而“三級指標體系”就是質量平臺在這一年的反覆打磨中,逐漸清晰併成型的,能夠將得物工程質量加以體系化度量的一種最佳工程實踐。

為什麼是三級?而不是四級或者更少?

通過一級指標,直觀反饋在工程化過程中某個方面的水準,具有結果性質的指標,類似“後視鏡”的作用,但也具有較大滯後性且粒度較大;從而引入二級指標,對大顆粒度的一級指標進行拆解,分而治之以獲取改善。由於粒度的均勻程度問題,需進一步納入三級指標才具備可操作性,以便著手改善以最終影響到結果。通常情況下,三級指標即可起到有效的下鑽分析並落入改進閉環的效果。

通過實踐歸納,選取效率 、質量、穩定、資源四個方面共同構建三級指標體系。四個方面的關係可描述為質量是立命之本,穩定是有效質量活動的自然結果;業務方期望的是有質量地(約束條件)快速交付,且儘可能少的資源投入,其中也隱含著對資源的高效利用的訴求。

簡而言之就是 “多、快、好、省” 地把活幹了。三級指標分別指的是:

  • 一級指標,即結果指標。起到“後視鏡”的作用,有一定的延遲性。
  • 二級指標,即拆解指標/改善指標。對結果形成進行構成拆解或者直接可以作用以改善結果。
  • 三級指標,即改善指標。可以對應到一個或一組改進行為以獲取對結果的部分改善。

下文針對上述四個方面一一展開相應三級指標構成、內在邏輯及應用說明。

一、效率

效率是工程團隊與業務團隊溝通的熱點話題,也是工程團隊被詬病的高頻方面。從面向高效交付的質量保障工作為切口,進行應用說明。

效率方面,通過業務交付能力、計劃保障能力以及過程協同能力自底向上逐級支撐與保障以實現高效的目的,也就是用資料呈現“多”與“快”。

業務交付與響應,通過吞吐率這一相對值體現;絕對值方面採用總需求數對照觀測,而需求上線率、需求分佈體現的是對計劃的保障能力。指標方面反映了業務方提了多少需求,排上了多少需求,排上了多少大需求,排上的按時完成了多少。

進而下鑽到協同效率體現,其依賴於估時精準性,而過程中準時提測率作為契約支撐,自動化率以及工程配套可用率影響著測試執行效率。這趴指標側重實施過程的能力說明,屬於“肌肉”展示。解釋了為什麼能以及如何能保障效率。此處隱去了眾多三級指標,以便清晰說明(下同)。

二、質量

軟體的質量是開發出來的,程式(製品)一旦流轉至測試流程後即被固化。這裡指的是內建質量,是客觀的程式質量。所有的測試行為是對這一客觀質量的挖掘。因此,測試行為是通過場景覆蓋儘可能地逼近這一客觀的質量活動。

通常情況下,設定合理的准入標準有利於提前終止不達標製品的流轉,保障流程的順暢性,將提測質量獨立度量,並對提測前進行延展收整合因資料以便形成結論。

提測質量是質量門禁的卡尺,是讓研發流水線中的質量活動順暢進行的必要保障。工程上,對於質量活動的投入為被動投入,即不可少,但期望儘可能減少投入。因此質量門禁的設定可以用相對低成本的方式,避免不必要的過渡資源消耗,就好比給汽車上蠟前,先讓洗車工把車沖洗乾淨;否則,上蠟工不得不花費更多的時間去除車上覆蓋的塵土,再進入關鍵工序。如下圖,從缺陷成本曲線來看,是筆不划算的投入。

而內建質量,是一系列質量活動之後自然的描述結果。其中,缺陷引入率是最直接的描述。缺陷數這一絕對數量,結合其構成即缺陷分佈,能夠描述較為清晰的內建質量。

職能的作用是什麼?這一靈魂拷問結合上圖做必要的說明,從價值視角闡述其內在導向以及良性的促進閉環邏輯。

測試執行從價值視角切入,儘可能體現質量活動投入而產生的價值,從缺陷價值、迴歸價值兩發麵著手並形成正向閉環指導測試設計。簡而言之:

  • 發現高價值缺陷。結合PRD及技術實現,覆蓋使用者場景的同時,刻意針對技術實現方式設計用例。如冪等校驗、異常處理、資料相容等。並參考覆蓋率報告增補用例,確保覆蓋相對全面性。
  • 自動化高價值的迴歸用例。抓住核心、穩定兩個關鍵詞,隨著迴歸用例的與日俱增,定期review進行有效用例增補與無效用例剔除以減少不必要的維護成本。

三、穩定

穩定,一般情況下是有效質量保障的自然結果。往往由穩定性或運維團隊主導,對線上進行實時監控,故障應急響應。生產故障數及其分佈是主要核准指標。策略上遵從:不出大問題,小問題快速恢復,將故障影響儘可能最小化,即:故障影響 = 故障嚴重等級 x 故障修復時長。

具體指標表現為P1P2生產故障數減少或清零,P3P4生產故障數收斂減少。通常故障定級標準,除了影響面作為一個維度,如資損金額、客訴量等,也會將故障恢復時間作為一個必要維度進行階梯式定義。

另外,由於生產故障的滯後性,針對某次生產故障的覆盤而產生的待辦項是有效改善上述結果指標的措施,所以,待辦閉環率是該方面的改善指標。此處,質量平臺聯手PMO,通過“迭代質量覆盤會”機制週期性收集與review。

此處需要說明的是,系統性的風險累計最終會導致某次生產故障。這是質量保障工作的“黑天鵝事件”,也是最難解釋質保策略有效性的部分。質量平臺遵從的是質量保障和穩定性治理雙管齊下,互相補充。區域性的優化即使達到爐火純青的地步,難抵一次結構性的破壞。而生產故障驅動的系統性覆盤能夠指導區域性優化策略的迭代,使其更加夯實與全面。所以,這是整體與區域性的二元互補增強的迴圈過程。

四、資源

提及資源,主要聚焦在人的維度進行最優配置,即:面向目標,將合適的人用在合適的的地方,併發揮出效益。圍繞著下面三個方面進行動態調優。

  • 配置多少人?
  • 集中用在哪?
  • 效益如何放大?

這是一個配置策略的問題,而策略本身源於目標,在一段時間內解決一個什麼樣的問題,應該符合“SMART 原則”而設定與開展。

分別引入資源開測比、預實比及直接反饋職能效益的時均用例執行數與上述三個方面一一對應。其中:

  • 資源開測比反映的是增益投入(開發)與被動投入(測試)的結果。
  • 預實比反應的是資源利用率及有效投入情況。
  • 時均用例執行數是反映職能從事質量活動的效率水平。依賴內建質量質量、協同效率、測試策略及配套工程手段的綜合情況。

五、應用場景1:迭代“開發測試比”的下鑽分析

舉例交易域某迭代(預估時)開發測試比為 4.1 : 1,是一項典型的結果指標,即一級指標。想了解其構成,從而下鑽進入二級指標:

  • 總預估時為 1659.7 人日, 開發 預估時 1333.7 人日、測試預估時 326 人日。 觀測到預估時規模極其分佈。下鑽瞭解到每10人日吞吐需求個數,瞭解當前業務域的需求吞吐水位;結合需求維度開測比明細表,瞭解吞吐的具體需求及所投入資源的分佈情況。
  • 準時 提測 率、自動化率、T0T1環境可用率。分析研發過程中的順暢程度以及測試執行的提效能力。下鑽三級指標需求維度開測比明細,對應每需求最小顆粒度分析以識別待改進點,於“迭代質量覆盤會”上落入待辦項事項跟蹤閉環,如下圖所示:

六、應用場景2:迭代質量風險預警-“紅綠燈機制”

“紅綠燈機制”是質量平臺在研發過程數字化方面的一項有效實踐。依據指標的趨勢、波動情況,對連續迭代的指標資料進行公式測算,作為“亮燈”的依據;涉及有門禁質量、內建質量、協同效率三個方面的定量分析;同時,結合定性的描述進行補充說明。從而快速給出迭代質量風險預警,以促成上線前的風險規避措施的制定。

進一步結合質量大盤的版本結論,以對當前某一業務域的迭代版本質量情況及風險點有快速瞭解。舉例交易域某迭代版本結論,如下圖所示:

總結

“無資料不管理”。資料是工作過程中的一種低成本溝通方式。定性的描述,故事性的講解都不如定量的擺事實來的直接與高效。

總結下三級指標指的是:

  • 一級指標,即結果指標。起到“後視鏡”的作用,有一定的延遲性。
  • 二級指標,即拆解指標/改善指標。對結果形成進行構成拆解或者直接可以作用以改善結果。
  • 三級指標,即改善指標。可以對應到一個或一組改進行為以獲取對結果的部分改善。

“三級指標體系”能夠將工程質量加以體系化度量的一種最佳實踐。歷經基線建立,資料校準,特別是與體感的擬合,這也是體系打磨的主體工作,極為耗時耗力,最後是系統化收集與視覺化呈現,讓資料實時服務於日常工作。

效率、質量、穩定、資源四個方面的關係可描述為一下三句話:

  1. 質量是職能線立命之本,穩定是有效質量活動的自然結果;
  2. 累加效率這一約束條件,以實現有質量地快速交付;
  3. 同時,儘可能少的投入資源。

三級指標體系是系統化的、體感擬合的、可持續積累的研發數字化資產。隨著持續的積累與應用,可以通過區域性組合解決特定階段的工程問題,如組合冒煙通過率、冒煙缺陷率、延期提測率反應提測質量,即門禁質量。而針對其組合指標的改進行為是被驗證過的有效措施,通過總結落入一套“專家意見庫”,成為團隊的經驗與可複製能力,甚至是企業的無形財富。

同樣,結合上線前的質量評審機制,通過對測試前、中、後三個階段,選取組合並通過演算法計算而形成質量風險預警效果的“紅綠燈”提示,是資料視覺化應用的一種有效嘗試。

綜上,設計一套有效的指標體系,並不斷積累資料,能幫助我們選取合理、科學的路徑實現一個個工程目標的達成。


文/布魯斯
關注得物技術,做最潮技術人!

相關文章