如何在2周內交付85%以上需求?阿里工程師這麼做

阿里技術_發表於2018-11-02

640?wx_fmt=jpeg

阿里妹導讀:在 什麼是真正的敏捷開發?文章裡,我們講述了什麼是真正意義的敏捷開發,如何去衡量。今天,阿里資深技術專家何勉老師,繼續帶領我們探索,如何以流動效率為抓手,提升持續交付的能力。


提升持續交付能力


最近我們在阿里內部做團隊效能改進時,提出了稱之為“2-1-1”的願景,得到了不少部門的認可。什麼是211呢?“2指的是交付週期2周——85%以上的需求可以在2周內交付;第一個“1”指的是開發週期1周——85%以上的需求可以在1周內開發完成;第二個“1”指的是釋出前置時間1小時——提交程式碼後可以在1小時內完成釋出。


640?wx_fmt=jpeg

今天,很多團隊離“211”還是有距離的,特別是這個“2”,它涉及到整個組織各職能,和部門的協調一致,緊密協作。一小時的釋出前置時間,則需要持續交付流水線,產品架構體系和自動化測試、部署等有力保障。達成“211”並不容易,但它體現了組織提升持續交付和快速響應能力的目標,樹立了持續改進的方向,因此我們才把它作為願景。


注:以上理念也將落地到研發工具雲效(阿里內部叫Aone),從交付流程、交付結果、交付質量等資料也可在雲效的度量功能中檢視。


問題是我們如何才能達成這一目標呢?讓我們先看一幅漫畫。


640?wx_fmt=jpeg


這是一個酒吧,路燈下醉漢在找什麼東西,很長時間過去了,警察一直看著他,終於忍不住走上前,問道:“你在找啥?”醉漢說:“找我的鑰匙。”警察看了一下鑰匙好像不在這,就問:“鑰匙是丟在這嗎?”醉漢說:“不是。”警察奇怪地問道:“那你為什麼在這找?”醉漢回答道:“只有這兒能看到啊 。”


鑰匙(key)英文也有關鍵的意思。光照亮的地方卻不是關鍵所在。我講這個故事,是為了說明研發中一個常見的問題——在光照亮的地方,而不是關鍵所在的地方尋找答案,當然不會有結果。那研發過程的關鍵所在究竟在哪裡呢?


《The Principles of product development flow》一書的作者Don指出:“在產品開發中,問題的關鍵幾乎從來不是停滯的資源,而是停滯的需求。”這是什麼意思呢?產品開發的最終目的是交付價值,那我們就必須讓價值交付的過程順暢起來,也就是讓價值流動順暢起來。計劃、管理、協調活動,以及資源的配置等等,都應該服務於價值的流動。價值流動是目的,資源忙起來不是。


現實中我們更多關注資源是否停滯,人是否閒著,但真正的問題並不在這兒。真正的問題是需求的停滯,需求在各個階段的積壓——如分析階段、測試階段、釋出階段等等。需求不能順暢流動才是真正的問題所在,也就是我們所說的關鍵所在。


為什麼我們往往對需求的積壓很少關注?因為它很難看到,不是光照亮的地方。我們很難覺察(至少很難即時察覺)需求的停滯、積壓和返工,而那才是改進價值交付的關鍵所在。


640?wx_fmt=jpeg

要改進端到端的流程,我們必須看到價值端到端的流動過程,在哪裡出現了積壓和停滯。為此,改進的第一步,就是要讓光照亮關鍵所在——視覺化端到端的價值流動過程,基於價值流發現流動過程中的問題。


640?wx_fmt=jpeg


看一個例子,它是來自某個產品團隊看板。看板中藍色卡片的是需求。讓光照亮關鍵所在,就是要讓需求流動的端到端過程視覺化。需求從“選擇”開始,所謂選擇是指從眾多的市場機會中選擇這些需求開始開發。選擇之後是流程中的其他階段,比如需求的設計、開發、測試、驗收等,直至釋出,這是一個端到端的過程。


我們單獨看“開發中”這個階段,在這裡需求被分解成為任務——圖中黃色紙條。任務與其所屬於的需求處於同一行中,我們把這樣的行稱為泳道。泳道的首列(藍色紙條)是需求,下屬任務(黃色卡片)按模組組織在一起,如前端、後端或其他依賴的外部模組,其中任務的最後一列代表完成狀態,所有任務完成後,需求進入下一階段——待測試。


端到端視覺化需求的流動過程,從需求被選擇開始,直到釋出結束。這讓我們能即時看到問題,如:需求是否順暢流動,是否發生了停滯和積壓,是否有瓶頸。這就是所謂:光照亮了問題所在。


640?wx_fmt=jpeg


除此之外,我們還要保障價值流動的過程質量,把交付質量內建到開發過程中,而不是依賴最後環節的測試。為了做到內建質量,我們需要明確定義需求流動的標準,上圖顯示了需求進入開發環節要滿足的輸入標準,在這個例子中,它被定義為:


1)需求的使用者使用流程和驗收規則清晰定義;

2)依賴方能夠被識別;

3)大的需求拆分成在兩週以內或者一週以內的小需求,等等。


我們還可以定義其它階段的規則,如開發輸出(也就是轉測試)的規則。這也是照亮關鍵所在一部分。


照亮關鍵所在,看到需求端到端流動的過程,以及流動中的問題和瓶頸是第一步。更關鍵是看到問題後要怎樣做?以視覺化端到端的價值流動為基礎,我們希望價值能夠順暢流動,從左到右,不要發生停滯和積壓。如何做到呢?讓我們再看一個故事。


640?wx_fmt=jpeg


圖中這位叫潘季馴,他是明朝治理黃河的水利專家,被稱為“千古治黃第一人”,我們今天要講的就是他治理黃河的故事。治黃河難,難在泥沙不斷淤積。清淤是治理黃河的傳統辦法,問題是清了又會淤,年復一年。大批的河工聚集,又為造反提供條件,元朝的覆滅就與之關係甚大。不治則生靈塗炭,治則勞民傷財,這是擺在歷代統治者面前的兩難決定,明朝也不例外。


嘉靖到萬曆年間潘季馴四次臨危受命治理黃河,取得前所未有的成效,並總結了切實可行的方略,其中最為重要的思想就是“束水攻沙”。什麼是“束水攻沙”呢?潘季馴在治理黃河時既沒有蠻力清淤,也不是一味地加高、加寬河堤。他反其道而行,收窄河堤——在大堤(稱為遙堤)內再修築一道更窄的堤(稱為縷堤),遙堤用以防潰,縷堤用以束水。河堤收窄了,水流的速度就會加快,將沉積的泥沙帶走,這就是所謂"束水攻沙"。


“束水攻沙”與產品開發有什麼關係呢?“束水”加快了水的流速,也帶走了泥沙。對應的,產品開發中我們也要限制並行需求的數量,同樣是為了縮短需求從開始到完成的平均交付週期——加快流速,並即時發現和處理交付過程中的問題——帶走泥沙。我們來看具體的例子。


640?wx_fmt=jpeg


在上圖中,泳道數約束了並行需求的數目。並行需求減少,需求流動的速度隨之加快,從而縮短開發和交付週期。更重要的是,限制並行能更快暴露問題。有限泳道中的需求發生阻塞,很容易被發現。團隊必須儘快解決阻塞的問題,才能開始新的需求。而即時解決問題又促進了價值的順暢流動。


640?wx_fmt=jpeg


基於端到端的價值流,團隊可以更好地管理價值流動。以站會為例,團隊在站會上,會去審視需求的狀態。這裡面有兩個策略,一種是從左向右審視,還有一個從右往左審視,大家認為哪個合適?對,大家都說從右往左。為什麼呢?因為我們應該聚焦於完成而不是開始,我們應該聚焦於盡快地交付,比如測試中的需求是不是有缺陷,並優先解決這些缺陷,好讓需求儘快上線;開發中的需求,有沒有阻礙,並即時解決這些阻礙,完成它們。只有這樣,新的等待開發的需求才能夠開始。


站會的核心是通過審視價值流動,關注需求流動中的缺陷、阻礙、停滯、等待和瓶頸,即時發現和解決這些問題,促進需求更流暢流動。站會只是一個例子,圍繞看板的其他活動,比如說度量資料分析和改進行動的制定,都是為了促進價值流動,而價值的順暢流動是響應能力、質量和效率的保障。


640?wx_fmt=jpeg

(此電子看板截圖來自阿里云云效)


上面舉例用的都是物理看板,是為了讓大家更有體感。現在絕大部分團隊,不管是阿里雲,技術中臺還是閒魚,用的都是雲效電子看板。經過持續的優化,電子看板操作體驗已經與物理看板接近。並且具備物理看板不具備的優勢,比如:前面講到的資料度量都可以自動生成,這對於發現問題和改進很有意義,還有就是與其他系統如文件和釋出工具的無縫整合。這是優酷電子看板的截圖。


640?wx_fmt=jpeg


看板幫助團隊暴露問題,具體的改進行動還是要落實到不同方面的。我們可以用湖水岩石效應來描述這一過程。這是一個湖,湖裡有一些石頭。湖水比較深時,石頭都隱藏在湖面之下,但其影響是在的;當湖面降低,石頭就會漸次暴露出來。


在產品開發中,石頭暗喻的是問題,而湖水的深度暗喻交付週期長短(或並行需求的數目)。當需求的交付週期長時,問題被隱藏,我們看到的是平整的水面。只有水位降低,問題才會暴露。


以某個中介軟體團隊的效能改進過程為例。他們原先採用小瀑布的模式,沒有持續整合和有效自動化,以月度為週期交付產品,需求在月初集中開始,在月底集中轉測試和釋出,對外交付質量和效率一直不讓人滿意,內部的協作也有很多問題,每次釋出都異常痛苦,延期的情況時有發生,但大家對問題根源和解決方案卻各執一詞。


在精益和敏捷開發實施過程中,我們首先做的是視覺化價值流動,並以此為基礎逐步減小並行需求的數目,力求需求的持續流動——持續小批量的輸入、開發、轉測試和交付。在減小批量的過程中,問題逐漸暴露。


在這個案例中,為了做到小批量的流動,首先暴露的是需求分析和拆分的問題,也就是如何將需求拆分成可以獨立測試、驗證和交付的小的單元。通過引入“例項化需求”(一種需求澄清、分析和拆分的方法)等方法,這一問題得到了解決,開發和測試移交的批量明顯減小了。


很快新的問題又出現了,測試環境或移交給測試的版本總是不可用,需求還是不能順暢流動,這時持續交付流水線的建設的重要性就凸顯出來。當然持續交付流水線的建設也並不是一步實現的,一開始我們只是打通了管道,並引入了最基本的自動驗證,保證測試隨時都有一個可用的環境和版本可用。接下來才是自動化對關鍵功能的覆蓋。在其後組織協調溝通,技術架構等問題也漸次暴露。


過程中,我們感受到最大的好處是,儘管解決問題的過程還是比較痛苦,但我們可以集中精力一個時間解決一個被暴露的真實問題,而解決它們也會帶來立即可感知的受益,這大大提升了團隊持續投入解決問題的動力。


這個團隊,多年未能解決的問題,在短短三、四個月內被一一解決,在沒有投入額外資源的情況下,研發效能得到根本改善,質量、響應能力都有了質的提升。我對此也深有感觸——研發效能改進實踐的技術難度,並不比我們平時做的業務系統難。但為什麼總是得不到實施呢?這個團隊有做對了什麼。


這裡面的根本問題不是能力問題,也不是意識和態度問題。更重要的是:要讓團隊看見問題,並且提供合適的路徑,一個時間解決一個問題,並且解決問題後要能看到立即的想過。


核心有兩個:


  • 第一:“看見”,它的關鍵是看見系統,看見價值的端到端流動,以此為基礎看到問題和改進機會;

  • 第二:“路徑”,它的關鍵是小步快走,但每一步都要有可感知的成果。


圖中岩石的高低,從概念上反映了隨著並行的降低,問題逐漸暴露的大致順序。對不同的團隊,問題和次序會不同。但相同的是,通過水位的降低,問題被漸次暴露和解決,產品交付的響應能力、效率和質量也會得到提升。我們的目標並不是要把水位降到最低,而是要發現問題,讓需求能以較小的粒度順暢流動,實現順暢和高質量和持續的交付價值。


總結一下持續交付實踐。它關注從需求到開發、測試直至部署和運維這些環節。它的目標可以總結為兩個:


  • 第一:讓價值順暢流動,這個我們已經講了很多。之前講的實踐都能促進價值的順暢流動,如:看板、反饋改進這些管理實踐,故事地圖、驗收測試驅動開發這類技術實踐。

  • 第二:讓流動過程更加高效,這個我們前面沒有強調。補充一下,其核心是讓團隊成員只需要關注帶來真正價值的業務邏輯,而不需要在其他工作上花費過多時間。


我們看看除了業務邏輯,團隊還會被那些工作影響?又如何減少這些工作?這裡我們列舉了其中的一些:


  • 可靠的交付流水線:讓團隊不用擔心驗證和部署的環境,步驟及流程。

  • 容器技術(如Docker):讓團隊不必過多考慮構建分發及執行環境的問題。

  • Kubernetes:讓團隊不用過多考慮容器應用的部署、執行、擴縮容等工作。

  • Sevice Mesh:讓團隊不用過多考慮分散式服務的通訊。

  • Severless:讓團隊不用過多考慮伺服器的實體資源。


持續交付價值的能力是網際網路時代研發效能的核心。我們介紹了提升持續交付能力的度量,以及以流動效率為抓手提升持續交付能力的實踐和路徑。


問題是,建立了持續交付能力就可以保證業務的成功嗎?顯然不是。持續交付能力是快速交付價值、獲取反饋並靈活調整的基礎。我們還必須以把持續交付能力轉化為有效的業務創新,帶來真正的業務成功。


640?wx_fmt=jpeg

阿里內部分享


在釘釘搜尋群號:23192180,或者用釘釘掃描下方二維碼,即可加入阿里研發效能&敏捷開發交流群,與作者何勉老師、行業同仁交流、探討。

640?wx_fmt=jpeg


640?wx_fmt=gif

你可能還喜歡

點選下方圖片即可閱讀


640?wx_fmt=jpeg

1024,什麼會引起程式設計師的強烈舒適?


640?wx_fmt=jpeg

分散式系統的基本問題:可用性與一致性


640?wx_fmt=jpeg

阿里巴巴為什麼選擇Apache Flink?

640?wx_fmt=jpeg

關注「阿里技術」

把握前沿技術脈搏

相關文章