如何在2周內交付85%以上需求?阿里工程師這麼做
阿里妹導讀:在 什麼是真正的敏捷開發?文章裡,我們講述了什麼是真正意義的敏捷開發,如何去衡量。今天,阿里資深技術專家何勉老師,繼續帶領我們探索,如何以流動效率為抓手,提升持續交付的能力。
提升持續交付能力
最近我們在阿里內部做團隊效能改進時,提出了稱之為“2-1-1”的願景,得到了不少部門的認可。什麼是211呢?“2”指的是交付週期2周——85%以上的需求可以在2周內交付;第一個“1”指的是開發週期1周——85%以上的需求可以在1周內開發完成;第二個“1”指的是釋出前置時間1小時——提交程式碼後可以在1小時內完成釋出。
今天,很多團隊離“211”還是有距離的,特別是這個“2”,它涉及到整個組織各職能,和部門的協調一致,緊密協作。一小時的釋出前置時間,則需要持續交付流水線,產品架構體系和自動化測試、部署等有力保障。達成“211”並不容易,但它體現了組織提升持續交付和快速響應能力的目標,樹立了持續改進的方向,因此我們才把它作為願景。
注:以上理念也將落地到研發工具雲效(阿里內部叫Aone),從交付流程、交付結果、交付質量等資料也可在雲效的度量功能中檢視。
問題是我們如何才能達成這一目標呢?讓我們先看一幅漫畫。
這是一個酒吧,路燈下醉漢在找什麼東西,很長時間過去了,警察一直看著他,終於忍不住走上前,問道:“你在找啥?”醉漢說:“找我的鑰匙。”警察看了一下鑰匙好像不在這,就問:“鑰匙是丟在這嗎?”醉漢說:“不是。”警察奇怪地問道:“那你為什麼在這找?”醉漢回答道:“只有這兒能看到啊 。”
鑰匙(key)英文也有關鍵的意思。光照亮的地方卻不是關鍵所在。我講這個故事,是為了說明研發中一個常見的問題——在光照亮的地方,而不是關鍵所在的地方尋找答案,當然不會有結果。那研發過程的關鍵所在究竟在哪裡呢?
《The Principles of product development flow》一書的作者Don指出:“在產品開發中,問題的關鍵幾乎從來不是停滯的資源,而是停滯的需求。”這是什麼意思呢?產品開發的最終目的是交付價值,那我們就必須讓價值交付的過程順暢起來,也就是讓價值流動順暢起來。計劃、管理、協調活動,以及資源的配置等等,都應該服務於價值的流動。價值流動是目的,資源忙起來不是。
現實中我們更多關注資源是否停滯,人是否閒著,但真正的問題並不在這兒。真正的問題是需求的停滯,需求在各個階段的積壓——如分析階段、測試階段、釋出階段等等。需求不能順暢流動才是真正的問題所在,也就是我們所說的關鍵所在。
為什麼我們往往對需求的積壓很少關注?因為它很難看到,不是光照亮的地方。我們很難覺察(至少很難即時察覺)需求的停滯、積壓和返工,而那才是改進價值交付的關鍵所在。
要改進端到端的流程,我們必須看到價值端到端的流動過程,在哪裡出現了積壓和停滯。為此,改進的第一步,就是要讓光照亮關鍵所在——視覺化端到端的價值流動過程,基於價值流發現流動過程中的問題。
看一個例子,它是來自某個產品團隊看板。看板中藍色卡片的是需求。讓光照亮關鍵所在,就是要讓需求流動的端到端過程視覺化。需求從“選擇”開始,所謂選擇是指從眾多的市場機會中選擇這些需求開始開發。選擇之後是流程中的其他階段,比如需求的設計、開發、測試、驗收等,直至釋出,這是一個端到端的過程。
我們單獨看“開發中”這個階段,在這裡需求被分解成為任務——圖中黃色紙條。任務與其所屬於的需求處於同一行中,我們把這樣的行稱為泳道。泳道的首列(藍色紙條)是需求,下屬任務(黃色卡片)按模組組織在一起,如前端、後端或其他依賴的外部模組,其中任務的最後一列代表完成狀態,所有任務完成後,需求進入下一階段——待測試。
端到端視覺化需求的流動過程,從需求被選擇開始,直到釋出結束。這讓我們能即時看到問題,如:需求是否順暢流動,是否發生了停滯和積壓,是否有瓶頸。這就是所謂:光照亮了問題所在。
除此之外,我們還要保障價值流動的過程質量,把交付質量內建到開發過程中,而不是依賴最後環節的測試。為了做到內建質量,我們需要明確定義需求流動的標準,上圖顯示了需求進入開發環節要滿足的輸入標準,在這個例子中,它被定義為:
1)需求的使用者使用流程和驗收規則清晰定義;
2)依賴方能夠被識別;
3)大的需求拆分成在兩週以內或者一週以內的小需求,等等。
我們還可以定義其它階段的規則,如開發輸出(也就是轉測試)的規則。這也是照亮關鍵所在一部分。
照亮關鍵所在,看到需求端到端流動的過程,以及流動中的問題和瓶頸是第一步。更關鍵是看到問題後要怎樣做?以視覺化端到端的價值流動為基礎,我們希望價值能夠順暢流動,從左到右,不要發生停滯和積壓。如何做到呢?讓我們再看一個故事。
圖中這位叫潘季馴,他是明朝治理黃河的水利專家,被稱為“千古治黃第一人”,我們今天要講的就是他治理黃河的故事。治黃河難,難在泥沙不斷淤積。清淤是治理黃河的傳統辦法,問題是清了又會淤,年復一年。大批的河工聚集,又為造反提供條件,元朝的覆滅就與之關係甚大。不治則生靈塗炭,治則勞民傷財,這是擺在歷代統治者面前的兩難決定,明朝也不例外。
嘉靖到萬曆年間潘季馴四次臨危受命治理黃河,取得前所未有的成效,並總結了切實可行的方略,其中最為重要的思想就是“束水攻沙”。什麼是“束水攻沙”呢?潘季馴在治理黃河時既沒有蠻力清淤,也不是一味地加高、加寬河堤。他反其道而行,收窄河堤——在大堤(稱為遙堤)內再修築一道更窄的堤(稱為縷堤),遙堤用以防潰,縷堤用以束水。河堤收窄了,水流的速度就會加快,將沉積的泥沙帶走,這就是所謂"束水攻沙"。
“束水攻沙”與產品開發有什麼關係呢?“束水”加快了水的流速,也帶走了泥沙。對應的,產品開發中我們也要限制並行需求的數量,同樣是為了縮短需求從開始到完成的平均交付週期——加快流速,並即時發現和處理交付過程中的問題——帶走泥沙。我們來看具體的例子。
在上圖中,泳道數約束了並行需求的數目。並行需求減少,需求流動的速度隨之加快,從而縮短開發和交付週期。更重要的是,限制並行能更快暴露問題。有限泳道中的需求發生阻塞,很容易被發現。團隊必須儘快解決阻塞的問題,才能開始新的需求。而即時解決問題又促進了價值的順暢流動。
基於端到端的價值流,團隊可以更好地管理價值流動。以站會為例,團隊在站會上,會去審視需求的狀態。這裡面有兩個策略,一種是從左向右審視,還有一個從右往左審視,大家認為哪個合適?對,大家都說從右往左。為什麼呢?因為我們應該聚焦於完成而不是開始,我們應該聚焦於盡快地交付,比如測試中的需求是不是有缺陷,並優先解決這些缺陷,好讓需求儘快上線;開發中的需求,有沒有阻礙,並即時解決這些阻礙,完成它們。只有這樣,新的等待開發的需求才能夠開始。
站會的核心是通過審視價值流動,關注需求流動中的缺陷、阻礙、停滯、等待和瓶頸,即時發現和解決這些問題,促進需求更流暢流動。站會只是一個例子,圍繞看板的其他活動,比如說度量資料分析和改進行動的制定,都是為了促進價值流動,而價值的順暢流動是響應能力、質量和效率的保障。
(此電子看板截圖來自阿里云云效)
上面舉例用的都是物理看板,是為了讓大家更有體感。現在絕大部分團隊,不管是阿里雲,技術中臺還是閒魚,用的都是雲效電子看板。經過持續的優化,電子看板操作體驗已經與物理看板接近。並且具備物理看板不具備的優勢,比如:前面講到的資料度量都可以自動生成,這對於發現問題和改進很有意義,還有就是與其他系統如文件和釋出工具的無縫整合。這是優酷電子看板的截圖。
看板幫助團隊暴露問題,具體的改進行動還是要落實到不同方面的。我們可以用湖水岩石效應來描述這一過程。這是一個湖,湖裡有一些石頭。湖水比較深時,石頭都隱藏在湖面之下,但其影響是在的;當湖面降低,石頭就會漸次暴露出來。
在產品開發中,石頭暗喻的是問題,而湖水的深度暗喻交付週期長短(或並行需求的數目)。當需求的交付週期長時,問題被隱藏,我們看到的是平整的水面。只有水位降低,問題才會暴露。
以某個中介軟體團隊的效能改進過程為例。他們原先採用小瀑布的模式,沒有持續整合和有效自動化,以月度為週期交付產品,需求在月初集中開始,在月底集中轉測試和釋出,對外交付質量和效率一直不讓人滿意,內部的協作也有很多問題,每次釋出都異常痛苦,延期的情況時有發生,但大家對問題根源和解決方案卻各執一詞。
在精益和敏捷開發實施過程中,我們首先做的是視覺化價值流動,並以此為基礎逐步減小並行需求的數目,力求需求的持續流動——持續小批量的輸入、開發、轉測試和交付。在減小批量的過程中,問題逐漸暴露。
在這個案例中,為了做到小批量的流動,首先暴露的是需求分析和拆分的問題,也就是如何將需求拆分成可以獨立測試、驗證和交付的小的單元。通過引入“例項化需求”(一種需求澄清、分析和拆分的方法)等方法,這一問題得到了解決,開發和測試移交的批量明顯減小了。
很快新的問題又出現了,測試環境或移交給測試的版本總是不可用,需求還是不能順暢流動,這時持續交付流水線的建設的重要性就凸顯出來。當然持續交付流水線的建設也並不是一步實現的,一開始我們只是打通了管道,並引入了最基本的自動驗證,保證測試隨時都有一個可用的環境和版本可用。接下來才是自動化對關鍵功能的覆蓋。在其後組織協調溝通,技術架構等問題也漸次暴露。
過程中,我們感受到最大的好處是,儘管解決問題的過程還是比較痛苦,但我們可以集中精力一個時間解決一個被暴露的真實問題,而解決它們也會帶來立即可感知的受益,這大大提升了團隊持續投入解決問題的動力。
這個團隊,多年未能解決的問題,在短短三、四個月內被一一解決,在沒有投入額外資源的情況下,研發效能得到根本改善,質量、響應能力都有了質的提升。我對此也深有感觸——研發效能改進實踐的技術難度,並不比我們平時做的業務系統難。但為什麼總是得不到實施呢?這個團隊有做對了什麼。
這裡面的根本問題不是能力問題,也不是意識和態度問題。更重要的是:要讓團隊看見問題,並且提供合適的路徑,一個時間解決一個問題,並且解決問題後要能看到立即的想過。
核心有兩個:
第一:“看見”,它的關鍵是看見系統,看見價值的端到端流動,以此為基礎看到問題和改進機會;
第二:“路徑”,它的關鍵是小步快走,但每一步都要有可感知的成果。
圖中岩石的高低,從概念上反映了隨著並行的降低,問題逐漸暴露的大致順序。對不同的團隊,問題和次序會不同。但相同的是,通過水位的降低,問題被漸次暴露和解決,產品交付的響應能力、效率和質量也會得到提升。我們的目標並不是要把水位降到最低,而是要發現問題,讓需求能以較小的粒度順暢流動,實現順暢和高質量和持續的交付價值。
總結一下持續交付實踐。它關注從需求到開發、測試直至部署和運維這些環節。它的目標可以總結為兩個:
第一:讓價值順暢流動,這個我們已經講了很多。之前講的實踐都能促進價值的順暢流動,如:看板、反饋改進這些管理實踐,故事地圖、驗收測試驅動開發這類技術實踐。
第二:讓流動過程更加高效,這個我們前面沒有強調。補充一下,其核心是讓團隊成員只需要關注帶來真正價值的業務邏輯,而不需要在其他工作上花費過多時間。
我們看看除了業務邏輯,團隊還會被那些工作影響?又如何減少這些工作?這裡我們列舉了其中的一些:
可靠的交付流水線:讓團隊不用擔心驗證和部署的環境,步驟及流程。
容器技術(如Docker):讓團隊不必過多考慮構建分發及執行環境的問題。
Kubernetes:讓團隊不用過多考慮容器應用的部署、執行、擴縮容等工作。
Sevice Mesh:讓團隊不用過多考慮分散式服務的通訊。
Severless:讓團隊不用過多考慮伺服器的實體資源。
…
持續交付價值的能力是網際網路時代研發效能的核心。我們介紹了提升持續交付能力的度量,以及以流動效率為抓手提升持續交付能力的實踐和路徑。
問題是,建立了持續交付能力就可以保證業務的成功嗎?顯然不是。持續交付能力是快速交付價值、獲取反饋並靈活調整的基礎。我們還必須以把持續交付能力轉化為有效的業務創新,帶來真正的業務成功。
阿里內部分享
在釘釘搜尋群號:23192180,或者用釘釘掃描下方二維碼,即可加入阿里研發效能&敏捷開發交流群,與作者何勉老師、行業同仁交流、探討。
你可能還喜歡
點選下方圖片即可閱讀
關注「阿里技術」
把握前沿技術脈搏
相關文章
- 如何在團隊建設工程師文化?阿里資深技術專家這麼做工程師阿里
- 同樣的工作、同樣的做需求,為什麼他們能進阿里阿里
- 需求分析完了接下來做什麼?
- 三、怎麼做需求分析(上)(轉)
- 軟體專案中,需求怎麼做?
- 專案需求分析報告怎麼做
- 優思學院:供應商質量工程師(SQE)是做什麼的?有什麼技能需求?工程師
- 都996了,需求還是沒法按時交付,怎麼辦?996
- 商品標題這麼長長長長長,阿里工程師如何解決?阿里工程師
- 運維工程師是什麼?做什麼?運維工程師
- 外包IT專案如可做(轉)
- node + koa + mysql + vue做一個公司內部需求網站MySqlVue網站
- 內推阿里巴巴前端開發工程師阿里前端工程師
- 用阿里雲做frp內網穿透NAS阿里FRP內網穿透
- 報告!這群阿里工程師在偷偷養豬阿里工程師
- 做什麼內容才能火
- 越來越多的遊戲內建了“排行榜”,這樣做真的好麼?遊戲
- [需求建議]【外掛需求】有沒有人做一個站內訊息的外掛啊
- 如何在敏捷中交付可靠的架構?敏捷架構
- Java工程師如何在1個月內做好面試準備?Java工程師面試
- 什麼?這動物圖片可以上國家地理?
- 阿里天貓杭州前端開發工程師校招內推阿里前端工程師
- 我想加入阿里,我該怎麼做?阿里
- 三、產品實戰:如何在一天內交付一個招聘評估系統
- Gartner:85%的企業支援以產品為中心的應用交付模式模式
- PMP®|專案管理中需求管理做不好怎麼辦?專案管理
- Flutter路由管理程式碼這麼長長長長長,阿里工程師怎麼高效解決?(實用)Flutter路由阿里工程師
- 從0到1,如何在6周內成為機器學習工程師機器學習工程師
- 為什麼做技術 PM 這麼難?
- SRE工程師到底是做什麼的?工程師
- 做社交=做創造玩家間需求與被需求關係的設計
- 誠聘 軟體工程師(.NET/Delphi、需求分析、需求管理)軟體工程工程師
- 感測器行業併購需求:年利潤2000萬以上 估值10億內(急)行業
- Python工程師是做什麼的?前景如何?Python工程師
- 【入門必看】網路安全交付工程師的崗位職責是什麼?工程師
- 路由器這麼放置 怪不得你家Wi-Fi慢如牛路由器
- SQL優化這麼做就對了SQL優化
- 阿里雲到底是做什麼的呢?阿里