【調研】北航計算機學院2019及2020年本科敏捷軟工結對作業資料調研

HansBug發表於2021-02-04

原文網址 : https://www.cnblogs.com/HansBug/p/14374021.html

各位同志們大家好，我又回來磨嘰了，前陣子忙於肝程式碼而鴿了一陣，實在不大好意思?。由於接下來會參與北航本科敏捷軟工的課程改革，並且在技術開發這一層面而言，重點將會是結對作業部分。上過2019年及以後的OO課程的老哥老姐們應該都知道，新OO課程中，第二到第四單元部分的基本路子，簡而言之，不再是單純的平地起高樓，而是基於官方包進行開發，學生主要開發的內容是作業的部分核心邏輯，將其封裝進標準官方介面，然後在官方包內的外圍邏輯支撐下，形成一個完整的程式。大概就是這樣的一個模式，其最大的優勢在於讓學生真實體驗分層開發，並且讓學生開發注意力聚焦在作業的核心邏輯部分中。在馬上的軟工課程中也將考慮採用這一模式。

本文也將基於上述的基本前提，以及結對專案課程基建的一些基本需求，對過去兩年的結對專案學生作業情況等資料進行分析，以達到更進一步明確課程現狀和課程基建開發需求的效果。

結對專案分析與課程基建需求

根據筆者自己的整體研判，需求應該主要分為兩部分：

課程平臺基建，指與課程本身相關，為學生持續提供服務的平臺基建，例如gitlab、評測平臺等
作業工具鏈，指與具體的作業相關，為學生的作業完成引導方向，併為課程平臺基建的評測提供方便，例如之前OO課程的官方包

大致需求就是這兩部分。考慮到軟工這邊的實際情況和OO有所不同，故這一需求應當進行如下細化：

Gitlab CI專用Runner，現在的Runner基本還都是泛用runner，需要針對課程需求專門構建runner。
後臺簡易評測用服務端，用於讓CI內的CLI工具對其進行連線。
CI用的評測用CLI工具，需要結合CI評測的特點，方便易用且能充分顧及到教學評測需求。
精細化分層設計的作業與Java官方包，這個OO課早就有類似東西了，得針對具體作業內容來設計。

考慮到時間及人力資源有限，所以在下個學期中，較為可能會採用Java語言進行結對作業。筆者首先對Java技術棧相對熟悉一些，並且有在Java語言上構建官方包等工具鏈的經驗，故作此考慮，以節省時間與成本。不僅如此，考慮到實際上很多同學對C++/C#根本就不熟悉。關於這件事，雖然北航六系的人大一學過程設和資料結構課程，但是用的那是C語言，真正瞭解C++/C#的都該知道，別看這哥仨都帶個C字，也別看C++似乎像是C的超集，但是這仨根本就不是一個概念，甚至也不是一類概念，倒是更類似於雷鋒和雷峰塔，老婆和老婆餅的感覺。所以實際上同學們在使用C++/C#進行程式設計的時候，首先語言就是障礙，而使用他們早已在OO課中十分熟悉的Java語言，幾乎沒有學習門檻，則不存在分散注意點這一問題。

目前來看的話，需求就是這麼些，因此從定量的角度分析，我們接下來的分析還需要搞清楚一件事——我們的系統需要可以支援什麼樣、多少量的評測需求？

就醬，接下來正戲開幕。

結對資料分析需求

在接下來的資料分析中，我們對所需要分析的資料項作如下定義和劃分，其中重要資料項會進行標記：

巨集觀資料
- 總倉庫數，即仍可以爬取到的倉庫數
- 總組數，即結對專案進行時總共存在的結對組數
- 有效組數，即提交了有效倉庫及內容的組數
- 倉庫總有效提交數，即全部倉庫在有效時間段內的總提交數量
提交者資料
- 總不同提交者數，即全部倉庫存在的不同提交者數量，按照提交者名稱進行區分
- 總不同提交郵箱數，即全部倉庫存在的不同提交郵箱數量，按照提交者郵箱進行區分
- 不同提交者數分佈狀況，即各個組的提交中出現的不同提交者數量分佈
- 不同提交郵箱數分佈狀況，即各個組的提交中出現的不同提交郵箱數量分佈
提交合並資料
- 總合並提交數，即全部組進行合併提交的總次數
- 合併提交數分佈狀況，即各個組進行合併提交的次數分佈
提交變化資料
- 總提交變化資料，包含全部的提交新增行數，刪除行數以及檔案變化數量
- 總提交淨變化資料及佔比，結構類似一般變化資料，淨變化資料中只包含涉及到關鍵程式碼（根據前兩年實際情況，即C/C++/C#程式碼檔案，爬取時根據副檔名進行識別）的部分資料
- 提交變化資料，提交淨變化資料及佔比分佈狀況，即各組變化資料、淨變化資料及佔比分佈
程式碼規模資料
- 各組程式碼最終規模分佈狀況，即總程式碼規模在各組內的分佈情況（最終淨程式碼規模資料由commit的有效新增和有效刪除資料進行整合後計算得出）
程式碼提交時間資料
- 總程式碼提交時間分佈狀況，即全部組程式碼提交時間的分佈情況
- 各組程式碼提交時間分佈狀況，各組程式碼各時間階段提交量分佈狀況
程式碼完成度資料
- 各組程式碼提交時間及進度狀況分佈狀況，各組專案程式碼各時間階段完成度（以當前淨變化量相較於總淨變化量的比例為標準）分佈狀況

2019年敏捷軟工

背景分析

首先交代一下，關於2019年敏捷軟工課程，我所瞭解到的一些情況。

根據筆者的走訪，2017年的實踐軟工似乎還是個選修課，由於比較肝所以沒太多人愛選，這一點大概所有學校都差不多少。不僅如此，2018年的軟工都還是統一的，還沒有進行分班。而在2019年，軟工分為了AI、嵌入式和敏捷三個課程，其中敏捷課程和原本的舊軟工內容整體類似，並且軟工改為了必修+三選一的模式。

2019年，軟工課的結構為，結對程式設計+團隊程式設計。為期兩週的結對程式設計，內容為實現一個類似分詞的功能。

2017年，軟工課的結構為，個人程式設計+結對程式設計+團隊程式設計。個人專案是個數獨，然後結對程式設計為個人專案的進一步擴充套件。

2016年，軟工課的結構為，個人程式設計+結對程式設計+團隊程式設計。個人專案是地鐵出行系統，然後結對程式設計為個人專案的進一步擴充套件。

更早的軟工，則基本上為理論軟工，基於瀑布模型等一系列概念，然後作業和考試驅動。而且根據瞭解，2016、2017年的實踐軟工課程也屬於試點，還沒有做到真正的普及。

順帶特殊說明下，根據筆者走訪，2018年沒有軟工課程。因為，那個學年的軟工安排在2017年秋季學期，也就是大三上；而之後一屆則因為課改而開始安排在了大三下，即2019年春季學期，也就是筆者作為學生的這個學期。因此2018年沒有軟工課程，2017年即為筆者之前最近的往年。

資料分析

筆者對現在依然還能在github找得到的結對作業倉庫進行了資料爬取，得出的資料進行整理後在本節放出。

在下述的資料中，對於來源非爬蟲資料整理的資料項，會標註資料來源。

對於一些涉及分組分析的資料，組別資訊等可能涉及隱私的資料均已經進行過脫敏處理。

巨集觀資料

可訪問倉庫30個
總計結對小組35組（來源：2019年課程組）
其中34組有效（來源：2019年課程組；此外經過與相關助教的確認，唯一無效的組當時未提交作業且始終無法取得聯絡）
全體可訪問組共計建立了818條git提交，平均每組27.26條

後續的所有資料將以30個可訪問的倉庫為基礎，並統一稱之為全體組。

此外，小小吐槽一下，這個資料其實應該趁熱乎就爬下來的，這樣資料會更完整，也比炒冷飯更具說服力。

提交者資料

全體組共計出現過73位不同的提交者，出現過共計76個不同的提交郵箱
各組倉庫全程出現的不同提交者和不同提交郵箱數量如下所示

各組出現的不同提交者數分佈情況如下

各組出現的不同提交郵箱數分佈情況如下

基本可以看到，大部分組的不同提交郵箱數和提交者數量控制在2-3左右，有個別組數量較大，也有個別組異常過低。

提交合並資料

全體組總計進行過80次合併提交
各組倉庫出現過的合併提交次數如下如所示

各組合並提交次數分佈如下圖所示

這邊可以看到，有相當多的組全程沒有進行過合併操作，而且很多組全程只進行了一次合併操作，只有少部分的組真的有多次的合併，比較像是在“結對”程式設計。

提交變化資料

全體組共計提交了801066行新增程式碼，314858行刪減程式碼，9693次檔案變更（單位：檔案*次）
全體組共計提交了307347行有效新增程式碼，82271行有效刪減程式碼，2998次有效檔案變更（有效指的是包含在淨變化中的部分，關於淨變化的定義可以參見上文資料項定義），新增、刪減和檔案變更總體有效率分別為38.38%、26.23%和30.93%。
各組提交有效率資料分佈如下圖所示（由於存在有較多的組由於各種原因，新增、刪除和檔案變更資料比較極端不便展示且實際意義有限，故僅展示有效率分組資料）

不難發現，有效率資料各組比較兩極分化，肉眼可見有較多的組有效率較高，但是也有不少很低的組，而且全組有效率值也很低。

程式碼規模資料

各組的最終淨程式碼規模值如下所示（最終淨程式碼規模定義見上文；下圖已經去除了五組因為git使用問題而導致資料明顯異常的樣本）

被去除的五組資料中，有三組經核查，系直接在原始碼中大面積拷貝GUI開原始碼所致（大約幾萬行到幾十萬行不等）；另外兩組作業本身存在較大問題，無參考價值。

通過這個，可以大致判斷出2019年結對專案的規模和工作量。

程式碼提交時間資料

全體組的總程式碼提交次數在整個任務週期內的分佈如下圖所示

各組的程式碼提交次數在任務週期內的分佈如下圖所示

可以明顯的看到，在任務的中後期，總提交次數有非常明顯的提升（果然老拖延症了）；而各組圖上的資料則看起來相對平滑，只是後期更加密集。

程式碼完成度資料

各組的專案完成度資料分佈如下圖所示（專案完成度資料計算方式和定義如上文所示）

可以看到，不少組依然還是後場發力型的，後期折線明顯陡峭了不少（果然老拖延症了x2），能在中前期達到同比例進度的微乎其微，在七天時能達到一半進度的也只有不超過5組。

綜合分析

基於上述資料，我們可以對2019年的結對專案得出以下的基本結論：

根據巨集觀資料、提交者資料部分來看，應該大部分組應該是有兩個人在參與程式設計。不過比較有意思的一點是，不少組有3個不同commit身份，而且看了下這第三個身份大多是github noreply郵箱，似乎大家比較喜歡在頁面上開commit？
根據對合並資料的分析，可以基本判定，有相當多的組根本就沒有在結對程式設計。這樣的組最少一半，甚至很可能高達八成，具體表現為，全程沒有merge commit，或者只有極少的merge commit。而根據筆者個人的理解，結對程式設計這樣的模式中，必然存在大量的雙人伴隨式工作，commit會呈現密集的交叉狀，如此少量的merge顯然是不太正常的。當然，還有另一種可能，那就是這倆人真的就在一個機子上用同一個commit profile在工作，但是結合上一條結論來看，這種可能性基本站不住腳。這一條結論細思極恐。
根據對程式碼提交變化資料的分析，尤其是其中有效變更率的分析，我們不難發現其中的兩極分化。換言之，有一定數量的組可以做到高有效率，而其他的組則有效率極低。但凡用過git的都該清楚，這個地方的有效率過低，基本意味著使用者對git的掌握存在較大問題，比如根本不知道用ignore來確保倉庫乾淨，也很可能在跨系統開發中不知道設定換行符選項導致大面積rewrite，更不知道在操作失誤後進行rebase修復commit。
通過對程式碼規模資料的分析，可以大致判斷，該年度的結對專案工作量在1k-4k行這個範圍，具體工作量隨使用的具體工具鏈以及實現方式等因素浮動。而對於一些極端資料的統計來看，部分組存在直接大面積拷貝開原始碼的情況，這說明部分組對相關技術棧及其依賴的理解依然嚴重短缺，還停留在最為簡單粗暴的層面。
通過對完成進度資料和提交時間資料的分析，我們可以看出大部分團隊依然存在較大的拖延症（廢話），對前期時間的利用率十分低下。以及根據對提交時間資料的分析，可以看到後幾天大概總提交數在100-200範圍，平均到每個組，大概每個組3-5次提交。這樣的評測量，只要不是極短時間內扎堆，對於筆者開發經驗和能力所可以做到的評測技術，問題不是很大，最起碼遠遠小於OO課程系統的峰值評測量。
此外，根據筆者在這一屆（也就是自己所在的這屆）同學的調研，該屆學生對課程的整體評價不高，但是也不算太過於不可接受，最起碼形勢比當年的舊OO還是樂觀不少的。而對於結對程式設計部分，在這一屆實際上真正進行配合的小組和個人恐怕不多，而且民間也普遍並不能理解這樣的要求。

2020年敏捷軟工

背景分析

然後呢，關於2020年敏捷軟工課程，我也簡述一下我所瞭解的情況。

2020年，可能是出於對第一屆大類招生的學生情況的不確定，也可能是剛好趕上了疫情的特殊時期（確實挺特殊的，去年我們的有些研究生課程的考核方式都變了），於是這屆的情況發生了一些變化。具體來說：

2020年，軟工課的結構為，個人程式設計+結對程式設計+團隊程式設計。個人程式設計玩的是一套很奇葩的計算幾何題（說到這個筆者有很多粗鄙之語要講，這個後文有專門片段噴之，敬請期待），然後結對程式設計是基於這個計算幾何，搞個更神奇的GUI出來。

資料分析

該部分需要宣告一下，該部分分析主要針對結對程式設計部分。然而實際上由於個人專案和結對專案在git序列上存在連續性，故有些時候不能絕對劃清界限，希望讀者對該因素可能存在的潛在干擾有所判斷。個人專案大概為期一週，結對專案大概為期兩週，前後存在較強的關聯性。該部分目前爬取的資料均為結對專案階段的提交，個人階段的工作不會被算在內。

在下述的資料中，對於來源非爬蟲資料整理的資料項，會標註資料來源。

此外，這年的奇葩結對題目也會必然對結對資料分佈造成影響，請讀者有所瞭解和判斷。