來自中國大模型初創公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成績重新整理了普林斯頓SWEBench(大模型真實獨立程式設計評測)排行榜,取得了全球第二名的成績,同時創造了非GPT-4o基模的最高紀錄(SOTA)。
SWEBench評測高度貼近真實程式設計場景,難度極高,不僅要求模型能理解需求、協調多個函式/類甚至檔案的變更,還要求模型與執行環境互動,處理超長上下文並執行遠超傳統程式碼生成任務的複雜邏輯推理。在這種高難度的真實測試中,行業中最先進的GPT4和Devin,也僅能解決1.74%和13.86%的問題。OpenCSG的這一成績,標誌著國內公司在推動語言模型向更實用、智慧和自主化方向發展邁出了領先的一步。
Devin - 大模型程式設計的創新
2024年3月,首個AI軟體工程師Devin的橫空出世,引爆了整個技術界。雖然伴隨著一系列爭議,但Devin本身強大的創新能力和巨大的潛力,帶給眾多AI愛好者和從業者新的期待。Devin不僅能夠輕鬆解決編碼任務,更可以自主完成軟體開發的整個週期——從專案規劃到部署,涵蓋但不限於構建網站、自主尋找並修復 BUG、訓練以及微調AI模型等等。
為什麼Devin敢於挑戰GPT4等基礎模型的程式設計能力呢?核心在於軟體工程師並不只是編寫程式碼,更涉及到需求理解、程式碼解讀、程式設計計劃、程式碼生成、除錯與異常修復等等環節,這裡面的每個環節都會影響大模型程式設計的可用性和效果。
針對於這類真實場景,普林斯頓大學提出了SWEBench(https://arxiv.org/abs/2310.06770),這是一種量化評估端到端程式碼生成能力的工具。GPT-4在SWEBench上的評分僅有1.74%,即使加上RAG技術,評分也不到3%,這表明單純依靠基礎模型來直接解決現實世界中的程式設計問題是不可能做到的。
而Devin的技術創新是基於Agent構建工作流程,將SWEBench的解決率提升到了一個新高度。3月份,Devin以獨立解決13.86%的問題解決率高居榜首,這直接將“大模型程式設計”從幾乎不可用的狀態提升到了“看到了曙光”。矽谷大廠和大模型創業公司紛紛闖入LLM for SE這個領域,這項記錄被連續改寫。截止2024年4月底,最好的記錄由Amazon AI團隊推出的 Amazon Q Developer Agent 創造的20.33%。較為遺憾的是,相比於基礎模型榜單上中國公司的“百花齊放”,這項高難度的挑戰中國公司鮮少參與,直到這一次OpenCSG改寫了這一紀錄。
近日SWEBench最新評測結果更新,OpenCSG躍居榜單第二名,該公司推出的OpenCSG StarShip CodeGen Agent在Lite評測中取得了23.67%的透過率,這一成績不僅超過了Devin和Amazon的成績,同時也創造了非GPT4-o基模的歷史最高紀錄(SOTA)。
OpenCSG成立僅一年,是一個有著深厚開源及大模型複合經驗的團隊:CEO陳冉是開源軟體領域的知名企業家,曾成功打造過多家開源領域的商業公司;CTO王偉來自清華05級姚班,在人工智慧領域有多年研發經驗;公司核心研發團隊中還匯聚了來自清華、北大、沃頓、港科大等學府的精英學子。這樣一支團隊是如何打造出新的記錄的呢?
新紀錄,模型+Agent齊發力
當前許多企業正在積極探索和實踐基礎模型、垂直領域模型及RAG等技術,而OpenCSG則選擇了專注的方向:致力於程式設計Agent的創新開發和大型模型演算法的深度最佳化。
Agent層面:不同於LLM+RAG或者通用Agent框架,OpenCSG StarShip CodeGen Agent針對軟體研發領域高度定製最佳化Agent而設計:將研發各個階段(需求理解、程式碼檢索、程式設計計劃、編寫程式碼、迴圈驗證等)透過LLM Agent實現,並結合軟體工程方法,例如AST語法分析、依賴檢索等進行深度最佳化的方式,在各個環節精益求精,最終整合實現了更高精度的程式碼生成。
演算法層面:針對程式碼版本變更引起的API衝突等典型問題,OpenCSG提出了自適應教師模式,透過教師模型分析程式碼版本變更記錄,生成高質量程式設計資料並用於改善基礎模型的生成效果。根據評測這些創新帶來的改進,顯著優於當前的RAG模式,尤其是在API結構高頻更新的熱門專案場景中。這部分的相關成果已經形成論文投遞到國際會議中。
正是這種演算法+工程雙管齊下、精益求精的模式,讓OpenCSG CodeGen Agent能在一眾模型中脫穎而出。
StarShip的星辰大海
如果說CodeGen Agent的真實評測是牛刀小試,那麼StarShip則是承載著OpenCSG的宏偉藍圖。對於StarShip的產品定位,OpenCSG CEO陳冉表示:“StarShip承擔著我們對於大模型重塑軟體開發的願景。使用者透過StarShip內建的智慧體(Agent)組建自己的數字員工團隊。CodeGen Agent是平臺內建的數字程式設計師,目前已經發布的還有CodeReview Agent程式碼評審員和CodeSearch程式碼問答工程師。不同於程式碼輔助工具,我們希望這些數字員工能直接獨立工作而不需要人工輔助干預。未來我們將釋出更多型別的數字員工,全面覆蓋需求、設計、編碼、測試和運維各個環節。”
CTO王偉表示這條路徑充滿挑戰但非常有趣,“從第一性原理來看,大模型對於生產力的提升已經不是'是'或者'否'的問題,而是何時、何地、何種形態的問題,StarShip正是我們嘗試給出的一個回答。”
除StarShip之外,OpenCSG團隊還相當高產:CSGHub開源模型平臺、wukong預訓練模型、CSGCoder微調程式碼模型等,這些產品定位精準,在業內頗受好評。
這些產品的快速推出與迭代,既滿足了市場需求,同時也為了一個共同的目標:讓大模型賦能每一個企業每一個人。“讓大模型賦能每個企業、每個人,就需要讓大模型變成水和電一樣。如果說大模型是電能,那麼CSGHub是電力網路,StarShip則是各種各樣的家電電器,最終賦能到千家萬戶。”
OpenCSG的理念是開源開放,作為一家堅持以開源為核心的公司,不僅實現了模型開源、程式碼開源,甚至將平臺開源。
“我們是一家年輕的公司,受益於開源,才能在較短的時間做出一些成果,同時也會全面回饋開源社群,這是開源社群的基本原則。除此之外,我非常認同Sam Altman的說法,開源只是一種模式,比模式更重要的是產品價值。”CTO王偉總結道。
“Benchmark本身只是一個數字,隨著GPT4-o的推出,SWEBench的測試成績預計將會很快超過30%,樂觀估計明年可以突破50%。而我們更關注這些數字背後的產品價值:隨著模型能力和工程技術的提升,數字員工將會從量變引發質變,從能用到好用,在各行業迎來全面的爆發”王偉解釋道“這可能會是大模型時代背景下的一個重大變化,從公司到個人,我們都要為此做好準備。”