Claude掙錢強於o1!OpenAI開源百萬美元編碼基準,檢驗大模型鈔能力

机器之心發表於2025-02-19

昨天,AI 圈可以說非常熱鬧。中午,馬斯克 xAI 釋出了地表最強旗艦大模型 Grok-3;下午,DeepSeek 梁文鋒親自掛名的論文公開了全新注意力架構 NSA

這下子,OpenAI 坐不住了,推出並開源了一個真實的、用於評估 AI 大模型編碼效能的全新基準 SWE-Lancer。該基準包含了來自全球性自由職業平臺 Upwork 的 1400 多個自由軟體工程任務,在現實世界中總價值達到了 100 萬美元。

這意味著,如果大模型能夠全部完成這些任務,則可以像人類一樣獲得百萬美元報酬。

圖片
具體來講,SWE-Lancer 包括了獨立工程任務(從 50 美元的 bug 修復到 32,000 美元的功能實現)和管理任務,其中模型選擇各種技術實施方案。獨立工程任務由經驗豐富的軟體工程師經過三重驗證的端到端測試進行評級,而管理任務則根據最初聘請的工程經理的選擇進行評估。

下圖為 SWE-Lancer 基準中的任務目標、任務型別、任務角色以及任務示例。
圖片
SWE-Lancer 任務更真實地反映了現代軟體工程的複雜性。任務是全棧式的,而且很複雜。自由職業者平均需要 21 天以上的時間才能完成每項任務。
圖片
SWE-Lancer 任務價格反映了真實市場價值。任務越難,報酬越高。
圖片
OpenAI 的評估結果顯示,包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在內的前沿模型仍然無法解決大多數任務。從下圖中可以看到,Claude 3.5 Sonnet 完成的任務最多,並且掙到了最高的 403,325 美元。
圖片
為了進一步促進未來的相關研究,OpenAI 開源了一個統一的 Docker 映象和一個公共評估分割 ——SWE-Lancer Diamond。透過將模型效能與現實世界的貨幣價值聯絡起來,OpenAI 希望能夠更好地研究 AI 模型開發的經濟效益。
圖片
  • 論文標題:SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
  • 論文地址:https://arxiv.org/pdf/2502.12115
  • 專案地址:https://github.com/openai/SWELancer-Benchmark

對於 OpenAI 開源的這個基準測試,有人認為很棒,並表示隨著軟體工程中 AI 能力的擴充套件,擁有標準化的評估方法非常重要,但應該是獨立的。期待看到社群對 SWE-Lancer Diamond 的使用反饋。
圖片
SWE-Lancer 簡介

SWE-Lancer 資料集包含來自 Expensify 開源庫在 Upwork(美國的一個自由職業平臺)上釋出的 1,488 個軟體工程任務。

這些任務總價值為 100 萬美元,分為兩類:

個人貢獻者(IC)任務(解決 bug 或實現功能),包含 764 個任務,總價值為 414,775 美元。模型會獲得以下資訊:(1) 問題文字描述(包括復現步驟和期望行為),(2) 問題修復前的程式碼庫 checkpoint,以及 (3) 修復問題的目標。模型在評估期間無法訪問端到端測試。

管理任務(模型扮演經理的角色,選擇最佳方案來解決問題),這一類包含 724 個任務,總價值為 585,225 美元。模型需要扮演軟體工程經理的角色,選擇解決任務的最佳提案。模型會獲得以下資訊:(1) 針對同一問題的多個解決方案(來自原始討論),(2) 問題修復前的程式碼庫 checkpoint,以及 (3) 選擇最佳解決方案的目標。

圖 3 中使用 Diamond Set 中的示例對 SWE-Lancer 中不同型別的 IC SWE 問題進行細分。左側藍色代表任務主題,右側綠色代表任務型別。
圖片
OpenAI 研究人員和 100 名其他專業軟體工程師在 Upwork 上識別了潛在的任務,並在不更改任何文字的情況下,將這些任務輸入到 Docker 容器中,從而建立了 SWE-Lancer 資料集。該容器沒有網路訪問許可權,也無法訪問 GitHub,以避免模型抓取程式碼差異或拉取請求詳情的可能。

研究者追蹤了模型解決的任務百分比以及模型透過解決這些任務所獲得的總報酬。由於這些任務來自真實場景,SWE-Lancer 的報酬能夠獨特地反映真實經濟價值,而不是理論上的估算。

研究人員寫道:他們的基準測試結果表明,現實世界中的自由職業工作對前沿語言模型來說仍然是一個挑戰。測試顯示,基礎模型還無法完全取代人類工程師。儘管它們可以幫助解決漏洞,但還沒有達到能夠獨立賺取自由職業收入的水平。

實驗結果

實驗使用了多個前沿語言模型,包括 Claude 3.5 Sonnet、GPT-4o 和 o1。

評估方法分為兩類:

  • IC 任務透過端到端測試評估,這些測試由專業軟體工程師編寫,模擬真實世界的應用行為。
  • 管理任務透過與原始工程經理的選擇對比來評估。

如圖 5 所示,在完整的 SWE-Lancer 資料集上,沒有一個模型能獲得 100 萬美元的全部任務價值。
圖片
如圖 6 所示,所有模型在 SWE Manager 任務上的表現均優於 IC SWE 任務。Claude 3.5 Sonnet 在 IC SWE 和 SWE Manager 任務上均表現最強,分別超出次佳模型(o1)9.7%(IC SWE 任務)和 3.4%(SWE Manager 任務)。
圖片
圖 8 展示了不同測試時計算量(test-time compute)水平下,按任務價格範圍劃分的 pass@1。結果表明,增加測試時計算量可以顯著提升模型在更復雜、更高價值任務上的表現。
圖片
如圖 9 所示,研究者觀察到效能更強的模型能更有效地利用使用者工具,因此在移除使用者工具後,它們的表現下降幅度更大。
圖片
報告指出:模型在定位問題方面表現出色,但在追根溯源方面失敗,導致解決方案不完整或存在缺陷。此外,模型能夠非常迅速地定位問題的源頭,透過在整個程式碼庫中搜尋關鍵詞來快速找到相關的檔案和函式 —— 這通常比人類工程師更快。然而,它們往往對問題涉及的多個元件或檔案缺乏深入理解,無法解決根本原因,從而導致解決方案不正確或不夠全面。

有趣的是,這些模型在需要推理以評估技術理解的管理任務上表現更好。

這些基準測試表明,AI 模型可以解決一些低階的程式設計問題,但還不能取代低階軟體工程師。這些模型仍然需要時間,但研究人員表示這種情況可能不會持續太久。

相關文章