開源版AI程式設計師來了：GPT-4加持，能力比肩Devin，一天1.4k Star

机器之心發表於2024-04-03

原文網址 : https://www.jiqizhixin.com/articles/2024-04-03-3

AI程式設計師GPTdev

不到 24 小時，Star 量突破 1400。

最近，有很多人在為 AI 代替自己的工作而擔憂。

上個月火遍 AI 圈的「首位 AI 程式設計師」Devin，利用大模型能力已經掌握了全棧技能，僅需要人類給出自然語言指令，就可以自動完成複雜的程式碼任務。

Devin 展示的能力非常驚豔，不過這款工具出自走閉源路線的創業公司，現在只有一小部分獲得了內測名額的人才能使用。

本週二，來自普林斯頓大學 NLP 組的研究人員放出了 SWE-agent —— 一個開源版 AI 程式設計師，不到一天就獲得了上千的 GitHub Star 量。

SWE-agent 是一款用於自主解決 GitHub 儲存庫中問題的新系統。它在 SWE-bench 上獲得了與 Devin 相似的準確度，平均耗時為 93 秒。

專案網站：https://swe-agent.com/
GitHub：https://github.com/princeton-nlp/SWE-agent

該專案的作者 John Yang 表示，相關論文的預印版也將在 4 月 10 號上傳。開源版AI程式設計師來了：GPT-4加持，能力比肩Devin，一天1.4k Star

從原理上看，SWE-agent 透過將大模型（例如 GPT-4）轉變為軟體工程智慧體，可以修復真實 GitHub 儲存庫中的錯誤和問題。

在完整的 SWE-bench 測試集上，SWE-agent 解決了 12.29% 的問題，實現了 SOTA 效能。

為了提供開發過程中的自動化，SWE-agent 透過與專用終端互動來工作，它可以開啟、搜尋檔案內容，使用自動語法檢查、編輯特定行，也可以編寫並執行測試。

該專案的開發者精心設計了 UI 介面，並在 GitHub 上進行了介紹。

智慧體 - 計算機介面 (ACI)

研究團隊設計了簡單的以大模型（LM）為中心的命令和反饋格式，使大模型能夠更方便地瀏覽儲存庫、檢視、編輯和執行程式碼檔案，這被稱為智慧體 - 計算機介面 (ACI)。研究團隊還構建了 SWE 智慧體儲存庫，以便輕鬆迭代儲存庫級編碼智慧體的 ACI 設計。

就像語言模型需要良好的提示工程（prompt engineering）一樣，良好的 ACI 設計在使用智慧體時會帶來更好的結果。沒有經過良好調整的 ACI 的基線智慧體的表現比 SWE-agent 差得多。

SWE-agent 包含研究團隊在智慧體 - 計算機介面設計過程中發現的非常有用的功能，包括：

1. 新增一個在發出編輯命令時執行的 linter，如果程式碼語法不正確，則不會讓編輯命令透過。

2. 為智慧體提供一個專門構建的檔案檢視器。研究團隊發現此檔案檢視器在每輪僅顯示 100 行時效果最佳，並且該檔案編輯器具有上下滾動以及在檔案中執行搜尋的命令。

3. 為智慧體提供專門構建的全目錄字串搜尋命令。研究團隊發現該工具簡潔地列出匹配項非常重要 —— 只需列出至少有一個匹配項的每個檔案。該研究表明，向模型顯示有關每個匹配的更多上下文對於模型來說太混亂了。

4. 當命令的輸出為空時，返回一條訊息：「您的命令已成功執行，但未產生任何輸出」。

未來發布的論文將詳述更多資訊。

安裝與使用

要使用 SWE-agent，首先要設定好如下條件：

1. 安裝 Docker，並在本地啟動 Docker；

2. 安裝 Miniconda，並使用 conda env create -fenvironment.yml 建立 swe-agent 環境；

3. 使用 conda activate swe-agent 啟用；

4. 執行 ./setup.sh 建立 swe-agent docker 映象；

5. 在此儲存庫的根目錄下建立一個 keys.cfg 檔案並填寫以下內容：

OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'
ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'
GITHUB_TOKEN: 'GitHub Token Here (required)'

SWE-agent pipeline 包含兩個步驟：

第一步：SWE-agent 接收輸入的 GitHub 問題，並返回嘗試修復它的拉取請求（pull request）；
第二步：評估拉取請求以驗證它確實解決了問題（目前僅適用於 SWE-bench 基準測試中的問題）。

如果想在整個 SWE-bench 上執行和評估，最簡單的方法是使用 x86 機器。

python run.py --model_name gpt4 \  
--data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml

python run.py --model_name gpt4 \  
--per_instance_cost_limit 2.00 \  
--config_file ./config/default.yaml

如果想執行 SWE-bench 中的單個問題，可以使用 --instance_filter：

python run.py --model_name gpt4 \  
--instance_filter marshmallow-code__marshmallow-1359

反轉！BAT程式設計吸金榜來了，AI程式設計師刷爆了......
2020-04-04
BATAI程式設計師
《程式設計師的數學》第2版來了！
2020-04-16
程式設計師
程式設計師薅羊毛神器來了！
2020-04-04
程式設計師
那些學了 Python 的程式設計師，程式設計能力都“退化”成什麼樣了？
2019-06-18
Python程式設計師
第一個想取代程式設計師的AI程式設計師，失敗了？
2024-11-11
程式設計師AI
程式設計師的“能力陷阱”
2019-07-12
程式設計師
學Python的程式設計師，程式設計能力都“退化”成什麼樣了？
2019-06-16
Python程式設計師
畢設開源了，126個star，39個fork
2019-06-02
程式設計師打工人的一天
2024-07-17
程式設計師
GPT-4 來了！這些開源的 GPT 應用又要變強了
2023-03-17
GPT
What...MiniGPT-4居然開源了,提前感受 GPT-4 的影像對話能力！
2023-04-21
GPT
開源者的自我修養｜為 ShardingSphere 貢獻了千萬行程式碼的程式設計師，後來當了 CEO
2022-07-01
行程程式設計師
幹了3年程式設計師，我開竅了
2021-12-06
程式設計師
程式設計師的一天，最離不開的竟是“TA”？
2021-07-16
程式設計師
程式設計師，請你不要在坑程式設計師了?
2021-05-26
程式設計師
全球最強AI程式設計師：GPT-4o加持，需求到跑通只需84秒
2024-08-14
AI程式設計師GPT
那些拿到 60K Offer 的 AI 程式設計師，後來都怎麼樣了？
2020-04-04
AI程式設計師
程式設計師修煉之路 - 設計能力提升途徑
2019-05-06
程式設計師
[轉]程式設計師都應該瞭解下版權和開源協議
2024-12-11
程式設計師協議
程式設計師想要月薪2W+？這些能力你有了嗎？
2019-12-04
程式設計師
Java程式設計師的兩項通用能力
2020-05-26
Java程式設計師
程式設計師必備能力——晉升之道
2020-10-29
程式設計師
一文掌握：50W年薪的AI程式設計師必備能力！
2018-04-18
AI程式設計師
5 款適合程式設計師的開源字型
2019-04-16
程式設計師
程式設計師的開源月刊：HelloGitHub（第 54 期）
2020-09-28
程式設計師Github
程式設計師的開源月刊《HelloGitHub》第61期
2021-04-28
程式設計師Github
程式設計師面試能力通過，卻被技術主管拒絕，HR回覆原因，程式設計師以為聽錯了
2019-03-18
程式設計師面試
優秀程式設計師，如何提高架構能力？
2020-10-19
程式設計師架構
php程式設計師應具有的7種能力
2023-03-07
PHP程式設計師
大廠程式設計師凡爾賽的一天
2021-05-13
程式設計師
“寒冬”來了，年薪百萬的程式設計師淪為流浪漢？
2018-11-27
程式設計師
程式設計師不能忍996了！全民 fuck ，GitHub來說話
2019-03-29
程式設計師996Github
GPT-4，天網來了？
2023-03-15
GPT
GPT-4，終於來了！
2023-03-17
GPT
程式設計師刪庫跑路了？
2019-03-31
程式設計師
老程式設計師都去哪了？
2019-06-06
程式設計師
程式設計師只吃青春飯？大齡程式設計師都去哪了？
2019-11-19
程式設計師
手把手教你給偶像刷票。偶像來了？程式設計師來了！Charles實戰
2018-11-08
程式設計師

開源版AI程式設計師來了：GPT-4加持，能力比肩Devin，一天1.4k Star

相關文章