第一位AI軟體工程師誕生

Devin是認知實驗室cognition-labs推出的號稱第一個人工智慧軟體工程師。

Devin具有SWE-Bench 編碼基準的最新水平，已經成功透過了領先人工智慧公司的實際工程面試，甚至還在 Upwork 上完成了實際工作。

Devin 是一個自主代理，可以透過使用自己的 shell、程式碼編輯器和網路瀏覽器來解決工程任務。

SWE-Bench 基準要求人工智慧解決在真實開源專案中發現的 GitHub 問題，在對該基準進行評估時，Devin 在無人協助的情況下正確解決了 13.86% 的問題，遠遠超過了之前最先進模型 1.96% 的無人協助和 4.80% 的協助效能。

請在下面的主題中檢視 Devin 的功能：

可以學習如何使用不熟悉的技術：閱讀博文後，Devin 在 Modal 上執行 ControlNet，為 Sara 製作帶有隱藏資訊的影像。
可以為成熟的生產資源庫做出貢獻：Devin 可以自主查詢和修復程式碼庫中的錯誤：Devin 幫助安德魯維護和除錯他的開源競技程式設計書籍。
Devin 可以為成熟的生產軟體源做出貢獻。：Devin 解決了 sympy Python 代數系統中對數計算的 bug。Devin 設定了程式碼環境，重現了錯誤，並自行編碼和測試了修復程式。
可以訓練和微調自己的人工智慧模型：‍Devin 僅透過 GitHub 上一個研究資源庫的連結，就能對一個大型語言模型進行微調。
在 Upwork 上給 Devin 提供真實的工作，它也能完成！在這裡，Devin 編寫並除錯程式碼，以執行計算機視覺模型。Devin 對生成的資料進行取樣，並在最後編制一份報告。

Devin是一位不知疲倦、技術精湛的隊友，同樣準備好與您一起構建或獨立完成任務供您檢查。

有了 Devin，工程師可以專注於更有趣的問題，工程團隊可以努力實現更雄心勃勃的目標。

協作能力
憑藉我們在長期推理和規劃方面的進步，Devin 可以規劃和執行需要做出數千個決策的複雜工程任務。Devin 可以回憶每一步的相關背景上下文，隨著時間的推移不斷學習，並修正錯誤。

我們還為 Devin 配備了常用的開發者工具，包括沙盒計算環境中的 shell、程式碼編輯器和瀏覽器--人類完成工作所需的一切工具。

最後，我們賦予了 Devin 與使用者積極協作的能力。Devin 會實時報告進度，接受反饋，並根據需要與您一起完成設計選擇。

公司背景
認知實驗室cognition-labs.com.是一家專注於推理的應用人工智慧實驗室。
‍
我們正在打造人工智慧隊友，其能力遠遠超出當今現有的人工智慧工具。透過解決推理問題，我們可以在廣泛的學科領域開啟新的可能性--程式碼只是一個開始。我們希望幫助世界各地的人們將想法變為現實。

我們擁有充足的資金，包括由創始人基金（Founders Fund）主導的 2100 萬美元 A 輪融資。我們非常感謝行業領導者的支援，包括 Patrick 和 John Collison、Elad Gil、Sarah Guo、Chris Re、Eric Glyman、Karim Atiyeh、Erik Bernhardsson、Tony Xu、Fred Ehrsam 和其他許多人。

網友討論
1、它與 GPT4/Claude 3 相比？
Devin 可以解決約 14% 的任務，GPT-4 可以解決約 2% 的任務，而 Claude 2 可以解決約 5% 的任務。所以比 GPT4 好大約 7 倍，比 Claude 2 好 3 倍。我很好奇它與 Claude 3 相比如何！

2、我花了 5 年時間才獲得了電腦科學學位，這至少可以說是對我的打擊。

3、具有諷刺意味的是在他們的帖子末尾釋出職位連結

4、未來我們還需要構建應用程式嗎？難道所有的軟體最終都會透過人工智慧來統一嗎？我覺得製作應用程式將成為一個毫無意義的中間人。

5、感覺人工智慧真的很擅長除錯，因為它可以處理事物的資訊量和速度。

6、Claude 3/Phind/GPT-4 會比這個 AI 實際上做得更好，並獲得更好的結果（如果連線到這種系統），可能很昂貴，但已經比人類更便宜和更快。

第一位AI軟體工程師誕生

相關文章