Devin是認知實驗室cognition-labs推出的號稱第一個人工智慧軟體工程師。
Devin具有SWE-Bench 編碼基準的最新水平,已經成功透過了領先人工智慧公司的實際工程面試,甚至還在 Upwork 上完成了實際工作。
Devin 是一個自主代理,可以透過使用自己的 shell、程式碼編輯器和網路瀏覽器來解決工程任務。
SWE-Bench 基準要求人工智慧解決在真實開源專案中發現的 GitHub 問題,在對該基準進行評估時,Devin 在無人協助的情況下正確解決了 13.86% 的問題,遠遠超過了之前最先進模型 1.96% 的無人協助和 4.80% 的協助效能。
請在下面的主題中檢視 Devin 的功能:
- 可以學習如何使用不熟悉的技術:閱讀博文後,Devin 在 Modal 上執行 ControlNet,為 Sara 製作帶有隱藏資訊的影像。
- 可以為成熟的生產資源庫做出貢獻:Devin 可以自主查詢和修復程式碼庫中的錯誤:Devin 幫助安德魯維護和除錯他的開源競技程式設計書籍。
- Devin 可以為成熟的生產軟體源做出貢獻。:Devin 解決了 sympy Python 代數系統中對數計算的 bug。Devin 設定了程式碼環境,重現了錯誤,並自行編碼和測試了修復程式。
- 可以訓練和微調自己的人工智慧模型:Devin 僅透過 GitHub 上一個研究資源庫的連結,就能對一個大型語言模型進行微調。
- 在 Upwork 上給 Devin 提供真實的工作,它也能完成!在這裡,Devin 編寫並除錯程式碼,以執行計算機視覺模型。Devin 對生成的資料進行取樣,並在最後編制一份報告。
Devin是一位不知疲倦、技術精湛的隊友,同樣準備好與您一起構建或獨立完成任務供您檢查。
有了 Devin,工程師可以專注於更有趣的問題,工程團隊可以努力實現更雄心勃勃的目標。
協作能力
憑藉我們在長期推理和規劃方面的進步,Devin 可以規劃和執行需要做出數千個決策的複雜工程任務。Devin 可以回憶每一步的相關背景上下文,隨著時間的推移不斷學習,並修正錯誤。
我們還為 Devin 配備了常用的開發者工具,包括沙盒計算環境中的 shell、程式碼編輯器和瀏覽器--人類完成工作所需的一切工具。
最後,我們賦予了 Devin 與使用者積極協作的能力。Devin 會實時報告進度,接受反饋,並根據需要與您一起完成設計選擇。
公司背景
認知實驗室cognition-labs.com.是一家專注於推理的應用人工智慧實驗室。
我們正在打造人工智慧隊友,其能力遠遠超出當今現有的人工智慧工具。透過解決推理問題,我們可以在廣泛的學科領域開啟新的可能性--程式碼只是一個開始。我們希望幫助世界各地的人們將想法變為現實。
我們擁有充足的資金,包括由創始人基金(Founders Fund)主導的 2100 萬美元 A 輪融資。我們非常感謝行業領導者的支援,包括 Patrick 和 John Collison、Elad Gil、Sarah Guo、Chris Re、Eric Glyman、Karim Atiyeh、Erik Bernhardsson、Tony Xu、Fred Ehrsam 和其他許多人。
網友討論
1、它與 GPT4/Claude 3 相比?
Devin 可以解決約 14% 的任務,GPT-4 可以解決約 2% 的任務,而 Claude 2 可以解決約 5% 的任務。所以比 GPT4 好大約 7 倍,比 Claude 2 好 3 倍。我很好奇它與 Claude 3 相比如何!
2、我花了 5 年時間才獲得了電腦科學學位,這至少可以說是對我的打擊。
3、具有諷刺意味的是在他們的帖子末尾釋出職位連結
4、未來我們還需要構建應用程式嗎?難道所有的軟體最終都會透過人工智慧來統一嗎?我覺得製作應用程式將成為一個毫無意義的中間人。
5、感覺人工智慧真的很擅長除錯,因為它可以處理事物的資訊量和速度。
6、Claude 3/Phind/GPT-4 會比這個 AI 實際上做得更好,並獲得更好的結果(如果連線到這種系統),可能很昂貴,但已經比人類更便宜和更快。