首個AI軟體工程師上線!已透過公司面試搶程式設計師飯碗,華人創始團隊手握10塊IOI金牌

机器之心發表於2024-03-13

前段時間,英偉達 CEO 黃院士發出驚人言論:「都別學程式設計了,以後交給 AI 就行了,以後人人都是軟體工程師。」當時還有很多人反對,說「AI 永遠不會取代程式設計師。」沒想到,首個人工智慧軟體工程師 Devin 一發布,程式設計師的飯碗可能真要被 AI 端走了。

圖片

在 SWE-Bench 基礎測試中,無需人類協助,Devin 就可以解決 13.86% 的問題。而目前的 SOTA 模型,在沒有人類幫忙的情況下,只能完成 1.96% 的任務。

圖片

僅從評測結果看,Devin 解決真實世界軟體問題的能力要遠好於當前的 GPT-4 和 Claude 等模型。

官方發的推特說,Devin 不僅透過了一家業內領先的人工智慧公司的面試,在自由職業平臺 Upwork 上也能成功接單,完成單主要求的工作。也就是說,Devin 不僅是橫掃基礎測試的「做題家」,在就業市場裡也有人為它的工作能力買賬。

難道繼 Sora 讓「現實世界」不存在了之後,Devin 也要讓「軟體工程」不存在了嗎?

Devin 現在還未對外開放,但已經有開發人員和產品人員用上了。測試過的網友表示,以前一直用人工智慧輔助編碼,但一直失敗。直到昨天,他給 Devin 了一個簡單的 HTML 頁面,讓它提取選擇器,這個 GPT-4-turbo 、Claude、Groq 、LLama2 都沒完成的任務,Devin 只用了大約 10 秒就搞定了。

圖片 源自 https://news.ycombinator.com/item?id=39679787

Devin 的評論區的畫風,也是哀嚎一片:

圖片

當然,對這種說法,也有網友並不買賬,認為這是誇大宣傳。

圖片

所以,這位來搶程式設計師「飯碗」的 AI 軟體工程師的本事到底有多大呢?

首位 AI 軟體工程師

真要搶程式設計師飯碗?

要知道,雖然現在市面上的一系列大模型都有程式設計能力,但大多數都採用了單行程式碼補全或者單個函式生成的方式。想生成完整的程式,還需要設計 prompt 逐步「調教」。

而對 Devin 來說,你只需要向它提要求,坐等其成就可以了。

Devin 配備了包括 shell、程式碼編輯器和瀏覽器在內的常見開發工具,這些都在一個沙盒化的計算環境中 —— 這些都是人類軟體工程師完成工作所需的一切。

根據自然語言提示自動寫程式碼、生成完整的程式並上線只是 Devin 的基操,它可以自動規劃並執行需要數千個決策的複雜任務。

例如請它在幾個不同的 API 上對 Llama 的表現進行基礎測試,它首先制定了一個逐步解決問題的計劃:

圖片

在完成專案的過程中,它使用了瀏覽器為 API 留檔,以便它可以閱讀並學習如何插入這些 API:

圖片

遇到意外的錯誤時,Devin 決定先「print」出來,再根據日誌中的錯誤決定如何修復 bug:

圖片

最後,它為你構建了一個完整的視覺化網站:

圖片

Devin 能自動完成如此複雜的規劃,得益於其背後的 Cognition AI 在長期推理和規劃方面的進展,這使它能夠在每一步回憶相關的上下文,隨時間學習,並修復錯誤。

Devin 擁有積極的協作的能力,它能實時報告進度,接受反饋,並根據需要調整,還能適應成熟的程式碼庫,修改前輩留下的 bug:首個AI軟體工程師上線!已透過公司面試搶程式設計師飯碗,華人創始團隊手握10塊IOI金牌

自主學習,從完全陌生的知識學習使用不熟悉的技術,也是 Devin 所擅長的。

你給它一篇新部落格,講的是如何執行 ControlNet on Modal,生成帶文字的影像:

圖片

它不僅能迅速從中學會所需的程式碼,沒過兩秒,工作就自動幫你完成了:

圖片

在 Upwork 接的單裡,Devin 被要求編寫並除錯執行計算機視覺模型的程式碼。它取樣了結果資料,最後呈現了一份報告:

Devin 甚至能夠訓練和微調自己的 AI 模型,看來 AI 的生命快要在此刻完成閉環了。僅透過一個 GitHub 倉庫的連結,Devin 就微調了一個大型語言模型首個AI軟體工程師上線!已透過公司面試搶程式設計師飯碗,華人創始團隊手握10塊IOI金牌

總體來看,與其他具有程式設計能力的大模型,Devin 不僅輔助程式設計或提供程式碼片段,它能夠獨立支援一整個專案,而不僅僅是輔助或提供程式碼片段的建議。相比於「副駕駛」的角色,Devin 更接近於一個獨立工作者。而 Cognition AI 聲稱 Devin 實現了在 AI 領域被稱為「理解」的突破,這意味著它能夠不僅是在預測下一個單詞或程式碼行應該輸出什麼,而是更像在思考如何解決問題的總體方法。

而 Devin 的技術路徑,CognitionAI 並還未公開,只是簡要地提到,Cognition AI 的團隊發現了將大型語言模型(LLM)如 OpenAI 的 GPT-4 與強化學習技術結合的獨特方法。這種方法可能是他們技術突破的關鍵點。

看到 Devin 的 Demo 後,剛從 OpenAI 離職的 AI 大牛 Andrej Karpathy 發表了一些獨到的見解。在他看來,自動化軟體工程的發展將類似於自動化駕駛,是一個人工智慧做的越來越多,而人類的工作越來越少,但仍提供監督的過程。

圖片

Devin 可能是通向未來,人類在更高層級進行抽象監督的過程中一環,在這個過程中仍有很多問題需要解決。例如,人工智慧部分以及使用者介面 / 使用者體驗部分都有很多工作要做。人類如何提供監督他們如何引導人工智慧走向不同的路徑?他們如何除錯出錯的地方?程式碼編輯器的設計有可能需要大幅改變。

CognitionAI 簡介

整個 Cognition AI 團隊由 10 人組成,包括獲得過 10 枚國際比賽金牌的運動編碼者。

圖片

不少網友感嘆,這太瘋狂了。

這支團隊的成員在程式設計競賽中獲得的成就和對問題解決的獨特方法。其中三位創始人資訊如下:

圖片

從左到右分別為 Steven Hao、Scott Wu、Walden Yan,圖源:https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant

Scott Wu - 執行長 (CEO):Scott 是團隊的領導者,和他的兄弟 Neal Wu 一起,自青少年時期就開始參加並經常獲勝於國際程式設計比賽,曾連續三年攬獲 IOI 金牌,這些比賽提升了他們的程式設計能力。Scott 的背景和對演算法問題的深入理解為 Cognition AI 的開發提供了獨特的視角。

圖片

Scott Wu 曾連續三年獲得 IOI 金牌

Steven Hao - 技術長 (CTO):Steven之前是Scale AI的頂尖工程師,Scale AI是一家估值很高的初創公司,專注於幫助訓練AI系統。

圖片

Walden Yan - 首席產品官 (CPO):Walden 直到最近還在哈佛大學上學,他請求將他在學校的狀態留作模糊,大機率是想「輟學創業」。

圖片

Walden Yan 在哈佛就讀期間,曾在一年級時獲得第 32 屆 IOI 金牌

除了這三位核心成員,還有一位 Neal Wu,他是 Scott Wu 的兄弟,他也在 Cognition AI 工作。Wu 兄弟因其程式設計才華在全球範圍內享有盛譽,他們自青少年時期起就在國際編碼比賽中競爭並常獲勝利,這些比賽經驗幫助他們在程式設計和解決問題方面擁有獨特的方法。

參考連結:

https://twitter.com/cognition_labs/status/1767548763134964000

https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant

部落格連結:https://www.cognition-labs.com/blog

相關文章