全球最強AI程式設計師:GPT-4o加持,需求到跑通只需84秒
机器之心發表於2024-08-14
大模型正在「替代人類程式設計師」的道路上快速前進。今年 3 月,人工智慧軟體工程師 Devin 引爆了 AI 社群,該產品由 OpenAI 的 GPT-4 基礎大型語言模型(LLM)提供支援,可以在收到自然語言文字指令後自主編寫和編輯程式碼。但在生成式 AI 領域,快速發展是主旋律,現在技術又迭代了。本週,一家 Y Combinator 支援,名為 Cosine 的創業公司宣佈推出自己的全新自主 AI 工程師 Genie。該公司表示,Genie 的表現輕鬆超越了 Devin,在第三方基準測試 SWE-Bench 上的得分為 30%,而 Devin 的得分僅為 13.8%。新工具甚至超過了亞馬遜的 Q 和 Factory 的 Code Droid 的 19%,現在是全球效能最好的 AI 程式設計師。 Genie 在 SWE-Bench 基準上的表現,以及與其他 AI 程式碼模型的比較。「這個模型遠不止是一個基準跑分而已:它是以像人類 SWE(軟體工程師)一樣思考和行動為目標從頭開始訓練的,」Cosine 的聯合創始人兼執行長 Alistair Pullen 表示。作為一種先進的 AI 軟體工程模型,Genie 可以按照人類工程師的指示自主處理各種編碼任務,包括 bug 修復、功能構建、程式碼重構、程式碼測試等。Genie 可以完全自主執行,也可以與使用者協作完成任務。它支援多種程式語言,在技術報告中顯示,其中包括 JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby。Cosine 聲稱 Genie 可以模擬人類工程師的認知過程。「讓它觀察人類工程師是如何工作的,並模仿這個過程。」Alistair Pullen 表示。一直以來,安全問題是大家比較關心的,Genie 生成的程式碼儲存在使用者的 GitHub 倉庫中,因而 Cosine 不會保留程式碼副本,從而避免了隨之而來的安全風險。此外,Cosine 的軟體平臺已經整合了 Slack 和系統通知,它就像一位 AI 同事,提醒使用者狀態或標記 issues。Alistair Pullen 演示瞭如何使用 Genie 來解決實際問題。目標是 GitHub 上的一個 issue,我們只需要直接往裡丟連結,AI 會自動分析問題,自動開始思考解決這個問題需要用到哪些檔案,一直到滿足要求為止。然後,Genie 會開始嘗試將問題分解成很多解決步驟,隨後生成程式碼。接著就是跑程式碼了,如果生成的程式碼有問題,它就自動尋找出問題的地方進行分析、修改,然後再嘗試執行。最後輸出結果:兩個檔案、17 次測試,僅用時 84 秒。 與許多依賴基礎模型並輔以少量工具的 AI 模型不同,Genie 是透過專有流程開發的。就模型而言,Genie 基於(目前)非通用的 GPT-4o 變體構建而成,OpenAI 允許 Cosine 將其作為實驗訪問計劃的一部分進行訓練。透過技術報告我們得知,當研究者開始構建 Genie 之初,他們只能在 16-32k 範圍內微調相對較短的上下文視窗模型。為了解決這一問題,團隊人員對這些模型進行了大量的早期探索,並在超過 1 億個 token 的大量資料集上對它們進行訓練,雖然發現架構具有一定優勢,但還是面臨模型在特定時間內可以處理的資訊量的限制。在嘗試了各種壓縮 / 分塊方法後,團隊認為唯一的解決方案是使用更大的上下文模型,儘管當時沒有可供使用的模型。幸運的是,不久之後,能夠確保訓練長上下文的 OpenAI 模型出現了。Cosine 在其部落格文章中表示,他們花了將近一年的時間來整理資料集,在最近的訓練執行中,Genie 接受了數十億個 token 資料的訓練,選擇的資料包含了使用者目前最關心的程式語言。以下是訓練 Genie 的過程中不同程式語言資料所佔的比例:在價格方面,據 Pullen 透漏, Genie 最初定價將分為兩個層級:- 入門級選項,定價大約在 20 美元左右。這個層級會有一些功能和使用限制,適合個人和小型團隊使用;
- 企業級選項,提供擴充套件功能,使用幾乎不受限制,好比擁有了一個精通程式碼的 AI 同事。但這個層級的定價將更高。
Genie 的推出對軟體開發團隊具有深遠的影響,特別是那些希望提高生產力並減少花在日常任務上的時間的團隊。憑藉其自主處理複雜程式設計挑戰的能力,Genie 可能會改變工程資源的分配方式,使團隊能夠專注於更具戰略性的計劃。 Pullen 表示,對於他來說,工程資源不再成為限制是一個巨大的推動力,特別是在創辦公司以來。他認為,一個能夠快速進入未知程式碼庫並解決未見過的問題的 AI 同事,其價值顯而易見,並且對世界有著巨大的影響。 未來,該公司打算擴大其模型組合,包括用於簡單任務的小模型和能夠處理更復雜挑戰的大模型。此外,Cosine 還計劃將其工作擴充到開源社群。 現在 Genie 已向部分使用者推出,但更廣泛的訪問許可權還未完全開放。申請地址:https://cosine.sh/register提出 Genie 的創業公司 Cosine 由 Pullen、Sam Stenner 和 Yang Li 於 2022 年創立,其使命是透過應用人類推理的方式來解決複雜問題,從而突破 AI 的界限。顯然,他們的努力是從軟體工程開始。其中,Yang Li 是一名華人,他碩士畢業於牛津大學,在 2021 年曾入選過福布斯 30 Under 30 歐洲區名單。Cosine 已經從 Uphonest 和 SOMA Capital 籌集了 250 萬美元的種子資金,Lakestar、Focal 等公司也參與其中。團隊規模雖小,但 Cosine 已經在 AI 領域取得了重大進展,而 Genie 只是一個開始。「我們堅信能夠為任何工作和行業構建起人類級別的推理能力,」Pullen 在公告文章中表示。「軟體工程只是最直觀的起點,我們很快將會展示出我們正在研究的其他一切。」https://venturebeat.com/ai/4-considerations-to-help-organizations-implement-an-ai-code-of-conducts/https://cosine.sh/blog/genie-technical-reporthttps://cosine.sh/blog/state-of-the-art