C 語言寫得比 Codex 還要好的 AI 開源了!

六一發表於2022-03-18

近幾年來,AI 程式碼生成器十分流行,從 OpenAI 的 Codex 再到 DeepMind 的AlphaCode。然而,這兩個 AI 模型全都沒有開源:AlphaCode 只給出了一些測試樣例,而 Codex 只開放了 API。

卡內基梅隆大學的研究人員表示:“儘管大型語言程式碼模型取得了巨大成功,但最強的模型都尚未公開。這阻止了這些模型在資源充足的公司之外的應用,並限制了資源匱乏的組織在這一領域的研究。”

因此,幾個來自卡內基梅隆大學的研究人員推出了一個開源的自動程式碼生成器模型 PolyCoder,具有 27B 引數,基於 GPT-2 架構,在 12 種程式語言的 249GB 程式碼資料庫中進行訓練。

這 12 種程式語言分別是:C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。

訓練結果表明,PolyCoder 在編寫 C 語言方面的表現優於包括 Codex 在內的所有已知模型。和其他開源模型比較,PolyCoder 在 C、JavaScript、Rust、Scala 和 TypeScript 方面的表現都比類似模型 GPT-Neo 2.7B 要好。但 Codex 在其他語言方面仍然要勝過 PolyCoder。

相關文章