最近,OpenAI 發了一篇論文,宣稱 o3 模型在 2024 IOI 上達到了金牌水平,並且在 CodeForces 上獲得了與精英級人類相當的得分。
他們是怎麼做到的呢?OpenAI 在論文開篇就用一句話進行了總結:「將強化學習應用於大型語言模型(LLM)可顯著提高在複雜程式設計和推理任務上的效能。」
論文標題:Competitive Programming with Large Reasoning Models 論文地址:https://arxiv.org/pdf/2502.06807
這兩天,這篇論文又引起了廣泛熱議,尤其是其中被博主 Matthew Berman 指出的關鍵:這種策略不僅適用於程式設計,它還是通往 AGI 及更遠未來的最清晰路徑。
也就是說,這篇論文不僅僅是展示了 AI 程式設計的新成績,更是給出了一份創造世界最佳 AI 程式設計師乃至 AGI 的藍圖。正如 OpenAI 在論文中寫到的那樣:「這些結果表明,擴充套件通用強化學習,而不是依賴特定領域的技術,能為在推理領域(例如競技程式設計)實現 SOTA AI 提供一條穩健的路徑。」
此外,這篇論文還特別提到,中國的 DeepSeek-R1 和 Kimi k1.5 透過獨立研究顯示,利用思維鏈(CoT)學習方法可顯著提升模型在數學解題與程式設計挑戰中的綜合表現,這也是 o1 此前沒有公開過的「配方」—— 直到前些天才半遮半掩地揭示一些,參閱機器之心報導《感謝 DeepSeek,ChatGPT 開始公開 o3 思維鏈,但不完整》。(1 月 20 日,DeepSeek 和 Kimi 在同一天釋出推理模型 R1 和 k1.5,兩個模型均有超越 OpenAI o1 的表現。)

下面,我們先看看這篇論文的核心內容,然後再看看 Matthew Berman 為什麼說擴充套件通用強化學習是「通往 AGI 及更遠未來的最清晰路徑」。
OpenAI 從自家的三個模型入手,這三個模型分別是 o1 、 o1-ioi 以及 o3。
OpenAI o1 :
在競爭性程式設計任務上的效能大幅提升
o1 是一個透過強化學習訓練的大型語言模型,旨在解決複雜的推理任務。
在回答問題之前,o1 會先生成一個內部思維鏈,並且用強化學習完善這種思維鏈過程,幫助模型識別和糾正錯誤,將複雜任務分解為可管理的部分,並在一種方法失敗時探索替代的解決方案路徑。這些上下文推理能力顯著提升了 o1 在廣泛任務上的整體表現。
Kimi 研究員 Flood Sung 也談到了推理模型 Kimi k1.5 的研發過程也有類似的發現,他指出:「長思維鏈的有效性曾在 Kimi 內部得到驗證,使用很小的模型,訓練模型做幾十位的加減乘除運算,將細粒度的運算過程合成出來變成很長的 CoT 資料做 SFT,就可以獲得非常好的效果。」他說,「依然記得當時看到那個效果的震撼。」
除此之外,o1 還可呼叫外部工具驗證程式碼。
不同模型在 CodeForces 基準上的表現。
OpenAI 將 o1 與非推理型大語言模型(gpt-4o)以及早期的推理模型(o1-preview)進行了對比。
圖 1 展示了 o1-preview 和 o1 都顯著優於 gpt-4o,這凸顯了強化學習在複雜推理任務中的有效性。
o1-preview 模型在 CodeForces 上的評分達到了 1258 分,相比 gpt-4o 的 808 分有了顯著提升。進一步的訓練將 o1 的評分提升至 1673,為 AI 在競爭性程式設計中的表現樹立了新的里程碑。
OpenAI o1-ioi:
增加強化學習和測試時推理就能帶來大幅提升
OpenAI 在開發和評估 OpenAI o1 的過程中,他們發現增加 RL 計算量和測試時推理計算量都能持續提升模型效能。
如圖 2 所示,擴充套件 RL 訓練和延長測試時推理可以顯著提升模型效能。基於這些洞見,OpenAI 建立了 o1-ioi 系統。
他們從以下方面來實現。
第一步是擴充套件 OpenAI o1 的強化學習階段,重點關注編碼任務。具體如下:
從 OpenAI o1 檢查點開始繼續強化學習訓練; 特別強調了具有挑戰性的程式設計問題,幫助模型改進 C++ 生成和執行時檢查。 指導模型以 IOI 提交格式生成輸出。
在高層次上,OpenAI 將每個 IOI 問題分解為子任務,併為每個子任務從 o1-ioi 中取樣了 10,000 個解決方案,然後採用基於聚類和重新排名的方法來決定從這些解決方案中提交哪些。
圖 3 顯示,o1-ioi 的 CodeForces 評分達到 1807,超過 93% 的競爭對手 —— 這證明了在編碼任務上進行額外的 RL 訓練可以帶來明顯的改進。
這些結果證實,特定領域的 RL 微調與高階選擇啟發式相結合可以顯著提高程式設計結果。
圖 4 為 IOI 比賽結果。在比賽期間,系統為每道問題生成了 10,000 個候選解決方案,並使用測試時選擇策略從中篩選出 50 次提交。最終,模型獲得了 213 分,排名位於前 49 % 。
OpenAI o3:
無需人類的強化學習效果卓越
基於從 o1 和 o1-ioi 獲得的洞見,OpenAI 又探索了僅依賴強化學習(RL)結果如何,而不依賴於人為設計的測試時策略。
甚至 OpenAI 試圖探索進一步的 RL 訓練,模型是否能夠自主開發和執行自己的測試時推理策略。
為此,OpenAI 使用了 o3 的早期檢查點,以評估其在競技程式設計任務上的表現。
如圖 5 所示,進一步的強化學習(RL)訓練顯著提升了 o1 和完整 o1-ioi 系統的表現。o3 能夠以更高的可靠性解決更廣泛的複雜演算法問題,使其能力更接近 CodeForces 上的頂級人類程式設計師。
圖 7 為模型在 IOI 2024 上的最終得分。2024 年比賽的總分上限為 600 分,金牌的分數線約為 360 分。
以下是關鍵結果:
o1-ioi 在 50 次提交的限制下獲得了 213 分,而在 10,000 次提交的限制下提升至 362.14 分,略高於金牌分數線。
o3 在 50 次提交的限制下獲得了 395.64 分,超過了金牌分數線。
這些結果表明,o3 在不依賴針對 IOI 手工設計的測試時策略的情況下,表現優於 o1-ioi。相反,o3 在訓練過程中自然湧現的複雜測試時技術(例如生成暴力解法以驗證輸出)足以替代 o1-ioi 所需的手工設計的聚類和選擇流程。
總體而言,在 IOI 2024 上的結果證實,僅透過大規模強化學習訓練即可實現最先進的程式設計和推理效能。透過獨立學習生成、評估和最佳化解決方案,o3 超越了 o1-ioi,而無需依賴領域特定的啟發式方法或基於聚類的方法。
另外,在 CodeForces 上,如前圖 5 所示,o3 的成績達到了 2724 分,已經進入了全球前 200 名。
該論文的作者之一 Ahmed El-Kishky 在 𝕏 上分享了一個有趣的發現。他表示,他們在檢查思維鏈時發現該模型獨立發展出了自己的測試時策略:該模型首先會編寫一個簡單的暴力解決方案,然後再使用它來驗證一種更加複雜最佳化版方法。
軟體工程評估
OpenAI 還對模型進行了軟體工程評估。他們在兩個資料集上測試了模型:HackerRank Astra 資料集和 SWE-bench verified。
圖 8 表明了模型進行思維鏈推理的影響:與 GPT-4o 相比,o1-preview 模型在 pass@1 上提升了 9.98%,在平均得分上提高了 6.03 分。
透過強化學習進一步微調後,o1 的表現得到了提升,其 pass@1 達到了 63.92%,平均得分為 75.80%—— 相比 o1-preview,pass@1 提高了 3.03%。
圖 9 所示,o1 預覽版在 SWE-bench 上相比 gpt-4o 提升了 8.1%,突顯了模型推理能力的顯著進步。
在訓練過程中應用額外的強化學習計算,o1 進一步實現了 8.6% 的效能提升。
值得注意的是,o3 使用了比 o1 顯著更多的計算資源進行訓練,比 o1 實現了 22.8% 的顯著改進。
通用強化學習是實現 AGI 的最清晰路徑?
基於此論文,Matthew Berman 透過一系列推文佐證了一個論點:通用強化學習是實現 AGI 的最清晰路徑。下面我們來看看他的論據。
首先,在這篇論文中,OpenAI 的研究表明「強化學習 + 測試時計算」是構建超智慧 AI 的關鍵。OpenAI CEO Sam Altman 也說 OpenAI 的模型已經在競爭性程式設計任務上從 175 名上升到了 50 名,並有望在今年底達到第 1 名。
影片來自 𝕏 @tsarnick
同時,上述論文中也指出,一開始模型依賴於人類設計的推理策略,但進步最大時候並不是在這個階段出現的,而是在將人類完全移出流程之後。
Berman 也引出了 DeepSeek-R1 的巨大成就。
他指出,DeepSeek-R1 的突破來自於「可驗證獎勵的強化學習」,而這其實也是 AlphaGo 使用的方法 —— 讓模型在試錯中學習,然後無限地擴充套件智慧。
AlphaGo 在沒有人類引導的情況下成為了世界最強圍棋棋手。它的方法就是不斷與自己博弈,直到其掌握這個遊戲。
Kimi 研究員 Flood Sung 也談到了這一點,他指出:「不管模型中間做錯了什麼,只要不是重複的,最後模型做對了就認為這是一個好的探索,值得鼓勵。反之,要懲罰。隨後在實際訓練中,發現模型會隨著訓練提升表現並不斷增加 token 數,證明強化訓練過程中模型可以自己湧現,這與 DeepSeek 的發現非常相似,也為 k1.5 視覺思考模型的上線奠定了基礎。」
而現在,類似的策略也被 OpenAI 用在了程式設計領域,並且未來也可能被用在更多領域。
這意味著什麼呢?Berman 認為,這意味著每個具有可驗證獎勵的領域(包括數學、程式設計、科學)都可被 AI 透過自我博弈方法掌握。
Flood Sung 也表達了類似的期待:「o3 在前面,還有很多路要走。給 AI 一個可衡量的目標,然後讓其自己去探索。比如讓 AI 寫出 10 萬 + 的公眾號文章,比如讓 AI 釋出一個複製 tiktok 的 app,讓我們一起期待一下接下來的進展!」
屆時,AI 將不再受到人類水平的限制。這或許也就是 AGI 誕生之時。
實際上,特斯拉已經在全自動駕駛任務上驗證這一點了。過去,他們的方法是依靠一個「人類規則 + AI」的混合模型;但他們換成端到端的 AI 方法之後,效能實現了大幅提升。Berman 表示:「AI 只需要更多計算 —— 而不是更多人類干預。」
正如 Sam Altman 之前說過的那樣,AGI 就是個規模擴充套件問題。
實際上,已經有不少研究者將強化學習用在程式設計和數學等領域之外了。
當然,並不是所有人都認可 Berman 與 Altman 的看法,比如有人指出了競爭性程式設計與實際程式設計的區別 —— 實際程式設計往往涉及到更多問題,包括可擴充套件性、安全性、彈性和投資回報等。
也有人直言反駁:
你已經看過這篇論文了嗎?對於「可驗證獎勵的強化學習」的未來潛力,你有什麼看法?你認為這能否實現 AGI?