剛剛，OpenAI放出最後大驚喜o3，高計算模式每任務花費數千美元

机器之心發表於2024-12-21

原文網址 : https://www.jiqizhixin.com/articles/2024-12-21-4

剛剛，OpenAI 為期 12 天的釋出迎來尾聲。如外界所料，新的推理系列模型 ——o3 和 o3-mini 成為這次釋出的收官之作。

o3 是 o1 系列模型的繼任者。這類模型的特點是讓模型在回答問題之前花更多時間思考（推理），從而提高回答的準確率。不過，OpenAI 在命名上跳過了 o2。據 The Information 報導，這麼做是為了避免版權問題，因為英國有家電信公司名叫 O2，可能引起混淆。Sam Altman 在今天下午的直播中證實了這一點。

事實上，從昨天開始，OpenAI 就已經開始預熱這個模型。而且已經有開發者在網上找到了 OpenAI 網站上對 o3_min_safety_test 的引用。

也有人早早就想看看 o3 究竟有何真本事，能否匹敵谷歌昨天釋出的 Gemini 2.0 Flash Thinking。

現在，和傳言的一樣，o3 和 o3-mini 來了！遺憾的是，o3 系列模型並不會直接公開發布，而是會先進行安全測試。Sam Altman 也指出今天不是釋出（launch），只是宣佈（announce）。剛剛，OpenAI放出最後大驚喜o3，高計算模式每任務花費數千美元

Sam Altman 提到，他們計劃在一月底左右推出 o3-mini，並在不久後推出完整的 o3 模型。

o3：突破 ARC-AGI 基準，博士級問題求解能力

首先，在 12 只聖誕青蛙聚集的圓桌前，ARC Prize Fundation 總裁 Greg Kamradt 參與了對 o3 模型的介紹。

ARC Prize Fundation 是一個非營利組織，旨在「透過基準測試來成為實現 AGI 之路的北極星」。該組織的首個基準 ARC-AGI 已經提出了 5 年時間，但一直未被攻克。

直到現在，Kamradt 宣佈 o3 已經在該基準上達到了優良水平，成為首個突破 ARC-AGI 基準的 AI 模型。

據介紹，o3 系列模型在 ARC-AGI 基準上的最低效能可達到 75.7%，而如果讓其使用更多計算資源思考更長時間，o3 更是可以達到 87.5% 的水平。

在 ARC-AGI 基準中，AI 需要根據配對的「輸入 - 輸出」示例尋找規律，然後再基於一個輸入預測輸出，下圖展示了一些例子。參加過畢業季招聘或公務員考試的人或許對此類圖形推理問題並不陌生。

Greg Kamradt 也順勢宣佈開源了一個任務資料集：https://github.com/arcprizeorg/model_baseline

ARC-AGI 發起者、Keras 之父 François Chollet 在測試報告中寫道，「（o3 系列模型）在高效率模式下取得的 75.7% 的分數符合 ARC-AGI-Pub 的預算規則（成本 <10000 美元），因此有資格在公共排行榜上排名第一！而它們在低效率模式下取得的 87.5% 的分數。雖然成本高昂，但仍然表明新任務的效能確實隨著計算量的增加而提高（至少達到了這個水平）。」

報告中還寫道，儘管每項任務的成本很高（o3 在低計算量模式下每個任務需要 17-20 美元，高計算量模式下每個任務數千美元），但這些數字不僅僅是將暴力計算應用於基準測試的結果。OpenAI 的新 o3 模型代表了人工智慧適應新任務的能力的重大飛躍。這不僅僅是漸進式的改進，而是真正的突破，標誌著與 LLM 之前的侷限性相比，人工智慧能力發生了質的轉變。o3 能夠適應以前從未遇到過的任務，可以說在 ARC-AGI 領域接近人類水平的表現。

不過，報告也指出，ARC-AGI 並不是對 AGI 的嚴峻考驗，透過 ARC-AGI 並不等於實現 AGI。「事實上，我認為 o3 還不是 AGI。o3 在一些非常簡單的任務上仍然失敗，這表明其與人類智慧存在根本差異。」François Chollet 表示。

^{OpenAI o3 消耗數千美元，生成數百萬個 token 也沒能解決的問題。}

ARC Prize Fundation 總裁 Greg Kamradt 表示，明年還會與 OpenAI 一起開發下一代基準。不過，從早期資料點來看，即將推出的 ARC-AGI-2 基準測試仍將對 o3 構成重大挑戰，即使在高計算量下，其得分也可能會降低到 30% 以下（而聰明人在不經過任何培訓的情況下仍然能夠得分超過 95%）。

在報告中，François Chollet 還分析了為什麼 o3 的分數可以提升那麼多。他寫道，「LLM 就像一個向量程式的儲存庫。當被提示時，它們會檢索你的提示詞對映到的程式，並在當前的輸入上『執行』它。LLM 是一種透過被動接觸人類生成的內容來儲存和操作化數百萬有用小程式的方法。」

「只要有足夠的合適訓練資料，這種『記憶、檢索、應用』的模式就能在任意任務上達到任意水平的技能，但它無法適應新情況或即時學習新技能（也就是說，這裡並沒有涉及到 fluid intelligence）。這一點在 LLM 在 ARC-AGI 上的表現中得到了體現，ARC-AGI 是專門設計用來衡量對新事物適應能力的基準測試 ——GPT-3 得分為 0，GPT-4 得分接近 0，GPT-4o 達到了 5%。將這些模型擴充套件到可能的極限，並沒有使 ARC-AGI 的得分接近幾年前基本的暴力列舉就能達到的水平（高達 50%）。」

「要適應新事物，你需要兩樣東西。首先，你需要知識 —— 一套可複用的函式或程式庫。LLM 在這方面擁有的資源綽綽有餘。其次，你需要在面對新任務時，能夠將這些函式重新組合成一個全新的程式 —— 一個能夠模擬當前任務的程式。這就是程式合成。LLM 長期以來缺乏這一特性。而 o 系列模型解決了這個問題。」

「關於 o3 模型的具體工作原理，目前我們只能進行一些推測。o3 模型的核心機制似乎是在 token 空間內進行自然語言程式搜尋和執行 —— 在測試時，模型會在可能的思維鏈空間中搜尋，這些思維鏈描述瞭解決任務所需的步驟，這種方式可能與 AlphaZero 風格的蒙特卡洛樹搜尋（Monte-Carlo tree search）頗有相似之處。在 o3 的情況下，搜尋可能由某種評估模型引導進行。值得注意的是，DeepMind 的 Demis Hassabis 在 2023 年 6 月的一次採訪中暗示，DeepMind 一直在研究這一概念 —— 這項工作已經醞釀了很長時間。」

詳細分析參見：https://arcprize.org/blog/oai-o3-pub-breakthrough

除了解決 ARC-AGI 這樣的「IQ」問題，o3 的編碼能力也比之前的 o1 系列明顯更勝一籌。在 SWE-bench Verified 基準上，o3 的準確率約為 71.7%，比 o1 模型高出 20% 以上。在 Competition Code 中，o3 獲得了難以置信 2727 Elo 得分，而 o1 僅為 1891。

此外，o3 在競賽數學（Competition Math ）上的準確率達到 96.7%，在 GPQA Diamond （該基準衡量模型在博士級科學問題上的表現）上的準確率達到 87.7%，比之前的 o1 表現（78%）高出近 10%。總結來看，o3 在這兩項基準測試上都達到了最佳表現。

o3 在 OpenAI 研究人員認為最嚴格的基準之一（EpochAI Frontier Math）上的表現如下表所示。該資料集由新穎的、未發表的以及非常難、極其難的問題組成。

OpenAI 高階研究副總裁 Mark Chen 特別強調了，即使是專業數學家也需要幾個小時甚至幾天才能解決裡面的問題之一。而今天，所有產品在這個基準上的準確率都低於 2%，o3 的準確率可以超過 25%。

o3-mini：高效能低成本，非常適合程式設計

o3 mini 是一個更經濟高效的 o3 版本，專注在提升推理速度、降低推理成本的同時兼顧模型效能。

^{介紹 o3-mini 的是參與訓練的 OpenAI 研究者 Hongyu Ren}

它支援三種不同的推理時間選項 —— 低、中、高。

與 o1 相比，o3-mini 在 Codeforces 上的效能具有顯著的成本效益，這使其成為一個非常適合用來程式設計的模型。

在數學問題上，o3-mini (low) 實現了與 gpt-4o 相當的低延遲。

o3-mini 上所有的 API 特性以及相應的能力表現如下：

Hongyu Ren 現場演示了幾個示例。首先，針對 o3-mini (high)，任務是使用 Python 語言編寫一個本地伺服器，其有一個簡易的使用者 UI，同時可以將使用者給出的文字訊息透過 API 傳輸給 o3-mini 的 medium 選項，然後獲取得到的程式碼，將其儲存到桌面的一個臨時檔案中，然後在一個新的 Python 終端中執行該檔案。

38 秒後，o3-mini 生成了結果程式碼：

接著，Hongyu Ren 直接將其複製到了一個 server.py 檔案中，然後直接執行了它。

之後，他嘗試了使用這個伺服器：print openai 並隨機給出一個數，簡單任務，當然很成功。

接下來他們上了點難度：在相當困難的 GPQA Diamond 資料集（這是一個博士水平的科學問題基準）上，生成一個程式碼來評估 o3-mini 的 low 模式，需要下載 https://openaipublic.blob.core.windows.net/simple-evals/gpga_diamond.csv

最後，使用前面編寫的 UI 介面，o3-mini 用了一定時間完成了這個任務，最終得到 low 模式下的 o3-mini 在 GPQA Diamond 資料集上的準確度為 61.62%。也就是說，他們成功讓模型編寫了一個測試該模型自身的指令碼。

Mark Chen 打趣地表示明年要讓 AI 演示一下自我提升，但這個說法似乎不夠 PR，讓 Sam Altman 趕忙說了一句：「Maybe not.」

另外，他們也給出了在 GPQA Diamond 資料集上的更多測試結果。可以看到，o3-mini (low) 的結果與上面演示示例得到的結果基本一致，而 o3 滿血版更是可以得到 87.7 的高準確度分數。

如何申請測試 o3 和 o3-mini

Mark Chen 表示，OpenAI 已經做了大量內部安全測試，而現在他們正在推進外部安全測試。從即日起，想要參與的測試者可以申請測試 o3-mini，至於 o3，就連測試員也還得繼續等待。

早期訪問申請現已在 OpenAI 網站上開放，並將於 2025 年 1 月 10 日關閉。

申請地址：https://openai.com/index/early-access-for-safety-testing/

申請者必須填寫一份線上表格，表格中會要求他們提供各種不同的資訊，包括之前發表的論文連結及其在 Github 上的程式碼庫，並選擇他們希望測試的模型（o3 或 o3-mini）以及計劃使用它們做什麼。

選定的研究人員將被授予訪問 o3 和 o3-mini 的許可權，以探索它們的能力併為安全評估做出貢獻，不過 OpenAI 的表格提示稱，o3 將在幾周內無法使用。

OpenAI 表示他們將滾動稽核申請，並立即開始選拔申請人。

最後，Mark Chen 也簡單介紹了他們的一種新的安全評估方法：deliberative alignment，即審議式對齊。這是一種直接教授模型安全規範的新正規化，並可訓練模型在回答之前明確回憶規範並準確地執行推理。他們使用了這種方法來對齊 OpenAI 的 o 系列模型，並實現了對 OpenAI 安全政策的高度精確遵守，並且這個過程無需人工編寫的思路或答案。

感興趣的讀者可檢視 OpenAI 的相關論文。

論文標題：Deliberative Alignment: Reasoning Enables Safer Language Models
論文地址：https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/978a6fd0a2ee268b2cb59637bd074cca/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122024.pdf

所以，總結起來，12 天釋出的最後一天，OpenAI 真正釋出出來的東西只有一篇論文，更多是兌現期票。另外，我們還是不知道 o3 是否能解答最難的高考數學題，但至少從 OpenAI 的描述來看，答案應該是樂觀的。

對於 OpenAI 的這最後一天釋出和 o3 模型，你有什麼看法？

剛剛，OpenAI放出最後大驚喜o3，高計算模式每任務花費數千美元

相關文章