OpenAI 推出迄今為止最先進的推理模型 o3

banq發表於2024-12-21

宣佈推出基於推理模型的全新 AI 模型 o3,在複雜推理任務中取得突破性效能。高價效比的迷你版將於 2025 年 1 月下旬推出,隨後將推出完整版。

要點

  • OpenAI 推出了其迄今為止最先進的 AI 模型 o3。該系統在關鍵基準上創下了新的效能記錄。它在科學問題上的表現甚至超過了博士級專家。這是一個類似於 o1 的推理模型,在推理過程中使用更多的計算,因此成本更高。
  • ARC 基準的建立者 François Chollet 表示,o3 代表了與之前語言模型的根本性轉變。它不僅僅是模式匹配,還可以實時建立新程式來解決不熟悉的問題。儘管 o3 具備這些功能,但它還不是通用人工智慧 (AGI),處理資訊的方式仍然與人類截然不同。
  • 該公司計劃於 2025 年 1 月底推出一款經濟實惠的 o3 迷你版。即使在中等設定下執行,這款小型型號的效能也優於之前的 o1 系統。o3 的完整版將在之後的某個時間推出。


OpenAI 的新 o3 模型代表了人工智慧能力的重大飛躍,特別是在解決問題的方法上。與剛剛釋出的前身 o1 一樣,o3 需要更多時間和計算能力來解決問題,並使用複雜的推理過程來獲得解決方案。

o3 在關鍵基準測試中創下紀錄。使用標準計算能力,o3 在AGI 基準測試 ARC Prize上達到 75.7% ,隨著資源的增加,這一數字躍升至 87.5%。ARC基準測試被視為通用人工智慧 (AGI) 進展的指標。

以下是chatgpt各個模型及其ARC基準測試中表現:

  • GPT-2 (2019): 0%,表示在測試中沒有達到任何標準或沒有效能。
  • GPT-3 (2020): 0%,與GPT-2相同,沒有效能。
  • GPT-4 (2023): 2%,效能非常低。
  • GPT-4o (2024): 5%,效能略高於GPT-4。
  • o1-preview (2024): 21%,效能有顯著提升。
  • o1 high (2024): 32%,比o1-preview有更好的表現。
  • o1 Pro (2024): 50%,效能接近一半。
  • o3 tuned low (2024): 76%,效能非常高,但不是最高。
  • o3 tuned high (2024): 87%,效能最高,接近完美。


在數學方面,o3 的表現尤其引人注目。

  • 該模型在 2024 年美國數學奧林匹克競賽 (AIME) 中幾乎拿下第一名,解決了 96.7% 的問題,只漏掉了一題。
  • 在 EpochAI 出了名的困難的FrontierMath前沿數學基準測試中,o3 的得分為 25.2%,與之前的模型相比有了巨大的進步,之前的模型得分都達不到 2%。

99.99% 的人無法理解 FrontierMath 有多麼瘋狂:
這些問題是由數學教授設計的,而不是任何訓練資料。

數學傳奇人物陶哲軒表示:“這些問題都非常具有挑戰性。我認為它們至少能抵抗人工智慧幾年。”

OpenAI o3 已經取得了 25% 的成績,人類還能抵抗幾年。


該系統在其他領域也表現出了類似的進步。與 o1 相比,軟體任務準確率提高了 20%,達到 71.7%。在競技程式設計方面,o3 的 Codeforces 得分為 2727,超過了 OpenAI 首席科學家的 2665 分。

OpenAI 的資料顯示,在 GPT 鑽石基準的博士級科學問題中,o3 的得分為 87.7%,遠高於各領域博士專家約 70% 的平均水平。

推理計算優點
開發 ARC 基準的 François Chollet將 o3 的效能描述為“AI 能力的令人驚訝且重要的階躍提升”:

  • OpenAI 的新 o3 系統(在 ARC-AGI-1 公共訓練集上進行訓練)在我們公佈的公共排行榜 10,000 美元計算限制下的半私人評估集上取得了突破性的75.7% 的成績。
  • 高計算(172x)o3 配置得分為87.5%。

o3 的與眾不同之處在於其解決問題的方法。與主要檢索儲存模式的傳統語言模型不同,o3 可以實時建立新程式來解決不熟悉的挑戰

該系統的工作原理與Google DeepMind 的 AlphaZero國際象棋程式類似,有條不紊地搜尋可能的解決方案,直到找到正確的方法。這個徹底的過程解釋了為什麼 o3 需要如此強大的計算能力——它為單個任務處理多達 3300 萬個標記。

與目前的 AI 系統相比,這種密集的 token 處理需要花費大量成本。高效版本每項任務的成本約為 20 美元,這筆費用很快就會累積起來——100 項測試任務的成本為 2,012 美元,而全套 400 項公共任務的成本為 6,677 美元(平均每項任務約 17 美元)。

低效版本需要的資源更多——計算能力是高效版本的 172 倍。雖然 OpenAI 尚未透露確切的成本,但測試顯示,該版本處理 3300 萬到 1.11 億個 token,每個任務需要大約 1.3 分鐘的計算時間。

不完全是 AGI
儘管取得了這些令人印象深刻的成果,但o3 還不是通用人工智慧。該系統在一些基本任務上仍然舉步維艱,與人類智慧存在根本區別。

隨著 o3 突破當前 ARC 基準的極限,Chollet 宣佈將在 2025 年推出更具挑戰性的繼任者。早期測試表明,o3 在 ARC-AGI-2 上只能實現約 30%,而未經特殊訓練的人類可以解決其任務的約 95%。

o3-Mini 版本即將推出
OpenAI 計劃於 2025 年 1 月下旬釋出價格更實惠的 o3 迷你版,隨後釋出完整版。迷你版將提供三種速度設定(低、中、高),即使在中等設定下也比 o1 表現更好,同時速度更快、更具成本效益。

在現場演示中,OpenAI 展示了 o3 mini 獨立生成和執行程式碼的能力,包括建立一個 Python 指令碼,該指令碼構建了一個用於在資料集上進行自我評估的使用者介面。迷你版還支援函式呼叫和結構化輸出等 API 功能,在某些方面甚至超過 o1

o3 模型處於“預覽”狀態,僅對透過其網站上的連結申請的安全和安保研究人員開放。最近,山姆奧特曼Sam Altman 表示應該有一個聯邦測試框架來確保釋出前的安全,因此謹慎是有道理的


banq注:人們已經從AI是否遭遇天花板或撞牆了的討論,轉移到如何測試AI,AI測試才撞牆了。

下一步問題是:如何測試比自己智商高的智慧,靠道德仁信嗎?

程式設計師以後成為領航員,告訴AI需要解決的問題範圍上下文情況,類似大喊:向我開炮。


 

相關文章