OpenAI o3-mini釋出:極強邏輯推理,速度精度雙突破!

banq發表於2025-02-01


OpenAI 最近釋出了他們的新推理模型 o3-mini,這個模型在科學、數學和程式設計(STEM)領域表現得特別厲害,而且比之前的模型更快、更強。

根據 OpenAI 的說法,外部專家在 56% 的情況下更喜歡 o3-mini 的答案,而且在處理複雜問題時,嚴重錯誤減少了 39%。這個模型在跨語言任務中也表現得更好,尤其是在程式設計任務上,它在 SWE-bench Verified 這樣的測試中成功率高達 49.3%。

推理模式:o3-mini 引入了三種推理模式——低、中、高。開發者可以根據自己的需求選擇:

  • 低:速度快,適合需要快速響應的任務。
  • 中:平衡速度和準確性,適合大多數任務。
  • 高:適合需要高精度的任務,比如程式設計和邏輯問題。

o3-mini 的響應時間比之前的 o1-mini 快了 24%,平均響應時間為 7.7 秒。在編碼任務上,它的表現甚至超過了更大的模型,比如o1-preview 和 o1

o3-mini 的訓練資料結合了公開來源和 OpenAI 內部開發的資料。它可能使用了高質量的網路和書籍資料進行預訓練,並且專門為STEM 任務生成了合成資料。這種訓練方式讓它在邏輯任務和分析上表現更好。

o3-mini 不僅速度快、能力強,還特別擅長 STEM 推理。它的中等推理模式在數學、程式設計和科學方面的表現和 o1 差不多,但響應速度更快。不過在寫作和創意任務上可能不如其他模型。

根據專家測試,o3-mini 的答案比 o1-mini 更準確、更清晰,推理能力也更強。測試人員在 56% 的情況下更喜歡 o3-mini 的回答,而且在處理複雜問題時,重大錯誤減少了 39%。在中等推理模式下,o3-mini 在一些高難度的推理測試中表現得和 o1 一樣好。

博士級科學:在博士級生物學、化學和物理學問題上,OpenAI o3-mini 在推理工作量較少的情況下,其效能優於 OpenAI o1-mini。在付出較大努力的情況下,o3-mini 的效能可與 o1 相媲美。

研究級數學:具有高推理能力的 OpenAI o3-mini 在 FrontierMath上的表現優於其前身。在 FrontierMath 上,當被提示使用 Python 工具時,具有高推理能力的 o3-mini 在第一次嘗試時解決了超過 32% 的問題,其中包括超過 28% 的具有挑戰性的 (T3) 問題。這些數字是臨時的,上圖顯示了沒有工具或計算器時的效能。

競賽程式設計:在 Codeforces競賽程式設計中,OpenAI o3-mini 隨著推理努力的增加而獲得越來越高的 Elo 分數,均優於 o1-mini。在中等推理努力下,它的表現與 o1 相當。<i>

軟體工程:o3-mini 是我們在 SWEbench 驗證中效能最高的釋出模型。有關 SWE-bench 驗證結果的更多資料點,包括使用開源 Agentless 腳手架(39%)和內部工具腳手架(61%),

LiveBench 編碼:OpenAI o3-mini 即使在中等推理工作量下也超越了 o1-high,凸顯了其在編碼任務中的效率。在高推理工作量下,o3-mini 進一步擴大領先優勢,在關鍵指標上實現了顯著增強的效能。

常識:o3-mini 在常識領域的知識評估中表現優於 o1-mini。<i>

人類偏好評估:外部專家測試人員的評估還表明,OpenAI o3-mini 的答案更準確、更清晰,推理能力比 OpenAI o1-mini 更強,尤其是在 STEM 方面。測試人員在 56% 的時間裡更喜歡 o3-mini 的回答,而不是 o1-mini,並且觀察到在困難的現實問題上重大錯誤減少了 39%。

o3-mini 現在還支援搜尋功能,可以提供最新的網路資源連結。這是 OpenAI 將搜尋整合到推理模型中的早期嘗試。

o3-mini 是個非常強大的工具,特別適合那些需要處理技術問題的使用者!

免費與付費
免費 ChatGPT 使用者現在可以透過選擇“推理”選項或重新生成答案來試用 o3-mini。這是 ChatGPT 第一次向免費使用者提供推理模型。

付費使用者福利:

  • Plus 和 Team 使用者:每天的訊息限制從 50 條增加到 150 條。
  • Pro 使用者:可以無限制使用 o3-mini 和 o3-mini-high(高推理模式)。
  • 企業使用者:o3-mini 將在 2 月份推出。

對於 API 使用者,o3-mini 的價格比 o1 低了 93%。具體價格如下:
  • 輸入令牌:每百萬 1.10 美元。
  • 輸出令牌:每百萬 4.40 美元。
  • 快取令牌:價格是輸入令牌的一半。

總的來說,OpenAI o1 還是我們用來處理廣泛常識推理的模型,而 o3-mini 則更適合那些需要高精度和速度的技術領域。在 ChatGPT 中,o3-mini 預設使用中等推理模式,平衡了速度和準確性。所有付費使用者還可以選擇高智慧版本的 o3-mini-high,不過生成響應的時間會稍微長一些。專業使用者可以無限制地使用 o3-mini 和 o3-mini-high。

安全問題
o3-mini 在說服力、CBRN 風險(化學、生物、放射、核)和模型自主性方面被評為“中等風險”。測試顯示,它有 79% 的機率說服模擬受害者捐款,並且能獲得最高捐款金額。雖然它的說服力接近人類水平,但 OpenAI 表示,這種“超人”操縱能力只有在極端情況下才會出現。

在公平性方面,o3-mini 的表現和之前的模型差不多,但在模糊問題上的準確率下降到 82%,遠低於 GPT-4o 的 97%。它在醫療決策測試中表現出較少的顯性歧視,但隱性偏見水平保持不變。

侷限性
儘管 o3-mini 在編碼任務上表現優異,但在模擬 OpenAI 工程師的真實拉取請求測試中,它的成功率為 0%。主要原因是模型無法正確遵循指令,反覆嘗試使用不存在的命令,導致任務失敗。這表明,完全自主的 AI 代理可能還需要更多改進。

總結:
o3-mini 是一個快速、強大且專門為 STEM 任務最佳化的模型,特別適合需要高精度和速度的技術領域。雖然它在某些複雜任務上還有改進空間,但整體表現已經非常出色,尤其是在程式設計和邏輯推理方面。對於開發者、學生和技術愛好者來說,o3-mini 是一個非常值得嘗試的工具!
 

相關文章