OpenAI o3-mini釋出：極強邏輯推理，速度精度雙突破！

OpenAI 最近釋出了他們的新推理模型 o3-mini，這個模型在科學、數學和程式設計（STEM）領域表現得特別厲害，而且比之前的模型更快、更強。

根據 OpenAI 的說法，外部專家在 56% 的情況下更喜歡 o3-mini 的答案，而且在處理複雜問題時，嚴重錯誤減少了 39%。這個模型在跨語言任務中也表現得更好，尤其是在程式設計任務上，它在 SWE-bench Verified 這樣的測試中成功率高達 49.3%。

推理模式：o3-mini 引入了三種推理模式——低、中、高。開發者可以根據自己的需求選擇：

低：速度快，適合需要快速響應的任務。
中：平衡速度和準確性，適合大多數任務。
高：適合需要高精度的任務，比如程式設計和邏輯問題。

o3-mini 的響應時間比之前的 o1-mini 快了 24%，平均響應時間為 7.7 秒。在編碼任務上，它的表現甚至超過了更大的模型，比如o1-preview 和 o1。

o3-mini 的訓練資料結合了公開來源和 OpenAI 內部開發的資料。它可能使用了高質量的網路和書籍資料進行預訓練，並且專門為STEM 任務生成了合成資料。這種訓練方式讓它在邏輯任務和分析上表現更好。

o3-mini 不僅速度快、能力強，還特別擅長 STEM 推理。它的中等推理模式在數學、程式設計和科學方面的表現和 o1 差不多，但響應速度更快。不過在寫作和創意任務上可能不如其他模型。

根據專家測試，o3-mini 的答案比 o1-mini 更準確、更清晰，推理能力也更強。測試人員在 56% 的情況下更喜歡 o3-mini 的回答，而且在處理複雜問題時，重大錯誤減少了 39%。在中等推理模式下，o3-mini 在一些高難度的推理測試中表現得和 o1 一樣好。

博士級科學：在博士級生物學、化學和物理學問題上，OpenAI o3-mini 在推理工作量較少的情況下，其效能優於 OpenAI o1-mini。在付出較大努力的情況下，o3-mini 的效能可與 o1 相媲美。

研究級數學：具有高推理能力的 OpenAI o3-mini 在 FrontierMath上的表現優於其前身。在 FrontierMath 上，當被提示使用 Python 工具時，具有高推理能力的 o3-mini 在第一次嘗試時解決了超過 32% 的問題，其中包括超過 28% 的具有挑戰性的 (T3) 問題。這些數字是臨時的，上圖顯示了沒有工具或計算器時的效能。

競賽程式設計：在 Codeforces競賽程式設計中，OpenAI o3-mini 隨著推理努力的增加而獲得越來越高的 Elo 分數，均優於 o1-mini。在中等推理努力下，它的表現與 o1 相當。<i>

軟體工程：o3-mini 是我們在 SWEbench 驗證中效能最高的釋出模型。有關 SWE-bench 驗證結果的更多資料點，包括使用開源 Agentless 腳手架（39%）和內部工具腳手架（61%），

LiveBench 編碼：OpenAI o3-mini 即使在中等推理工作量下也超越了 o1-high，凸顯了其在編碼任務中的效率。在高推理工作量下，o3-mini 進一步擴大領先優勢，在關鍵指標上實現了顯著增強的效能。

常識：o3-mini 在常識領域的知識評估中表現優於 o1-mini。<i>

人類偏好評估：外部專家測試人員的評估還表明，OpenAI o3-mini 的答案更準確、更清晰，推理能力比 OpenAI o1-mini 更強，尤其是在 STEM 方面。測試人員在 56% 的時間裡更喜歡 o3-mini 的回答，而不是 o1-mini，並且觀察到在困難的現實問題上重大錯誤減少了 39%。

o3-mini 現在還支援搜尋功能，可以提供最新的網路資源連結。這是 OpenAI 將搜尋整合到推理模型中的早期嘗試。

o3-mini 是個非常強大的工具，特別適合那些需要處理技術問題的使用者！

免費與付費
免費 ChatGPT 使用者現在可以透過選擇“推理”選項或重新生成答案來試用 o3-mini。這是 ChatGPT 第一次向免費使用者提供推理模型。

付費使用者福利：

Plus 和 Team 使用者：每天的訊息限制從 50 條增加到 150 條。
Pro 使用者：可以無限制使用 o3-mini 和 o3-mini-high（高推理模式）。
企業使用者：o3-mini 將在 2 月份推出。

對於 API 使用者，o3-mini 的價格比 o1 低了 93%。具體價格如下：

輸入令牌：每百萬 1.10 美元。
輸出令牌：每百萬 4.40 美元。
快取令牌：價格是輸入令牌的一半。

總的來說，OpenAI o1 還是我們用來處理廣泛常識推理的模型，而 o3-mini 則更適合那些需要高精度和速度的技術領域。在 ChatGPT 中，o3-mini 預設使用中等推理模式，平衡了速度和準確性。所有付費使用者還可以選擇高智慧版本的 o3-mini-high，不過生成響應的時間會稍微長一些。專業使用者可以無限制地使用 o3-mini 和 o3-mini-high。

安全問題：
o3-mini 在說服力、CBRN 風險（化學、生物、放射、核）和模型自主性方面被評為“中等風險”。測試顯示，它有 79% 的機率說服模擬受害者捐款，並且能獲得最高捐款金額。雖然它的說服力接近人類水平，但 OpenAI 表示，這種“超人”操縱能力只有在極端情況下才會出現。

在公平性方面，o3-mini 的表現和之前的模型差不多，但在模糊問題上的準確率下降到 82%，遠低於 GPT-4o 的 97%。它在醫療決策測試中表現出較少的顯性歧視，但隱性偏見水平保持不變。

侷限性
儘管 o3-mini 在編碼任務上表現優異，但在模擬 OpenAI 工程師的真實拉取請求測試中，它的成功率為 0%。主要原因是模型無法正確遵循指令，反覆嘗試使用不存在的命令，導致任務失敗。這表明，完全自主的 AI 代理可能還需要更多改進。

總結：
o3-mini 是一個快速、強大且專門為 STEM 任務最佳化的模型，特別適合需要高精度和速度的技術領域。雖然它在某些複雜任務上還有改進空間，但整體表現已經非常出色，尤其是在程式設計和邏輯推理方面。對於開發者、學生和技術愛好者來說，o3-mini 是一個非常值得嘗試的工具！

OpenAI o3-mini釋出：極強邏輯推理，速度精度雙突破！

相關文章