自緣身在最高層?OpenAI o1 pro競賽級評測結果新鮮出爐

机器之心發表於2024-12-22

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


近期,OpenAI 號稱最強推理模型的推出,引發了社群的熱議,無論是效能還是價格,都產生了不少話題。最近,我們對 o1 新發布的 o1 滿血版、o1 pro mode 模型進行了高難度數學測試,旨在深入探究其在數學推理方面的能力表現。同時以上海人工智慧實驗室的 InternThinker-Alpha、DeepSeek 的 DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴 QwQ-32B-Preview 等模型作為對比,「o1 pro」是否真的「自緣身在最高層?」

AGI-Eval 最新的高難度數學評測集 Math Pro Bench,試題來源包括全國高中數學聯合競賽、美國數學邀請賽、全國碩士研究生招生考試等。從題型分佈上看,各模型考研數學題正確率高於高中數學競賽題 10%,提示考研數學題目難度相對簡單。這一現象表明考研數學題目相對高中數學競賽題而言,在知識運用的綜合性與邏輯性方面可能更符合模型的訓練模式與擅長領域。例如,在高中數學競賽題中,可能涉及更多獨特的解題技巧、創新性的思維方式以及對數學概念的深度挖掘,而模型在處理這些複雜且靈活的問題時可能面臨更大的挑戰。

話不多說,直接上評測結果 ——
圖片
整體來看,o1 pro mode 在總計正確率上以 0.774(65/84)佔據榜首,o1 以 0.750(63/84)緊隨其後。這表明 o1 系模型在整體數學推理能力上具有較高的水平,能夠較為有效地應對高難度數學問題。DeepSeek-R1-Lite 的總計正確率為 0.667(56/84),o1 - preview 的總計正確率為 0.643(54/84),其他模型的總計正確率相對較低,反映出它們在數學推理的全面性和準確性方面仍有提升空間。

其中在高中數學競賽題方面,o1 pro mode 和 o1 均以 0.722(39/54)的正確率位居前列,展現出了較強的數學思維能力與解題技巧應用能力。DeepSeek - R1 - Lite 的正確率為 0.611(33/54),o1 - preview 的正確率為 0.574(31/54),其他模型如 QwQ - 32B - Preview、K0 - math、InternThinker - Alpha 的正確率則相對較低,分別為 0.519(28/54)、0.426(23/54)、0.315(17/54)。

考研數學題上,o1 pro mode 以 0.867(26/30)的正確率脫穎而出,o1 的正確率為 0.800(24/30),QwQ-32B- Preview 和 o1- preview 的正確率均為 0.833(25/30)。DeepSeek - R1 - Lite 的考研數學題正確率為 0.767(23/30),而 K0 - math 和 InternThinker - Alpha 的正確率僅為 0.533(16/30)。
圖片
榜單連結:https://agi-eval.cn/evaluation/Math%20Pro%20Bench

除了推出評測榜單以外,AGI-Eval 也從模型的推理過程中,發現了一些有意思的現象和結論。

o1 pro 系列推理更快,思考更靈活

1. o1、o1 pro 總推理時間更短。在推理時間方面,o1 系模型展現出了顯著的優勢。o1 的總平均推理時間僅為 33.84s,o1 pro mode 更是縮短至 33.26s,而其他模型如 DeepSeek - R1 - Lite 等平均推理時間在 2min 以上。這一巨大的時間差距表明 o1 系模型在數學推理效率上遠超其他同類模型,能夠在更短的時間內完成複雜數學問題的推理與解答,這對於實際應用場景中對實時性要求較高的任務具有比較重要的意義。

prompt

Alice 和 Bob 玩以下游戲。面前有 n 個令牌堆放著。玩家輪流行動,Alice 先行動。在每一回閤中,玩家從令牌堆中移除 1 個或 4 個令牌。移除最後一個令牌的玩家獲勝。求小於或等於 2024 的正整數 n 的個數,使得 Bob 無論 Alice 如何行動都能保證他獲勝。

o1 pro mode(用時 18 秒):
圖片
o1 (用時 26 秒):
圖片
2. o1、o1 pro 會根據題目難度調整推理時間。o1/o1 pro 的競賽題平均推理時間為 34-40s,而考研題平均推理時間為 18-20s,約是前者的約一半。
圖片
3. o1 pro 模型能答對其他模型暫無法答對的題。在測試過程中,存在一些題目,如 :

“設 p 是最小的滿足存在正整數 n 使得 n^4 + 1 可以被 2 整除的素數。求最小的正整數 m,使得 m^4 + 1 可以被 p^2 整除。”


這一題目僅有 o1 pro mode 答對,o1、Deepseek-R1-Lite 等其他模型均答錯。這表明 o1 pro mode 在處理某些具有特殊數學結構和邏輯要求的題目時,具備獨特的推理能力和解題思路,能夠深入挖掘題目背後的數學原理與規律,從而找到正確的答案。而其他模型在面對這類複雜且具有挑戰性的題目時,可能由於推理機制的侷限性或知識儲備的不足,無法準確地把握解題的關鍵要點,導致最終回答錯誤。

方法論與創新性

o1-pro 在處理數學問題時表現出更強的創新性和靈活性,能夠結合多種數學理論和方法來解決問題,優於其他通用 AI 模型。o1 同樣具有歸納與創新的能力,但與前者相比不夠簡潔直接,其他模型在這方面的能力則稍顯不足。

prompt:

一隻青蛙在正方形 A B C D 的四個頂點間跳躍,每次跳躍總是等可能地跳至與當前所在頂點相鄰的兩個頂點之一,且各次跳躍是獨立的。若青蛙第一次跳躍前位於頂點 A ,則它第 6 次跳躍後恰好仍位於頂點 A 的機率為

o1 pro mode(用時 12 秒):

直接利用了正方形的對稱性和跳躍的性質,避免了複雜的矩陣運算和特徵值分析,更直觀容易理解,適合初學者。
圖片
o1(用時 17 秒):

它的回答雖然正確,但涉及了狀態轉移矩陣和特徵值分析,計算過程相對複雜,且需要一定的線性代數和機率論知識,對初學者來說可能不太友好。
圖片
Deepseek-R1-Lite(用時 1min):

和 o1 同樣涉及了狀態轉移矩陣和特徵值分析,但求解過程冗長複雜得多,閱讀理解起來相對困難。
圖片
長鏈路推理與細節處理

在涉及大量計算的長鏈路推理中,一個小小的計算失誤會模型思維鏈失敗,使模型陷入死迴圈狀態。o1 pro mode 和 o1 實現了對細節的精確控制,在進行長鏈路推理時能夠儘量保持高度的準確性和穩定性。

prompt

實對稱矩陣 A=\left (\begin {array}{ccc} 4 & -2 & 0 \\ -2 & 3 & -2 \\ 0 & -2 & 2\end {array}\right) 可透過正交相似變換化為對角陣__
o1 pro(用時 12 秒):
特徵值與特徵向量的求解涉及大量複雜的計算,每一步計算都是正確的,最後導向正確的結果
圖片
o1(用時 19 秒):

雖然得到了正確的答案,但過程不完全正確,例如第二步特徵向量求解錯誤
圖片
Deepseek-R1-Lite:

在第一步計算特徵值的過程中,就出現了計算錯誤,得到的特徵多項式不正確,導致了後續求解特徵方程的過程基於錯誤的多項式,從而無法找到正確的特徵值。
圖片
此外,能看出推理模型也有明顯的能力缺陷部分。如 Deepseek-R1-Lite 推理部分會存在中英夾雜或渲染不全的情況

人機協作評測新模式探索及高質量評測社群建設

鑑於傳統評測方式難以充分反映模型的真實水平,AGI-Eval 創新性地提出了人機協作評測模式。在這種模式下,參與者可以與最新的大模型共同完成任務,既有助於提高任務完成度又便於建立更加直觀的區分度。基於前期的一些使用者實驗表明,透過這種方式不僅可以獲得更為簡潔、完善的推理過程描述,還可以進一步提升使用者與大模型之間的互動體驗。未來,隨著更多類似平臺的出現和發展,相信人機協作將成為評測領域的一個重要發展方向。自緣身在最高層?OpenAI o1 pro競賽級評測結果新鮮出爐
圖片
人機社群連結:https://agi-eval.cn/llmArena/home

AGI-Eval 平臺基於真實資料迴流、能力項拆解等方式,自建萬量級私有資料,並經過多次質檢保證準確率。黑盒 100% 私有化資料,可保證評測資料不可 “穿越”。從資料建設到模型評測,實現全層級能力專案,一級能力涵蓋指令遵循、互動能力、認知能力(含推理、知識、其他認知能力等);完美實現自動與人工評測相結合。

對於 Chat 模型,平臺官方榜單結合主觀、客觀評測結果,中英文權重分佈均衡。客觀評測基於模型打分,可處理具有一定自由度問題,準確率 95%+;主觀評測基於三人獨立標註,並記錄細分維度標籤結果,全面診斷模型問題。
圖片
總結 1:推理模型優勢探討

(一)高效的推理演算法

o1 系模型之所以能夠在高難度數學測試中取得優異成績,其高效的推理演算法功不可沒。透過對推理過程的最佳化與加速,模型能夠在短時間內對複雜的數學問題進行深入分析與推理,快速找到解題的思路與方法。這種高效的推理演算法可能基於先進的神經網路架構、智慧的搜尋策略以及對數學知識的有效組織與運用,使得模型在面對各種數學問題時能夠迅速做出反應並給出準確的答案。

(二)精準的題目理解與分析能力

在面對高難度數學題目時,準確理解題目要求與意圖是解題的關鍵第一步。o1 系模型展現出了強大的題目理解與分析能力,能夠精準地把握題目中的數學關係、條件限制以及求解目標。透過對自然語言描述的數學問題進行有效的語義解析和邏輯轉換,模型將其轉化為內部可處理的數學模型與推理任務,從而為後續的解題過程奠定堅實的基礎。這種精準的題目理解與分析能力使得模型在處理各種複雜數學表述和邏輯結構時能夠遊刃有餘,避免因誤解題目而導致的錯誤推理。

(三)靈活的推理策略調整

如前文所述,o1 和 o1 pro mode 能夠根據題目難度靈活調整推理時間和推理策略。在面對簡單題目時,模型採用快速高效的推理方式,迅速得出答案;而在處理複雜難題時,模型則能夠自動切換到深度推理模式,增加推理步驟和時間投入,對問題進行全面細緻的分析與求解。這種靈活的推理策略調整能力使得模型在不同難度層次的數學問題上均能保持較高的解題效率和準確性,體現了其在推理過程中的智慧化與自適應特性。

總結 2:推理模型侷限性分析

(一)知識覆蓋的侷限性

雖然 o1 系模型在本次測試的高中數學競賽題和考研數學題上取得了較好的成績,但數學領域知識浩瀚無垠,仍可能存在一些特定的數學分支、理論或特殊題型,模型的知識儲備不足或尚未深入學習掌握。例如,在某些高等數學的前沿研究領域、小眾的數學應用場景或具有特殊歷史文化背景的數學問題上,模型可能會因為缺乏相關知識而無法給出準確的答案或有效的推理。這表明模型在知識覆蓋的廣度和深度上仍有進一步擴充和完善的空間,需要不斷地學習和吸收更多的數學知識,以應對日益複雜多樣的實際應用需求。

(二)複雜邏輯推理的挑戰

在一些極其複雜的邏輯推理場景中,o1 系模型可能會遇到困難。儘管模型在常規的數學推理任務中表現出了較高的水平,但當面對涉及多層巢狀邏輯、模糊邏輯或高度抽象邏輯的問題時,模型的推理能力可能會受到限制。例如,在一些數學證明題中,需要運用複雜的邏輯推導和反證法等推理技巧,模型可能無法像人類數學家那樣進行深入細緻的邏輯思考和創造性的推理過程,導致無法成功完成證明或給出完整準確的推理步驟。這反映出模型在處理複雜邏輯關係時的侷限性,需要進一步最佳化其推理機制和邏輯處理能力,以提升在複雜邏輯推理任務中的表現。

(三)可解釋性問題

隨著人工智慧模型在各個領域的廣泛應用,其可解釋性成為了一個重要的關注點。o1 系模型作為一種基於深度學習的大模型,其推理過程往往具有高度的複雜性和黑箱特性,難以直觀地理解和解釋模型是如何得出某個答案或推理結果的。這對於一些對可解釋性要求較高的應用場景,如數學教育、科學研究中的關鍵決策等,可能會帶來一定的困擾。缺乏可解釋性使得使用者難以信任模型的輸出結果,也不利於模型的進一步最佳化和改進。因此,如何提高 o1 系模型的可解釋性,使其推理過程更加透明、可理解,是未來模型發展需要解決的一個重要問題。

未來展望

透過本次對 o1 系模型的高難度數學測試,我們全面深入地瞭解了其在數學推理能力方面的表現。o1 系模型在正確率、推理時間以及特殊題目處理等方面展現出了顯著的優勢,其高效的推理演算法、精準的題目理解與分析能力以及靈活的推理策略調整能力使其在眾多模型中脫穎而出。然而,模型也存在知識覆蓋侷限性、複雜邏輯推理挑戰以及可解釋性問題等不足之處。

展望未來,隨著技術的不斷發展和研究的深入,我們期待 o1 系模型能夠在以下幾個方面取得進一步的突破和改進。首先,透過不斷學習和更新知識,擴大其知識覆蓋範圍,提高對各種數學領域和特殊題型的處理能力。其次,最佳化推理機制,提升複雜邏輯推理能力,使其能夠更好地應對具有高度複雜性和抽象性的數學問題。最後,加強對模型可解釋性的研究,探索有效的方法和技術,使模型的推理過程更加透明、可理解,增強使用者對模型的信任和應用的可靠性。

相關文章