隨著上個月 2025 研究生考試的結束,最新的考研數學真題成為大語言模型尤其是推理模型的「試煉場」,將考驗它們的深度思考能力。
業內曾有著這樣一種共識:大語言模型在文字水平上的表現令人印象深刻,但說到數學就不甚令人滿意了。去年一度火出圈的「9.9 與 9.11」比大小的問題,包括 GPT-4o 在內的很多大模型都翻車了,直到深度推理模型出現後才從根本上改善了這一狀況。
OpenAI 釋出的 o1 模型在涉及複雜和專業的數理問題方面表現讓人印象深刻,大模型在經過一定時間仔細思忖後,回答問題的能力和準確度大幅提升,這種被稱為推理側 Scaling Law 的現象已經成為繼續推動大模型能力提升的關鍵力量。在黃仁勳最新 CES 2025 的演講中,他也把測試時(即推理)Scaling 形容為大模型發展的三條曲線之一。
可以看到,繼 o1 之後,國內大模型廠商也陸續推出了自己的深度推理模型,並在某些任務上有亮眼的表現。數了一下時間軸大概是這樣的:
- 2024 年 11 月 21 日,深度求索團隊釋出 DeepSeek-r1 模型;
- 2024 年 11 月 28 日,阿里通義團隊釋出 QwQ 模型;
- 2024 年 12 月 16 日,月之暗麵糰隊釋出 Kimi-k1 模型;
- 2024 年 12 月 31 日,智譜 GLM 團隊釋出 GLM-Zero 模型;
- 2025 年 1 月 6 日,崑崙萬維釋出 Skywork-o1 模型。
大家也許會好奇,這些深度推理模型的能力(尤其是數學推理能力)到底有多強,又是誰能拔得頭籌呢?這時就需要一場公平的標準化考試了。
清華 SuperBench 大模型測評團隊(以下簡稱測評團隊)為了全面評估這些模型在數學推理方面的能力,結合 2025 年考研數學(一、二、三)的試題,專門對以上各家深度推理模型進行了嚴格的評測。同時,為了確保評測的全面性,參與評測的還包括各家的旗艦基礎模型。
此次選擇的 13 個模型具體如下:
從結果來看,所有模型中以平均分計,第一名是 OpenAI 的 GPT-o1模型,這也是沒什麼意外的。第二名則是來自智譜的 GLM-Zero-Preview,它以三門數學平均 138.70 的成績僅次於 o1,成為國產大模型第一,且距第一名不到 3 分。第三名則是來自通義的 QwQ。在本次評測過程中,測評團隊發現並非所有模型均提供 API 支援,且部分提供 API 服務的模型在輸出內容長度超出一定限制時,會出現內容截斷的情況。為確保評測工作的公正性與準確性,測評團隊決定統一採用各模型廠商的網頁端進行測試操作。在測試過程中,每道題目均在獨立的對話視窗中進行,以此消除上下文資訊對測試結果可能產生的干擾。鑑於部分模型輸出存在一定不穩定性,為降低由此引發的分數波動,測評團隊設定當同一模型在三次測試中有兩次及以上回答正確時,方將其記錄為正確答案。接下來從測試總分、單張試卷分數、深度思考模型 vs 基礎模型三個方面來詳細分析此次測評的結果。對於總分數,測評團隊對三張試卷的分數進行求和並計算平均值,按照分數高低進行排序。結果如下圖所示:從圖中可以看到,GPT-o1 仍然處於領先的地位,是唯一一個達到 140 分以上的模型,相較於排名末位的 GPT-4,分數優勢高達 70 分。位於第二梯隊(130 分以上)的模型有 GLM-zero-preview 和 QwQ,分別斬獲 138.7 分和 137.0 分。DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 則處於第三梯隊(120 分以上)。可以看出,深度思考模型普遍能夠達到 120 + 的水平。這也彰顯了深度思考模型在解決數學問題方面的強大能力。值得注意的是,曾於 2023 年位居榜首的基礎模型 GPT-4,在本次測試中僅獲 70.7 分,位列末席。這一結果表明,在過去一年(2024 年)中,語言模型在數學推理領域的進步顯著。而另一方面,在缺乏深度思考能力輔助的情況下,僅憑邏輯推理能力,DeepSeek-v3 作為基礎模型,已經能夠躋身第三梯隊,這說明基礎模型和深度思考模型之間的能力並非界限分明。為了更清晰地展現大模型在各張試卷答題能力方面的表現,測評團隊對每張試卷的錯題分佈情況進行了深入分析。在數學一的評測過程中,GPT-o1、GLM-zero-preview、QwQ、DeepSeek-r1-lite 四款模型的得分相同。透過進一步剖析錯題情況,測評團隊發現所有模型均在第 20 題(12 分,涉及曲面積分求解)以及第 21 題第二問(6 分,涉及特徵向量求解)上出現了錯誤。在數學二的評測中,各模型的分數分佈較為分散。經統計分析發現,第 3 題、第 5 題、第 7 題成為所有模型犯錯的集中區域。具體錯題分佈情況如下圖所示:針對數學三的評測結果顯示,模型出錯的重災區主要集中在第 14 題、第 15 題、第 16 題、第 19 題。相關錯題分佈情況如下圖所示:綜合上述各試卷錯題的具體分析,我們可以清晰地看到,GPT-o1(陰影列所示)在總計 66 道題目中,僅答錯 3.5 道題;並且 GPT-o1 答錯的題目,其他模型亦普遍存在錯誤,這顯示了 GPT-o1 目前依然是深度推理模型的天花板。最後,為了全面深入地探究各模型廠商在深度思考能力最佳化方面所取得的成果,測評團隊對相應基礎模型與深度思考模型進行了細緻對比分析。需要說明的是,此處對比並非意味著各深度思考模型是基於對應基礎模型所做最佳化,其主要目的在於直觀呈現各廠商在模型綜合能力提升方面的進展與成效。 注:OpenAI 的基礎模型採用的是 GPT-4o。透過對比分析,OpenAI 的深度思考模型 GPT-o1 相較於基礎模型 GPT-4o,提升幅度最為顯著,達到 57.3 分。緊隨其後的是阿里的 Qwen 模型和智譜的 GLM 模型,提升幅度分別為 47.0 分和 34.3 分。另外,深度求索和月之暗面的提升幅度相對較小,這主要是由於其基礎模型本身分數較高。以深度求索為例,其基礎模型 DeepSeek-v3 初始分數高達 120.3 分,在參評基礎模型中位居榜首。在本次測試中,測評團隊選取表現最為優異的基礎模型 DeepSeek-v3 作為參照基準,進而對各廠商深度思考模型的效能提升情況進行評估,相關資料呈現如下圖所示:可以看出,OpenAI、智譜、阿里在深度思考模型上的效能提升做了很大的最佳化,而 DeepSeek-v3 等其他模型在本項測試中的結果基本接近。這些測試結果一一看下來,我們可以發現:雖然 OpenAI 的 o1 在深度推理方面仍然是最強的,但國產推理大模型正在逐漸縮小與它的差距,此次智譜 GLM-zero-preview 和阿里 QwQ 的成績說明了這一點。