多元推理重新整理「人類的最後考試」記錄,o3-mini(high)準確率最高飆升到37%

机器之心發表於2025-03-03
近段時間,DeepSeek R1 推理模型引爆了國內外社交媒體,讓人們見識到了大語言模型類人的深度思考能力。

雖然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在數學和程式設計領域取得了重大進展,但在面對一些測試基準時仍然力不從心,比如國際數學奧林匹克競賽(IMO)組合問題、抽象和推理語料庫(ARC)謎題和人類的最後考試(HLE)問題。以 HLE 為例,主流的推理模型集體翻車,結果顯示 DeepSeekR1、o1 的準確率都低於 10%。

如何提升推理模型在這些較難基準上的準確率呢?近日,波士頓大學、 NotBadMath.AI、谷歌等機構的研究者在最新的論文中,提出了一種在測試時結合多種模型和方法的多元推理方法。結果顯示,該推理方法在驗證數學和編碼問題以及其他問題的拒絕取樣時簡單而高效。

具體來講,研究者透過互動式定理證明器 Lean 來自動驗證 IMO 問題答案的正確性,透過程式碼自動驗證 ARC 謎題,以及透過 best-of-N 演算法有效地回答 HLE 問題。
圖片
  • 論文標題:Diverse Inference and Verification for Advanced Reasoning
  • 論文地址:https://arxiv.org/pdf/2502.09955

從實驗結果來看,研究者將 IMO 組合問題答案的準確率從 33.3% 提升到 77.8%將 HLE 問題的準確率從 8% 提升到 37%,並解決了 948 名人類無法攻克的 80%的 ARC 謎題和 o3 high 無法解決的 26.5 % 的 ARC 謎題

研究者表示,透過調整代理圖表示和不同的提示詞、程式碼和資料集,測試時模擬、強化學習和具有推理反饋的元學習等可以提高推理模型的泛化能力。

此外,研究者還發現了基礎語言模型的第三個實證性 scaling law,即多種模型、方法的數量與可驗證問題效能之間的關係,它們呈正向關係。前兩個 scaling law 分別如下:

  • 模型大小、資料大小和損失之間的關係,即更多引數、訓練資料和訓練時的語言模型表現更好。
  • 模型效能和測試時算力之間的關係,早期棋盤遊戲中驗證了訓練時和測試時算力之間的權衡,增加其中任何一項都會帶來更好的效能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了測試時算力擴充套件對推理型 LLM 的助益。

方法概覽

研究者在方法部分主要有以下三項成果:

一是多元推理(diverse inference)。研究者在測試時聚合了多個模型、方法和代理,而不是依賴單個模型和方法。任何一個正確的解決方案都會對 IMO 組合題和 ARC 謎題的可驗證任務進行自動驗證。具體如下:

  • IMO:研究者使用 8 種不同的方法,分別是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV,可以顯著提高推理模型準確率。其中將英語題目自動形式化為 Lean,從而完成了完美驗證。
  • ARC:合成程式碼解決方案在訓練示例上作為單元測試(unit test)進行驗證。
  • HLE:使用 best-of-N 作為不完美驗證器,隨著示例增加而解決率提升。

二是測試時模擬和強化學習。研究者在推理時生成了額外的特定於問題的資訊,其中:

  • IMO:將組合題轉化為了可互動遊戲環境,並使用組合搜尋或深度強化學習來得出部分結果或邊界。
  • ARC:透過合成程式碼來探索謎題轉換,從而刪除不正確的解決方案並最佳化候選解決方案。

另外,研究者表示,在給定相同資料集的情況下,使用訓練過的驗證器進行搜尋往往比監督微調效果要好,這激發了強化學習微調。他們透過執行測試時模擬和強化學習來生成額外資料,從而能夠正確證明 2024 IMO 組合題並求解困難的 ARC 謎題。

下圖 1 展示了研究者求解 IMO 組合題所用方法的高階架構,其流程包含了幾個元件,分別是編碼、模擬以及深度強化學習和解碼
圖片
在編碼階段,研究者透過將問題形式化為狀態空間、動作空間和獎勵來找到答案,然後提示 LLM 將問題轉化為一個遊戲環境。研究者將問題表示為 Gymnasium 開源專案中的 Python 程式碼,其中包括代理和策略,並使用模擬和深度強化學習來找到最優策略。他們重複此過程,為每個問題生成具有不同維的多個遊戲,併為每個遊戲的不同情節生成對應的資料和影片。

在解碼階段,研究者提取資料和幀並透過轉換對它們進行擴充,並使用 LLM 以摘要的形式為每個序列的影像和策略解釋編寫文字表示。最後,研究者利用這些資訊以及附錄 M 和 N 中的問題陳述、答案、書籍和指南,透過上下文學習來自動形式化證明。

三是程式碼圖的元學習。研究者使用 LLM 和其他工具來追蹤 pipeline 執行,並生成超引數、提示詞、程式碼標題和資料的 A/B 測試,並自適應地修改代理圖。

實驗結果

研究者使用了不同的模型和方法對 IMO 組合問題進行了廣泛的評估,他們測試了來自未汙染(non-contaminated)考試中的所有組合問題。

結果顯示,零樣本 o1 回答對了 1/9(準確率約 11%)的問題,使用 o3-mini 的最佳方法回答對了 3/9(準確率約 33.3%)的問題,而使用了 o3-mini high 的 8 種多元方法回答對了 7/9(準確率約 77.8%)的問題,並進行了自動驗證。

類似地,使用 o1 的最佳方法回答對了 3/9(準確率約 33.3%)的問題,而使用了 o1 的多元方法回答對了 6/9(準確率約 66.7%)的問題,也進行了自動驗證。
圖片
其次,研究者使用了 400 個 ARC 評估謎題,對 16 個模型和方法進行了廣泛的評估,結果如下圖 4 和圖 5 所示,共有以下幾項發現

  • 沒有 o3,16 個多元模型和方法將模型效能從 53%提升到了 69.5%。
  • 有了 o3,16 個多元模型和方法將模型效能從 91.5% 提升到了 93.75%。
  • 16 個多元模型和方法解決了 948 名人類無法解決的 80% 的謎題。
  • 16 個多元模型和方法解決了 o3 high 失敗的 26.5% 的謎題。
圖片
圖片
最後對於 HLE 問題,由於計算成本的原因,研究者隨機抽取了 100 個問題進行測試。不同模型和方法的準確率如下表 1 所示,其中 o3-mini high 非多模態,取得了 13.0%的準確率;Deep Research 使用了網路搜尋和程式碼,取得了最高 26.6%的準確率。
圖片
此外,使用 o3-mini high 對這 100 個隨機取樣問題進行 best-of-N 拒絕取樣(N=3),所有類別的準確率為 37%,數學問題的準確率為 33.3%;使用 o1 時所有類別的準確率為 21%,數學問題的準確率為 29.6%,具體如下圖 6 和圖 7 所示。
圖片
圖片
更多方法細節和實驗結果請參閱論文附錄。

相關文章