8卡32B模型超越o1預覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新正規化

机器之心發表於2025-02-12

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

一.引言

推理大語言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,透過模擬人類推理過程,在多個專業領域已超越人類專家,並透過延長推理時間提高準確性。推理模型的核心技術包括強化學習(Reinforcement Learning)和推理規模(Inference scaling)。

主流的大模型強化學習演算法,如 DPO、PPO、GRPO 等,通常需要在完整的思維鏈上進行微調,需要高質量資料、精確的獎勵函式、快速反饋和線上迭代、以及大量的算力。當處理複雜任務,如高階數學和程式設計問題時,模型需要更細粒度的搜尋、更精確的推理步驟和更長的思維鏈,導致狀態空間和策略空間的規模急劇擴大,難度大幅上升。

Inference scaling 策略,不依賴訓練,透過延長推理時間進一步提高模型的 Reasoning 能力。常見方法,如 Best-of-N 或者蒙特卡洛樹搜尋(MCTS),允許 LLM 同時探索多條推理路徑,擴大搜尋空間,朝著更有希望的方向前進。這些方法計算成本高,特別是步驟多或搜尋空間大的時候。取樣隨機性使得確定最佳路徑困難,且依賴手動設計的搜尋策略和獎勵函式,限制了泛化能力。

在此背景下,普林斯頓大學團隊聯合北京大學團隊合作開發了名為 ReasonFlux 的多層次(Hierarchical)LLM 推理框架。

圖片

  • 文章連結:https://arxiv.org/abs/2502.06772

  • 開源地址:https://github.com/Gen-Verse/ReasonFlux

(該論文作者特別宣告:本工作沒有蒸餾或用任何方式使用 DeepSeek R1。)

基於層次化強化學習(Hierachical Reinforcement Learning)思想,ReasonFlux 提出了一種更高效且通用的大模型推理正規化,它具有以下特點:

  • 思維模版:ReasonFlux 的核心在於結構化的思維模板,每個模版抽象了一個數學知識點和解題技巧。僅用 500 個通用的思維模板庫,就可解決各類數學難題。

  • 層次化推理和強可解釋性:ReasonFlux 利用層次化推理(Hierarchical Reasoning)將思維模板組合成思維軌跡(Thought Template Trajectory)、再例項化得到完整回答。模型的推理過程不再是 “黑盒”,而是清晰的展現了推理步驟和依據,這為 LLM 的可解釋性研究提供了新的工具和視角,也為模型的除錯和最佳化提供了便利。與 DeepSeek-R1 和 OpenAI-o1 等模型的推理方式不同,ReasonFlux 大大壓縮並凝練了推理的搜尋空間,提高了強化學習的泛化能力,提高了 inference scaling 的效率。

  • 輕量級系統:ReasonFlux 僅 32B 引數,強化訓練只用了 8 塊 NVIDIA A100-PCIE-80GB GPU。它能透過自動擴充套件思維模板來提升推理能力,更高效靈活。

圖片

ReasonFlux-32B 在多個數學推理基準測試中表現出色,僅僅用了 500 個基於不同數學知識點的思維模版,就展現了其強大的推理能力和躋身第一梯隊的實力。

二.ReasonFlux:
三大關鍵技術構建大模型推理新框架

ReasonFlux 的效能提升得益於其三大核心技術:

  1. 結構化的思維模板抽取:ReasonFlux 利用大語言模型從以往的數學問題中提取了一個包含大約 500 個結構化思維模板的知識庫。每個模板都包含標籤、描述、適用範圍、應用步驟等資訊,這些資訊經過組織和結構化處理,為 LLM 的推理提供了元知識參考。這些模板覆蓋了多種數學問題型別和解題方法,如不等式求解、三角函式變換、極值定理等,是 ReasonFlux 進行推理的基礎。
  2. 多層次強化學習(Hierarchical RL)選擇最優的 Thought Template Trajectory:該演算法透過 Hierarchical Reinforcement Learning 訓練一個 High-level 的 navigator,使其能夠對輸入問題進行拆解,轉而求解多個更簡單的子問題,根據子問題型別從模板庫中檢索相關的思維模板,並規劃出最優的 Thought Template Trajectory。它可以看作是解決問題的 “路線圖”,它由一系列的模板組合而成。這種基於 Hierarchical RL 的最佳化演算法透過獎勵在相似問題上的泛化能力,提升了推理軌跡的魯棒性和有效性,使得 ReasonFlux 能夠舉一反三,為各種數學問題生成有效的思維模板軌跡。
  3. 新型 Inference Scaling 系統:該系統實現了結構化模板庫和 inference LLM 之間的多輪互動。“Navigator” 負責規劃模板軌跡和檢索模板,inference LLM 負責將模板例項化為具體的推理步驟,並透過分析中間結果來動態調整軌跡,實現高效的推理過程。這種互動機制使得 ReasonFlux 能夠根據問題的具體情況靈活調整推理策略,從而提高推理的準確性和效率。

(a)推理示例對比:

接下來我們來分析 ReasonFlux 在解決實際問題上相較於 o1-mini 的對比。

我們來看和 o1-mini 的對比
圖片
如上圖可知,o1-mini 在面對這道難題時,嘗試了多種策略,但均未能找到有效的突破口。它首先試圖透過引入新變數和利用對稱性來簡化方程組,但收效甚微;接著又嘗試假設變數相等來尋找特解,結果卻得出了矛盾;隨後,它試圖用一個變數表示其他變數,並嘗試平方去根號,但複雜的表示式使其望而卻步;最後,它甚至想到了三角換元,但由於未能正確應用,最終只能無奈地放棄求解。

相比之下,ReasonFlux 的解題過程如下:

  1. 分析與規劃:ReasonFlux 首先對題目進行分析,確定瞭解題的主要步驟:初步確定 k 值的範圍、利用三角換元、化簡方程組、求解 θ、計算目標值。這一步反映了 ReasonFlux 的問題分析和規劃能力,為後續解題過程提供了基礎。
  2. 模板化推理:ReasonFlux 隨後依次應用了 “三角換元”、“化簡方程組”、“求解 θ” 等模板,將複雜的方程組逐步簡化,並最終求解出 θ 的值。每一步都依據模板的指導,旨在保證解題過程的準確性。
  3. 逐步推導:ReasonFlux 根據求得的角度值,計算出 (x, y, z) 的值,並最終計算出目標值圖片,從而得到 (m=1, n=32, m+n=33)。整個過程邏輯清晰,步驟明確,展示了 ReasonFlux 的規劃和推理能力。

(b) 新的 inference scaling law:
圖片
如上圖所示,隨著問題複雜度的增加,ReasonFlux 正確解答問題時所需的模板數量和互動輪數也相應增加。這表明 ReasonFlux 能夠根據問題的難度動態調整推理策略,體現了其優秀的自適應能力。並且可以觀察到,互動輪數的增長趨勢略高於模板數量,這意味著規劃能力的提升對解決複雜問題至關重要。

三.主流推理正規化對比:
ReasonFlux vs Best-of-N & MCTS

目前,提升 LLM 推理效能的主流方法通常依賴於增加模型規模和計算資源。例如,增加模型引數量、採用 Best-of-N 或蒙特卡洛樹搜尋 (MCTS) 等方法來擴大搜尋空間以尋找更優解。然而,這些方法往往計算成本較高,且模型的推理過程難以解釋。

ReasonFlux 採用了一種不同的方法,透過構建結構化的思維模板庫和設計新的層次化強化學習演算法,實現了一種更高效和可解釋的推理方式。

傳統的 Inference Scaling 方法,如 Best-of-N 和 MCTS,主要透過擴大搜尋空間來提高準確率。但隨著問題複雜度的增加,搜尋空間呈指數級增長,導致計算成本顯著上升。

在 ReasonFlux 的推理過程中,Navigator 與 Inference LLM 之間存在多輪互動。Inference LLM 根據 Navigator 給出的模板軌跡執行推理步驟後,Navigator 會對執行結果進行評估圖片。如公式圖片所示,根據評估結果,Navigator 會動態調整模板軌跡圖片,例如修改當前步驟的模板、新增或刪除步驟等。這種迭代最佳化的機制使得 ReasonFlux 能夠根據問題的具體情況靈活調整推理策略,從而提高推理的準確性和效率。

ReasonFlux 透過引入結構化的思維模板,將搜尋空間從 “原始解空間” 縮小到 “模板空間”,從而降低了搜尋的難度和成本。如果說傳統的推理正規化是 “大海撈針”,那麼 ReasonFlux 則是 “按圖索驥”。這些模板並非簡單的規則堆砌,而是經過提煉和結構化處理的知識模板,它們將複雜的推理過程分解為一系列可複用的步驟,從而提升了推理的效率和準確率。
圖片
如上圖所示,隨著問題難度的提升,Best-of-N 和 MCTS 的探索成本(例如取樣軌跡數量和迭代次數)顯著增加,而 ReasonFlux 的探索成本(互動輪數)則保持在較低水平且相對穩定。這說明 ReasonFlux 能夠更高效地利用已有的知識模板來解決問題,而不需要像 Best-of-N 和 MCTS 那樣進行大量的試錯和探索。這得益於 ReasonFlux 的結構化模板庫和模板軌跡規劃機制,使其能夠在更小的搜尋空間內找到正確的推理路徑。

四.訓練及推理框架介紹

下圖展示了 ReasonFlux 的訓練框架,其核心在於利用結構化的思維模板庫和基於思維模板軌跡獎勵的層次化強化學習演算法,訓練出一個能夠進行高效推理的大模型。整個訓練過程可以分為兩個主要階段:結構化知識學習和思維模板軌跡最佳化。
圖片
1. 結構化知識學習階段:這個階段的目標是讓模型學習思維模板庫中蘊含的結構化知識。這些結構化的 Thought template 格式如下圖所示:
圖片
然後,我們利用這些結構化模板資料 圖片對一個基礎 LLM 進行微調,得到模型圖片。訓練的目標是讓模型能夠根據模板的名稱和標籤,生成對應的描述和適用範圍 。透過這個階段的訓練,模型學習到了模板庫中蘊含的豐富知識,並具備了初步的模板理解和應用能力。

2. 模板軌跡最佳化階段這個階段的目標是訓練模型生成有效的模板軌跡,即針對特定問題,選擇合適的模板並進行排序,形成解決問題的 “路線圖”。我們利用新穎的基於 Thought Template Trajectory 的 Hierarchical RL 演算法來實現這一目標。在這個階段,我們使用 圖片模型針對輸入問題 圖片生成多個候選的 high-level 思維模板軌跡圖片。每個軌跡由一系列步驟 圖片組成,每個步驟都關聯到一個特定的模板。為了評估軌跡的質量,我們構建了一組與輸入問題 圖片相似的問題集圖片。然後,我們利用 inference LLM 圖片根據模板軌跡對這些相似問題進行具體的解答,並計算平均準確率作為軌跡的獎勵圖片。基於這個獎勵訊號,我們構建了最佳化樣本對圖片,其中圖片。然後,我們利用這些樣本對,透過 DPO 對 圖片進行進一步最佳化,得到最終的 navigator 模型圖片,也就是我們的 ReasonFlux 模型。

透過這兩個階段的訓練,ReasonFlux 模型不僅學習到了結構化的模板知識,還學會了如何針對特定問題選擇和組合模板,形成有效的推理路徑。這種能力使得 ReasonFlux 能夠高效地解決各種複雜的數學推理問題。

下圖是 ReasonFlux 的推理框架。其核心在於 navigator、inference LLM 和結構化模板庫之間的多輪互動。這種互動機制使得 ReasonFlux 能夠根據問題的具體情況靈活調整推理策略,從而提高推理的準確性和效率。
圖片
以下是 ReasonFlux 的推理流程:

1. 問題抽象:給定一個輸入問題圖片,ReasonFlux(即 navigator圖片)首先對其進行分析,並提取出問題的核心數學概念和關係,形成一個抽象表示圖片。這一步可以理解為對問題進行 “降維”,提取出問題的本質特徵。
2. 軌跡規劃:基於問題的抽象表示圖片,ReasonFlux 規劃出一個最優的模板軌跡圖片。這個軌跡可以看作是解決問題的 “路線圖”,它由一系列步驟組成,每個步驟都對應一個特定的模板。
3. 模板檢索:根據軌跡中的每個步驟 圖片關聯的模板名稱 圖片和標籤圖片,ReasonFlux 從結構化模板庫 圖片中檢索出相關的模板集合 圖片
4. 模板例項化: Inference LLM 圖片根據檢索到的模板 圖片和輸入問題 圖片的具體資訊,將軌跡中的每個步驟 圖片例項化為具體的推理步驟 圖片。這個過程可以理解為將抽象的模板應用到具體的問題中。
5. 軌跡調整: ReasonFlux 會評估每個例項化步驟 圖片的執行結果,並根據評估結果圖片動態調整模板軌跡。例如,如果發現當前步驟的模板不適用,ReasonFlux 可能會選擇另一個模板,或者新增新的步驟。這種迭代最佳化的機制使得 ReasonFlux 能夠根據問題的具體情況靈活調整推理策略,從而提高推理的準確性和效率。

透過這種 navigator 引導、inference LLM 執行、模板庫支援、動態調整軌跡的多輪互動機制,ReasonFlux 能夠高效地解決各種複雜的數學推理問題。這種推理框架不僅提高了推理的準確性和效率,還增強了模型的可解釋性,因為我們可以清晰地追蹤模型的推理過程和依據。

五.數學推理資料集上的表現:
小模型媲美大模型,展現未來應用潛力

ReasonFlux 在 MATH、AIME 2024、AMC 2023、OlympiadBench 和 Gaokao En 2023 等多個具有挑戰性的數學推理資料集上進行了測試,並取得了良好的結果。

ReasonFlux-32B 在這些資料集上的表現處於前列,與其他先進模型相比具有競爭力。如下表所示,在 MATH 資料集上,ReasonFlux-32B 的準確率為 91.2%;在 AIME 2024 資料集上,ReasonFlux-32B 的準確率為 56.7%。這些結果表明 ReasonFlux 框架具有有效性。更重要的是,它表明較小規模的模型透過最佳化推理框架,可以達到甚至在某些情況下超越較大模型的效能。

ReasonFlux 還可用於不同大小(1.5B, 7B 和 32B)的基礎模型,並且都能獲得巨幅的推理效果提升,足見其通用性和泛化性。
圖片
ReasonFlux 的成功不僅限於數學推理領域,其背後的核心思想 —— 結構化思維模板和模板軌跡 —— 具有廣泛的應用潛力。未來,ReasonFlux 有潛力被應用於更多領域,如程式碼生成,醫療診斷,具身智慧等多個領域。

六.作者介紹

楊靈:北大在讀博士,普林斯頓高階研究助理,研究領域為大語言模型和擴散模型。

餘昭辰:新加坡國立大學在讀碩士,北京大學 PKU-DAIR 實驗室科研助理,研究領域為大語言模型和擴散模型。

崔斌教授:崔斌現為北京大學計算機學院博雅特聘教授、博士生導師,擔任計算機學院副院長、資料科學與工程研究所所長。他的研究方向包括資料庫系統、大資料管理與分析、機器學習 / 深度學習系統等。

王夢迪教授:王夢迪現任普林斯頓大學電子與計算機工程系終身教授,並創立並擔任普林斯頓大學 “AI for Accelerated Invention” 中心的首任主任。她的研究領域涵蓋強化學習、可控大模型、最佳化學習理論以及 AI for Science 等多個方向。

相關文章