AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
一.引言
推理大語言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,透過模擬人類推理過程,在多個專業領域已超越人類專家,並透過延長推理時間提高準確性。推理模型的核心技術包括強化學習(Reinforcement Learning)和推理規模(Inference scaling)。
主流的大模型強化學習演算法,如 DPO、PPO、GRPO 等,通常需要在完整的思維鏈上進行微調,需要高質量資料、精確的獎勵函式、快速反饋和線上迭代、以及大量的算力。當處理複雜任務,如高階數學和程式設計問題時,模型需要更細粒度的搜尋、更精確的推理步驟和更長的思維鏈,導致狀態空間和策略空間的規模急劇擴大,難度大幅上升。
Inference scaling 策略,不依賴訓練,透過延長推理時間進一步提高模型的 Reasoning 能力。常見方法,如 Best-of-N 或者蒙特卡洛樹搜尋(MCTS),允許 LLM 同時探索多條推理路徑,擴大搜尋空間,朝著更有希望的方向前進。這些方法計算成本高,特別是步驟多或搜尋空間大的時候。取樣隨機性使得確定最佳路徑困難,且依賴手動設計的搜尋策略和獎勵函式,限制了泛化能力。
在此背景下,普林斯頓大學團隊聯合北京大學團隊合作開發了名為 ReasonFlux 的多層次(Hierarchical)LLM 推理框架。
文章連結:https://arxiv.org/abs/2502.06772
開源地址:https://github.com/Gen-Verse/ReasonFlux
(該論文作者特別宣告:本工作沒有蒸餾或用任何方式使用 DeepSeek R1。)
基於層次化強化學習(Hierachical Reinforcement Learning)思想,ReasonFlux 提出了一種更高效且通用的大模型推理正規化,它具有以下特點:
思維模版:ReasonFlux 的核心在於結構化的思維模板,每個模版抽象了一個數學知識點和解題技巧。僅用 500 個通用的思維模板庫,就可解決各類數學難題。
層次化推理和強可解釋性:ReasonFlux 利用層次化推理(Hierarchical Reasoning)將思維模板組合成思維軌跡(Thought Template Trajectory)、再例項化得到完整回答。模型的推理過程不再是 “黑盒”,而是清晰的展現了推理步驟和依據,這為 LLM 的可解釋性研究提供了新的工具和視角,也為模型的除錯和最佳化提供了便利。與 DeepSeek-R1 和 OpenAI-o1 等模型的推理方式不同,ReasonFlux 大大壓縮並凝練了推理的搜尋空間,提高了強化學習的泛化能力,提高了 inference scaling 的效率。
輕量級系統:ReasonFlux 僅 32B 引數,強化訓練只用了 8 塊 NVIDIA A100-PCIE-80GB GPU。它能透過自動擴充套件思維模板來提升推理能力,更高效靈活。
![圖片](https://i.iter01.com/images/05c4772e0801603e94071e95790f934e620b5ed281455546993e47bd56a50f92.png)
ReasonFlux-32B 在多個數學推理基準測試中表現出色,僅僅用了 500 個基於不同數學知識點的思維模版,就展現了其強大的推理能力和躋身第一梯隊的實力。
結構化的思維模板抽取:ReasonFlux 利用大語言模型從以往的數學問題中提取了一個包含大約 500 個結構化思維模板的知識庫。每個模板都包含標籤、描述、適用範圍、應用步驟等資訊,這些資訊經過組織和結構化處理,為 LLM 的推理提供了元知識參考。這些模板覆蓋了多種數學問題型別和解題方法,如不等式求解、三角函式變換、極值定理等,是 ReasonFlux 進行推理的基礎。 多層次強化學習(Hierarchical RL) — 選擇最優的 Thought Template Trajectory:該演算法透過 Hierarchical Reinforcement Learning 訓練一個 High-level 的 navigator,使其能夠對輸入問題進行拆解,轉而求解多個更簡單的子問題,根據子問題型別從模板庫中檢索相關的思維模板,並規劃出最優的 Thought Template Trajectory。它可以看作是解決問題的 “路線圖”,它由一系列的模板組合而成。這種基於 Hierarchical RL 的最佳化演算法透過獎勵在相似問題上的泛化能力,提升了推理軌跡的魯棒性和有效性,使得 ReasonFlux 能夠舉一反三,為各種數學問題生成有效的思維模板軌跡。 新型 Inference Scaling 系統:該系統實現了結構化模板庫和 inference LLM 之間的多輪互動。“Navigator” 負責規劃模板軌跡和檢索模板,inference LLM 負責將模板例項化為具體的推理步驟,並透過分析中間結果來動態調整軌跡,實現高效的推理過程。這種互動機制使得 ReasonFlux 能夠根據問題的具體情況靈活調整推理策略,從而提高推理的準確性和效率。
![圖片](https://i.iter01.com/images/f961f830464772aadb9be356997fe3b254d9e6650b8a92fd926fbb0765b3732e.png)
分析與規劃:ReasonFlux 首先對題目進行分析,確定瞭解題的主要步驟:初步確定 k 值的範圍、利用三角換元、化簡方程組、求解 θ、計算目標值。這一步反映了 ReasonFlux 的問題分析和規劃能力,為後續解題過程提供了基礎。 模板化推理:ReasonFlux 隨後依次應用了 “三角換元”、“化簡方程組”、“求解 θ” 等模板,將複雜的方程組逐步簡化,並最終求解出 θ 的值。每一步都依據模板的指導,旨在保證解題過程的準確性。 逐步推導:ReasonFlux 根據求得的角度值,計算出 (x, y, z) 的值,並最終計算出目標值 ,從而得到 (m=1, n=32, m+n=33)。整個過程邏輯清晰,步驟明確,展示了 ReasonFlux 的規劃和推理能力。
![圖片](https://i.iter01.com/images/5fbb6b72abecbe4eee677fcf94b25a5898780f55c25768c8733e251cdeddecee.png)
![圖片](https://i.iter01.com/images/613ade4a738d1175993a8c4e7d372f155c8a233175f1cfdce4b046133fd51150.png)
![圖片](https://i.iter01.com/images/7ebcd2d8b963c019bd1ab19440fb8b95ba5d2156ec21349be703701ba723e08a.png)
![圖片](https://i.iter01.com/images/0071ba5e04d6172904f3bd10484c17c87249b4444f784d80b07c010debda0a25.png)
![圖片](https://i.iter01.com/images/b2f5f8ec73f7cfc2d81db8960a7ef9c87a8bbb7de4d5cfdb468be522fa627e82.png)
![圖片](https://i.iter01.com/images/0c0243c3ba00c94f75da1e0211c0f54dc4fceb02d3d87170599d1d42adfd12b1.png)
![圖片](https://i.iter01.com/images/661fb103ae7e81469b9ce1125fdc749d07c7a733b9c3bbefd4726f04986779fd.png)
![圖片](https://i.iter01.com/images/3fe6b0a95df64c14f7939e12c08926a7b2f4d3ded5f8af842c7402ba7d1c6d7d.png)
![圖片](https://i.iter01.com/images/069608ec6c2acb184a9a33cdc52021b4012b3ae71de2b41f6cac7dd24c07655a.png)
![圖片](https://i.iter01.com/images/8cdf5622c3e64716a0c370cef6e27ceb00ec126b1c52732ab19fe766c2507798.png)
![圖片](https://i.iter01.com/images/fe2afd94caad0f2e9362061fffeb59a969ec314b6820c97e641dbcb9d640ef17.png)
![圖片](https://i.iter01.com/images/dd33bb7cebd4146e4fdb07ddbe59a925fa6a99ecc46d37d1f1e737537e7fd225.png)
![圖片](https://i.iter01.com/images/4d783a487f6336cbc5b1183822a0c1b86361b60d681f6a44cb7ac929f99437a2.png)
![圖片](https://i.iter01.com/images/c6502e46cbd0155237e0a608ce144229b712a94188391851cd4f14a27f7ff617.png)
![圖片](https://i.iter01.com/images/d875ea2bac91f4adc5f9712298826d722e9e0559e6cb1a53ae0039f118c96007.png)
![圖片](https://i.iter01.com/images/a92dcf0cef78872896c11f48613c4fa5bcf596a1aeb5dfd02aac28bc04d34828.png)
![圖片](https://i.iter01.com/images/f2e4487b42a77760f6f32e6b61fde3610409ed93e35dd50212cf1c8d44a311db.png)
![圖片](https://i.iter01.com/images/bca94b2f131379357846b4bee59ffa05522c6c920c2d3671aa23d168cf071a9e.png)
![圖片](https://i.iter01.com/images/42834c21f2a71739d4fb3053859949bb5014a03380698e01fa119ddcc74696f4.png)
![圖片](https://i.iter01.com/images/4ba0b0492559decaf1cc0c4b5da4e1a1509277f53fd6b12a4258a9b0db174138.png)
![圖片](https://i.iter01.com/images/da77b9899c4f2761b79f3958dcd1efe63248de9967f2d327193912c252c944ea.png)
![圖片](https://i.iter01.com/images/7a895583d0567f5715ee3114dbb80ffae7c8ad17b6cba46ab863921e19b43ef2.png)
![圖片](https://i.iter01.com/images/81148b67137776219fda6adff412bc1506467a56d206230ef62873b8e364f706.png)
![圖片](https://i.iter01.com/images/d6832885e0f216e0adae2dca3a8dffea4e1c2eeec20c384aaa4e8e85f7cfc099.png)
![圖片](https://i.iter01.com/images/46981df44a43837b622314923a8a49b9796a6a47e73ca883ef25a1bb1470892b.png)
![圖片](https://i.iter01.com/images/646d1a7c6863689d79e832194de721ddd3401671c517a36e58120b655dc4ffb6.png)
![圖片](https://i.iter01.com/images/e1a633b5c297e3e3eab84bccf97d9c13b433625bf83a25a73fc5eb7e2b5ae55e.png)
![圖片](https://i.iter01.com/images/52ad38cebd3aa488e6fead91d0e25444eb8718d7a7297b77a77b9d1fb36c84a0.png)
![圖片](https://i.iter01.com/images/58d35763921220a3d7d33555dc9fdf6fef49f582fed5cc33d0c41f7571c9edda.png)
![圖片](https://i.iter01.com/images/ac2bfdaac3b6442ca369f9e2c9b7e299d5161d415d9fdadee9d89763b31c0cc5.png)
![圖片](https://i.iter01.com/images/b258a9f2e837cd849ad0aa315d4997ff50e41a02c6a4398934e0034d52aed240.png)
![圖片](https://i.iter01.com/images/6861ebb948c44bec7904274c936582daa60059bc8dd36cf227d70f5da7e18e80.png)
![圖片](https://i.iter01.com/images/357cf5ab56a26f3282128a761fb789bca347a8b5a10f93315a24cd78bd3ff4e4.png)
![圖片](https://i.iter01.com/images/945404e13738d4cd8b438955b78542e194247b642704ae562444e1d1cac1a3bf.png)
![圖片](https://i.iter01.com/images/fde365d9909aabde9bd4af601aab7631243e55dccf9ba76714b770e0dc8b59da.png)
![圖片](https://i.iter01.com/images/bdec5eac9f28d5463d83ff7ba35a382cbe1a0394d5ddcb4fec5dd28fb1017df8.png)
![圖片](https://i.iter01.com/images/ee7c5c00a1aa300cb8485fd5a7bbfe818c118c727a32b52fb27b94a10d5b9175.png)
![圖片](https://i.iter01.com/images/df528c3c069d8904494e238fea4795d37ec18afa09c9c0becb3566ba0f96b82a.png)
![圖片](https://i.iter01.com/images/5a7199df6886563030d9d7834f7814a1d0cb5d694af2307f1862bd8fb60e3a82.png)
![圖片](https://i.iter01.com/images/00bb0be0f75f5d5a3b1950f21e9007e7fa326d956397d0b8baa97d93e14dfd4b.png)
楊靈:北大在讀博士,普林斯頓高階研究助理,研究領域為大語言模型和擴散模型。
餘昭辰:新加坡國立大學在讀碩士,北京大學 PKU-DAIR 實驗室科研助理,研究領域為大語言模型和擴散模型。
崔斌教授:崔斌現為北京大學計算機學院博雅特聘教授、博士生導師,擔任計算機學院副院長、資料科學與工程研究所所長。他的研究方向包括資料庫系統、大資料管理與分析、機器學習 / 深度學習系統等。
王夢迪教授:王夢迪現任普林斯頓大學電子與計算機工程系終身教授,並創立並擔任普林斯頓大學 “AI for Accelerated Invention” 中心的首任主任。她的研究領域涵蓋強化學習、可控大模型、最佳化學習理論以及 AI for Science 等多個方向。