AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
“What I cannot create, I do not understand.”---Richard Feynman
儘管多模態大語言模型(MLLM)在簡單任務上最近取得了顯著進展,但在複雜推理任務中表現仍然不佳。費曼的格言可能是這種現象的完美隱喻:只有掌握推理過程的每一步,才能真正解決問題。然而,當前的 MLLM 更擅長直接生成簡短的最終答案,缺乏中間推理能力。本篇文章旨在開發一種透過學習創造推理過程中每個中間步驟直至最終答案的 MLLM,以實現問題的深入理解與解決。
最近,NLP 領域的突破,如 OpenAI o1,展示了 LLM 的推理能力並應對複雜語言任務的巨大潛力。這些進展的核心設計靈感源於類似 AlphaGo 的 “樹搜尋” 方法:透過使用 MCTS 等樹搜尋方法,自引導地構建中間思維樹,探索有效的推理路徑,並利用這些路徑對模型進行訓練,從而實現逐步推理能力的提升。
圖 1. (a)CoMCTS 搜尋有效性和效率比較。(b)基於 CoMCTS 資料訓練的 Mulberry 模型展現了卓越的推理效能。
一個直觀的想法是直接將樹搜尋方法應用於 MLLM 的有效推理路徑搜尋,但這種方法效果並不好,如圖 1 所示。主要原因在於:
(1)搜尋有效性:傳統的 MCTS 方法依賴自我引導,而當前的 MLLMs 訓練時沒有明確且定義良好的中間推理步驟,導致搜尋陷入單一 MLLM 推理空間的低質量同質節點,降低搜尋成功率。
(2)搜尋效率:傳統 MCTS 方法每次搜尋迭代通常僅擴充套件和探索一個後續推理節點,每次前進一步,需要大量迭代,使用 MLLM 進行推理進一步增加了計算複雜度。
為解決上述挑戰,本文提出了集體蒙特卡羅樹搜尋(Collective Monte Carlo Tree Search, CoMCTS),這是一種新的學習推理方法,透過將集體學習引入 “樹搜尋”,實現有效且高效的推理路徑搜尋與學習。
- 論文:《Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search》
- 論文連結:https://arxiv.org/abs/2412.18319
- 程式碼連結:https://github.com/HJYao00/Mulberry
CoMCTS 搜尋的優勢在於:
(1)聯合擴充套件多個 MLLM 的推理路徑,支援跨模型協同推理,避免單一模型陷入同質化低質量節點。
(2)聯合模擬與錯誤定位機制跳過反覆中間步驟生成、集體知識幫助更準確地識別錯誤,提升搜尋效率與效果。
此外,CoMCTS 也透過結合正負推理節點構建反思推理資料,使得 MLLM 可在長鏈路推理中進行逐步反思。最終,透過 CoMCTS,本文構建了透過逐步推理資料集 Mulberry-260K,訓練了一系列 Mulberry 模型,在 8 個 benchmark 上取得了明顯的提升。
研究方法
圖 2. CoMCTS 總覽圖
CoMCTS 的推理路徑搜尋
CoMCTSw 將集體學習的概念引入到樹搜尋中,核心思想是透過多個模型的集體知識協作搜尋有效的推理節點,並透過多次迭代最終找到正確的推理路徑。
定義:將一個策略 MLLM 模型定義為 π,CoMCTS 利用一組多模態大語言模型 共同搜尋並學習有效的推理路徑。對於輸入 Q = {文字,影像},每次迭代中,每個模型 π 生成一系列中間推理狀態,直到最終答案。第 m 步的中間推理狀態定義為 ,模型 在第 m 步生成狀態為 ,每步由一個或多個句子組成。
CoMCTS 演算法從根節點開始,透過一定次數的迭代進行推理路徑搜尋,每次迭代包括四個關鍵操作:(a)擴充套件 Expansion,(b)模擬與錯誤定位 Simulation and Error Position,(c)反向傳播 Backpropagation,以及(d)選擇 Selection,具體說明如下:
(a)擴充套件。擴充套件當前葉子推理節點,整合新的候選推理節點。給定當前葉子節點
(由操作(d)選擇或根節點),CoMCTS 利用一組 MLLM 的集體知識,協同擴充套件一組多樣且互補的候選推理路徑 ,直到終止節點:
其中 返回 的所有父節點,而 表示從根節點到 的當前推理路徑。表示由模型 從 開始生成的候選推理路徑。(b)模擬與錯誤定位。CoMCTS 利用多個模型的集體知識,共同模擬候選子節點 (在操作(a)中新增的節點)的候選值,將低分節點視為錯誤推理節點,過濾掉第一個小於閾值 t 的節點及其之後的所有節點:(c)反向傳播。CoMCTS 從葉子節點向根節點進行自底向上的更新。推理樹中新擴充套件路徑上的每個節點 s 都會更新其統計資訊,包括訪問次數 N 和節點值 V:其中,Child (s) 表示節點 s 的所有子節點,CountChild 表示用於計算節點 s 在候選集中的子節點數量的計數函式。(d)選擇節點。CoMCTS 根據上置信界限(UCB)值遍歷更新後的推理樹,選擇 UCB 值最高的候選節點 作為下一個搜尋迭代的起始節點。針對每個問題,重複迭代上述四個操作,直至達到預定次數或找到正確的推理路徑。CoMCTS 為每個問題構建明確的集體推理樹,幫助 MLLM 學習逐步推理能力。CoMCTS 構建的推理樹包含了正向和負向的推理節點,透過將負向的兄弟節點整合進有效的推理路徑中,以構建包含從負向推理節點過度的反思性推理路徑。具體來說,透過識別 UCB 差值最大的兄弟節點來構建反思路徑,如圖 2 和圖 3 所示。透過 CoMCTS 構建有效推理和反思性推理資料集,並使用集體 SFT 對模型進行訓練,使模型具備逐步推理與反思能力。推理資料組成:為了構建一個通用的推理資料集,本文從多個領域蒐集了原始多模態輸入問題。將這些原始資料用 CoMCTS 方法搜尋推理和反思路徑,最終得到 Mulberry-260K SFT 資料集。推理資料分佈:CoMCTS 生成的推理步驟大多集中在 6 到 8 步之間,簡單任務在 6 到 7 步,複雜任務在 7 到 10 步。結果表明,CoMCTS 能生成靈活的推理路徑,幫助 MLLM 根據任務複雜性調整推理深度。(1)與基準模型比較。實驗表明,Mulberry-260K 訓練的 Mulberry-7B 和 Mulberry-11B 相比 Qwen2-VL-7B 和 LLaMA-3.2-11B-Vision-Instruct 分別提高了 + 4.2% 和 + 7.5%,驗證了 CoMCTS 的有效性。此外,Mulberry-260K 訓練的模型也使 Qwen2-VL-2B 和 LLaVA-NeXT-8B 分別提升了 + 5.4% 和 + 11.0%,證明了其泛化能力。(2)與推理模型比較。使用 LLaVA-NeXT-8B 基準模型時,Mulberry 在 MathVista 上分別比 LLaVA-Reasoner 和 Insight-V 提高了 + 5.7% 和 + 6.5%,在 MMMU 上提高了 + 3.0% 和 + 1.0%。在相同基準 LLaMA-3.2-11B-Vision-Instruct 下,Mulberry 在 MathVista 上比 LLaVA-COT 提高了 + 6.3%。其優勢來自 CoMCTS 的樹搜尋和靈活的推理步驟設計。(3)與 SOTA 模型比較。Mulberry 在基準測試中優於大多數開源 MLLM,並在與閉源模型的比較中展現出競爭力,得益於 CoMCTS 搜尋資料的訓練。(1)CoMCTS 的消融研究。表 2 為使用 GPT-4o 作為基線進行的關於 CoMCTS 消融實驗。僅使用 GPT-4o 的 CoMCTS 將成功率提升至 63.8%,驗證了 CoMCTS 設計的有效性。逐步引入更多模型進一步提升成功率,即使較小的 Qwen2-VL-7B 也提高了效能(+2.4%),展現了 CoMCTS 在集體知識上的優勢。使用四個模型時,搜尋成功率達到了 80.2%。(2)有效和反思推理的消融實驗。表 3 顯示,加入反思性資料後,MathVista 上的效能提高了 0.8%,驗證了 CoMCTS 搜尋的推理資料與反思性資料的互補性。 表 3. CoMCTS 推理資料和反思資料的消融實驗(1)與其它樹搜尋方法的比較。將 CoMCTS 與其他樹搜尋方法比較,表 4 顯示,現有方法對搜尋效能提升有限,主要因傳統 MCTS 易陷入單一 MLLM 的低質量節點。CoMCTS 在搜尋效果和效率上具有顯著優勢,得益於集體擴充套件機制,使推理路徑搜尋不僅限於單一 MLLM 推理空間,還能跨多個 MLLM 推理空間,避免了陷入單一推理空間的困境。(2)定型分析。下圖定性分析比較顯示,LLaVA-NeXT-8B 和 Qwen2-VL-7B 生成的預測相對較短,缺乏深入的思考,導致錯誤的答案。相反,Mulberry,生成了豐富、明確且結構良好的推理步驟,最終得出了正確的答案。