AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
“What I cannot create, I do not understand.”---Richard Feynman
儘管多模態大語言模型(MLLM)在簡單任務上最近取得了顯著進展,但在複雜推理任務中表現仍然不佳。費曼的格言可能是這種現象的完美隱喻:只有掌握推理過程的每一步,才能真正解決問題。然而,當前的 MLLM 更擅長直接生成簡短的最終答案,缺乏中間推理能力。本篇文章旨在開發一種透過學習創造推理過程中每個中間步驟直至最終答案的 MLLM,以實現問題的深入理解與解決。
最近,NLP 領域的突破,如 OpenAI o1,展示了 LLM 的推理能力並應對複雜語言任務的巨大潛力。這些進展的核心設計靈感源於類似 AlphaGo 的 “樹搜尋” 方法:透過使用 MCTS 等樹搜尋方法,自引導地構建中間思維樹,探索有效的推理路徑,並利用這些路徑對模型進行訓練,從而實現逐步推理能力的提升。
圖 1. (a)CoMCTS 搜尋有效性和效率比較。(b)基於 CoMCTS 資料訓練的 Mulberry 模型展現了卓越的推理效能。
一個直觀的想法是直接將樹搜尋方法應用於 MLLM 的有效推理路徑搜尋,但這種方法效果並不好,如圖 1 所示。主要原因在於:
(1)搜尋有效性:傳統的 MCTS 方法依賴自我引導,而當前的 MLLMs 訓練時沒有明確且定義良好的中間推理步驟,導致搜尋陷入單一 MLLM 推理空間的低質量同質節點,降低搜尋成功率。
(2)搜尋效率:傳統 MCTS 方法每次搜尋迭代通常僅擴充套件和探索一個後續推理節點,每次前進一步,需要大量迭代,使用 MLLM 進行推理進一步增加了計算複雜度。
為解決上述挑戰,本文提出了集體蒙特卡羅樹搜尋(Collective Monte Carlo Tree Search, CoMCTS),這是一種新的學習推理方法,透過將集體學習引入 “樹搜尋”,實現有效且高效的推理路徑搜尋與學習。
論文:《Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search》 論文連結:https://arxiv.org/abs/2412.18319 程式碼連結:https://github.com/HJYao00/Mulberry
CoMCTS 搜尋的優勢在於:
(1)聯合擴充套件多個 MLLM 的推理路徑,支援跨模型協同推理,避免單一模型陷入同質化低質量節點。
(2)聯合模擬與錯誤定位機制跳過反覆中間步驟生成、集體知識幫助更準確地識別錯誤,提升搜尋效率與效果。
此外,CoMCTS 也透過結合正負推理節點構建反思推理資料,使得 MLLM 可在長鏈路推理中進行逐步反思。最終,透過 CoMCTS,本文構建了透過逐步推理資料集 Mulberry-260K,訓練了一系列 Mulberry 模型,在 8 個 benchmark 上取得了明顯的提升。
研究方法
圖 2. CoMCTS 總覽圖
CoMCTS 的推理路徑搜尋
CoMCTSw 將集體學習的概念引入到樹搜尋中,核心思想是透過多個模型的集體知識協作搜尋有效的推理節點,並透過多次迭代最終找到正確的推理路徑。
定義:將一個策略 MLLM 模型定義為 π,CoMCTS 利用一組多模態大語言模型 共同搜尋並學習有效的推理路徑。對於輸入 Q = {文字,影像},每次迭代中,每個模型 π 生成一系列中間推理狀態
,直到最終答案。第 m 步的中間推理狀態定義為
,模型
在第 m 步生成狀態為
,每步由一個或多個句子組成。
CoMCTS 演算法從根節點開始,透過一定次數的迭代進行推理路徑搜尋,每次迭代包括四個關鍵操作:(a)擴充套件 Expansion,(b)模擬與錯誤定位 Simulation and Error Position,(c)反向傳播 Backpropagation,以及(d)選擇 Selection,具體說明如下:
(a)擴充套件。擴充套件當前葉子推理節點,整合新的候選推理節點。給定當前葉子節點
(由操作(d)選擇或根節點),CoMCTS 利用一組 MLLM 的集體知識,協同擴充套件一組多樣且互補的候選推理路徑
,直到終止節點:



