把擴散模型的生成能力與 MCTS 的自適應搜尋能力相結合,會是什麼結果?
擴散模型(Diffusion Model)透過利用大規模離線資料對軌跡分佈進行建模,能夠生成複雜的軌跡。與傳統的自迴歸規劃方法不同,基於擴散的規劃器透過一系列去噪步驟可以整體生成完整軌跡,無需依賴前向動力學模型,有效解決了前向模型的關鍵侷限性,特別適用於具有長週期或稀疏獎勵的規劃任務。
儘管擴散模型具有這些優勢,但如何透過利用額外的測試時間計算(TTC)來有效提高規劃精度仍然是一個懸而未決的問題。一種潛在的方法是增加去噪步驟的數量,或者增加取樣次數。然而,已知增加去噪步驟帶來的效能提升會迅速趨於平緩,而透過多個樣本進行獨立隨機搜尋的效率非常低,因為它們無法利用其他樣本的資訊。
另一方面,蒙特卡洛樹搜尋(MCTS)則具有強大的 TTC 可擴充套件性。透過利用迭代模擬,MCTS 可以根據探索性反饋改進決策並進行調整,使其可以隨著計算量的增加而有效地提升規劃準確度。
這種能力使 MCTS 成為了許多 System 2 推理任務的基石,例如求解數學問題和生成程式。
然而,與基於擴散的規劃器不同,傳統的 MCTS 依賴於前向模型來執行樹 rollout。這也就繼承了其侷限性,包括失去全域性一致性。
除了侷限於離散動作空間之外,生成的搜尋樹在深度和寬度上都可能變得過大。這會導致計算需求變得非常大,特別是當任務場景涉及到長遠規劃和大動作空間時。
那麼,關鍵的問題來了:為了克服擴散模型和 MCTS 各自的缺陷,同時提升基於擴散的規劃的 TTC 可擴充套件性,可以將擴散模型與 MCTS 組合起來嗎?又該怎麼去組合它們?
近日,Yoshua Bengio 和 Sungjin Ahn 領導的一個團隊為上述問題提供了一個答案,提出了蒙特卡洛樹擴散(MCTD)。這是一種將擴散模型的生成力量與 MCTS 的自適應搜尋功能相結合的全新框架。該團隊表示:「我們的方法將去噪(denoising)重新概念化為一個樹結構過程,允許對部分去噪的規劃進行迭代評估、修剪和微調。」

論文標題:Monte Carlo Tree Diffusion for System 2 Planning 論文地址:https://arxiv.org/pdf/2502.07202v1
第一,MCTD 將去噪(denoising)過程重構成了一種基於樹的 rollout 過程,於是便能在維持軌跡連貫性的同時實現半自迴歸的因果規劃。 第二,其引入了引導層級作為元動作(meta-action),從而可實現「探索」與「利用」的動態平衡,進而確保在擴散框架內實現自適應和可擴充套件的軌跡最佳化。 第三,其採用的模擬機制是快速跳躍去噪(fast jumpy denoising)。從名字也能看出來,該機制的效率肯定很高 —— 不使用成本高昂的前向模型 rollout 即可有效估計軌跡質量。





