Bengio參與，擴散模型+蒙特卡洛樹搜尋實現System 2規劃

机器之心發表於2025-02-23

原文網址 : https://www.jiqizhixin.com/articles/2025-02-23-2

把擴散模型的生成能力與 MCTS 的自適應搜尋能力相結合，會是什麼結果？

擴散模型（Diffusion Model）透過利用大規模離線資料對軌跡分佈進行建模，能夠生成複雜的軌跡。與傳統的自迴歸規劃方法不同，基於擴散的規劃器透過一系列去噪步驟可以整體生成完整軌跡，無需依賴前向動力學模型，有效解決了前向模型的關鍵侷限性，特別適用於具有長週期或稀疏獎勵的規劃任務。

儘管擴散模型具有這些優勢，但如何透過利用額外的測試時間計算（TTC）來有效提高規劃精度仍然是一個懸而未決的問題。一種潛在的方法是增加去噪步驟的數量，或者增加取樣次數。然而，已知增加去噪步驟帶來的效能提升會迅速趨於平緩，而透過多個樣本進行獨立隨機搜尋的效率非常低，因為它們無法利用其他樣本的資訊。

另一方面，蒙特卡洛樹搜尋（MCTS）則具有強大的 TTC 可擴充套件性。透過利用迭代模擬，MCTS 可以根據探索性反饋改進決策並進行調整，使其可以隨著計算量的增加而有效地提升規劃準確度。

這種能力使 MCTS 成為了許多 System 2 推理任務的基石，例如求解數學問題和生成程式。

然而，與基於擴散的規劃器不同，傳統的 MCTS 依賴於前向模型來執行樹 rollout。這也就繼承了其侷限性，包括失去全域性一致性。

除了侷限於離散動作空間之外，生成的搜尋樹在深度和寬度上都可能變得過大。這會導致計算需求變得非常大，特別是當任務場景涉及到長遠規劃和大動作空間時。

那麼，關鍵的問題來了：為了克服擴散模型和 MCTS 各自的缺陷，同時提升基於擴散的規劃的 TTC 可擴充套件性，可以將擴散模型與 MCTS 組合起來嗎？又該怎麼去組合它們？

近日，Yoshua Bengio 和 Sungjin Ahn 領導的一個團隊為上述問題提供了一個答案，提出了蒙特卡洛樹擴散（MCTD）。這是一種將擴散模型的生成力量與 MCTS 的自適應搜尋功能相結合的全新框架。該團隊表示：「我們的方法將去噪（denoising）重新概念化為一個樹結構過程，允許對部分去噪的規劃進行迭代評估、修剪和微調。」

論文標題：Monte Carlo Tree Diffusion for System 2 Planning
論文地址：https://arxiv.org/pdf/2502.07202v1

蒙特卡洛樹擴散（MCTD）

簡單來說，MCTD = 擴散模型 + MCTS。該框架整合了基於擴散的軌跡生成以及 MCTS 的迭代搜尋能力，可實現更加高效和可擴充套件的規劃。

具體方法上，MCTD 有三項創新。

第一，MCTD 將去噪（denoising）過程重構成了一種基於樹的 rollout 過程，於是便能在維持軌跡連貫性的同時實現半自迴歸的因果規劃。
第二，其引入了引導層級作為元動作（meta-action），從而可實現「探索」與「利用」的動態平衡，進而確保在擴散框架內實現自適應和可擴充套件的軌跡最佳化。
第三，其採用的模擬機制是快速跳躍去噪（fast jumpy denoising）。從名字也能看出來，該機制的效率肯定很高 —— 不使用成本高昂的前向模型 rollout 即可有效估計軌跡質量。

基於這些創新，便可以在擴散過程中實現 MCTS 的四大步驟，即選擇、擴充套件、模擬和反向傳播，從而有效地將結構化搜尋與生成式建模組合到了一起。

^{蒙特卡羅樹擴散（MCTD）的兩種視角。}

上圖的（a）為 MCTS 視角：展示了 MCTD 一輪的四個步驟 —— 選擇、擴充套件、模擬和反向傳播 —— 在一個部分去噪樹上的過程。每個節點對應一個部分去噪的子軌跡，邊標記為二元引導級別（0 = 無引導，1 = 有引導）。在新節點擴充套件後，執行「跳躍」去噪以快速估計其值，然後沿著樹中的路徑反向傳播。

上圖的（b）為擴散視角：同一過程被視為在去噪深度（縱軸）和規劃範圍（橫軸）上的部分去噪。每個彩色塊表示在特定噪聲水平下的部分去噪規劃，顏色越深表示噪聲越高。不同的擴充套件（0 或 1）在規劃方向上建立分支，代表替代的軌跡最佳化。值得注意的是，整行同時去噪，但去噪水平不同。

MCTD 框架將這兩種視角統一了起來。整體的演算法過程如下所示：

MCTD 的效果得到了實驗的驗證

該團隊也透過實驗驗證了蒙特卡洛樹擴散的效果。他們採用的評估任務套件是 Offline Goal-conditioned RL Benchmark（OGBench），其中涉及包括迷宮導航在內的多種任務以及多種機器人形態和機器臂操作。

下表 1 展示了質點和機器蟻在中、大、巨型迷宮中的成功率，可以看到 MCTD 的表現遠超其它方法。

下圖展示了三個規劃器的規劃結果以及實際的 rollout。

^{三種規劃器 ——Diffuser、Diffusion Forcing 和 MCTD 生成的規劃與實際展開的對比。雖然 Diffuser 和 Diffusion Forcing 未能生成成功的軌跡規劃，但 MCTD 透過自適應最佳化其規劃取得了成功。}

^{在點陣迷宮中等任務中，使用二元引導集 {無引導，引導} 的 MCTD 樹搜尋過程視覺化展示。每個節點對應一個部分去噪的軌跡，其中左圖顯示帶噪聲的部分規劃，右圖顯示快速去噪後的規劃。搜尋透過選擇無引導或引導來擴充套件子節點，評估每個新生成的規劃，並最終收斂到高亮的葉節點作為解決方案。}

下面兩個表格則展示了不同方法在機器臂方塊操作任務以及視覺點迷宮任務上的結果。

總體而言，MCTD 在長期任務上的表現優於現有方法，可實現卓越的可擴充套件性，並得到高質量的解決方案。

該團隊表示：「未來還將探索自適應計算分配、基於學習的元動作選擇和獎勵塑造，以進一步提高效能，為更具可擴充套件性和靈活性的 System 2 規劃鋪平道路。」

詳解Diffusion擴散模型：理論、架構與實現
2024-09-24
模型架構
javascript實現二叉搜尋樹
2021-09-09
JavaScript
【AlphaGo】AlphaGo背後的力量：蒙特卡洛樹搜尋入門指南
2018-03-28
Go
<動態規劃>Leetcode96.不同的二叉搜尋樹
2024-10-03
動態規劃LeetCode
二叉搜尋樹的python實現
2019-02-16
Python
AlphaGo的制勝祕訣：蒙特卡洛樹搜尋初學者指南
2018-03-31
Go
834. 樹中距離之和-困難-樹、圖、動態規劃、深度優先搜尋
2020-11-05
動態規劃
無限生成影片，還能規劃決策，擴散強制整合下一token預測與全序列擴散
2024-07-23
Leetcode 700. 二叉搜尋樹中的搜尋（DAY 2）
2020-12-20
LeetCode
用PHP來實現二分搜尋樹(BST)
2019-02-25
PHP
二叉樹的插入和搜尋–python實現
2018-08-20
二叉樹Python
如何在 Java 中實現二叉搜尋樹
2022-03-24
Java
二叉搜尋樹(Binary Search Tree)（Java實現）
2021-07-07
Java
js實現完全排序二叉樹、二叉搜尋樹
2019-07-08
JS排序二叉樹
DiT：Transformers 與擴散模型強強聯手
2023-01-16
ORM模型
vue2實現搜尋結果中的搜尋關鍵字高亮
2018-08-15
Vue
JavaScript 二叉搜尋樹以及實現翻轉二叉樹
2018-06-10
JavaScript二叉樹
大模型+蒙特卡洛樹搜尋，一招讓LLaMa-3 8B奧數水平直逼GPT-4
2024-06-17
大模型GPT
資料結構-二叉搜尋樹的實現
2019-02-24
資料結構
Java實現二叉搜尋樹的插入、刪除
2022-01-15
Java
【LeetCode動態規劃#04】不同的二叉搜尋樹（找規律，有點像智力題）
2023-03-25
LeetCode動態規劃
DjangoRestFramework 實現分頁功能與搜尋功能
2019-08-15
DjangoRESTFramework
ICLR 2025 | Diffusion Planner: 基於擴散模型的自動駕駛規劃演算法，nuPlan SOTA!
2025-02-10
ICLR模型自動駕駛演算法
資料結構之二叉搜尋樹—Java實現
2019-03-07
資料結構Java
無人機叢集自組織搜尋模擬模型設計與實現
2022-08-22
無人機模型
ionic2/ionic3 實現搜尋結果中的搜尋關鍵字高亮
2018-08-15
智慧搜尋模型預估框架Augur的建設與實踐
2020-07-17
模型框架
如何在Java中實現二叉搜尋樹（ binary search tree）？
2019-02-22
Java
資料結構高階--二叉搜尋樹（原理+實現）
2022-12-01
資料結構
二叉搜尋樹
2024-11-21
Elasticsearch 實現簡單搜尋
2019-03-07
Elasticsearch
Laravel + Elasticsearch 實現中文搜尋
2020-02-05
LaravelElasticsearch
Jquery + Bootstrap 實現搜尋框
2020-12-26
jQueryboot
KVC搜尋規則
2018-09-25
從二分搜尋到二叉搜尋樹
2023-04-03
隱含波動率模型-增量搜尋演算法-python實現
2020-10-30
模型演算法Python
實現二叉搜尋樹的新增，查詢和刪除(JAVA)
2020-11-23
Java
百度搜尋大資料：海外疫情持續擴散 “回國”相關內容搜尋熱度飆升100%
2020-03-27
大資料

Bengio參與，擴散模型+蒙特卡洛樹搜尋實現System 2規劃

相關文章