當前,採用下一 token 預測正規化的自迴歸大型語言模型已經風靡全球,同時網際網路上的大量合成影像和影片也早已讓我們見識到了擴散模型的強大之處。
近日,MIT CSAIL 的一個研究團隊(一作為 MIT 在讀博士陳博遠)成功地將全序列擴散模型與下一 token 模型的強大能力統合到了一起,提出了一種訓練和取樣正規化:Diffusion Forcing(DF)。
論文標題:Diffusion Forcing:Next-token Prediction Meets Full-Sequence Diffusion
論文地址:https://arxiv.org/pdf/2407.01392
專案網站:https://boyuan.space/diffusion-forcing
程式碼地址:https://github.com/buoyancy99/diffusion-forcing
如下所示,擴散強制在一致性和穩定性方面都明顯勝過全序列擴散和教師強制這兩種方法。
讓自迴歸生成變得穩定 保持未來的不確定 長期引導能力
具有靈活的規劃範圍 可實現靈活的獎勵引導 能實現蒙特卡洛樹引導(MCTG),從而實現未來不確定性