NeurIPS 2024｜浙大 & 微信 & 清華：徹底解決擴散模型反演問題

机器之心發表於2024-11-02

原文網址 : https://www.jiqizhixin.com/articles/2024-11-02-2

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本篇論文已經被NeurIPS 2024接收。第一作者王方懿康是微信視覺團隊實習生，同時也是浙江大學一年級碩士研究生。共同一作是微信高階研究員Hubery。通訊作者是浙江大學助理教授張超。其他作者包括來自清華大學的董玥江，來自浙江大學的朱胡旻昊，趙涵斌助理教授和錢徽教授，以及微信基礎視覺和視覺生成技術負責人李琛。

隨著擴散生成模型的發展，人工智慧步入了屬於 AIGC 的新紀元。擴散生成模型可以對初始高斯噪聲進行逐步去噪而得到高質量的取樣。當前，許多應用都涉及擴散模型的反演，即找到一個生成樣本對應的初始噪聲。當前的取樣器不能兼顧反演的準確性和取樣的質量。

為徹底解決這一問題，微信視覺團隊與浙江大學和清華大學聯手提出了基於雙向顯式線性多步法的擴散模型精確反演取樣器（BELM）這一通用演算法，並透過截斷誤差分析確定了最優的 BELM 取樣器係數。此方法在確保精確反演的同時還提升了生成樣本的質量，在影像與影片的編輯、插值等下游任務中有廣泛的應用前景。這一研究成果已被 NeurIPS 2024 會議接收。

當前，擴散模型在影像生成、文字生成、音訊生成等多個領域得到了廣泛應用，表現出了卓越的效能。擴散模型的反演操作，即找到一個生成樣本對應的初始噪聲，對若干下游任務起到關鍵的作用。傳統的 DDIM 反演會造成嚴重的不一致問題，即原始圖片加噪再去噪的結果與原圖相差甚遠。

近期，研究者們提出了多種啟發式的精確反演取樣器來解決 DDIM 反演的不一致問題。然而，這些啟發式的精確反演取樣器的理論特性尚不明確，且取樣質量常常不盡如人意，這在一定程度上限制了它們的應用。

為此，本研究引入了一種通用的精確反演取樣器正規化 —— 雙向顯式線性多步（BELM）取樣器，該正規化包含了上文提到的啟發式精確反演取樣器。該團隊在 BELM 正規化內系統地研究了區域性截斷誤差（LTE），發現現有的精確反演取樣器的 LTE 並非最優。

因此，研究團隊透過 LTE 最小化方法提出了最優的 BELM（Optimal-BELM，O-BELM）取樣器。實驗表明，O-BELM 取樣器在實現精確反演的同時，也提升了取樣的質量。

論文題目：BELM: Bidirectional Explicit Linear Multi-step Sampler for Exact Inversion in Diffusion Models
論文連結：https://arxiv.org/abs/2410.07273
專案地址：https://github.com/zituitui/BELM

背景：DDIM 反演造成的不一致問題

由於 DDIM 的正向過程和反演過程使用的迭代式並不相同，所以 DDIM 的反演重構樣本與初始的樣本存在較大差別。

實際使用中，DDIM 的反演有顯著的不一致問題：