作者 | Pengfei Zheng
單位 | USTC, HKBU TMLR Group
最近生成式AI的迅猛發展為文字到影像生成、影片生成等令人矚目的領域注入了強大的動力,這些技術的核心在於擴散模型的應用。擴散模型首先透過定義一個不斷加噪聲的前向過程來將圖片逐步變為高斯噪聲,再透過逆向過程將高斯噪聲逐步去噪變為清晰圖片以得到取樣。其中擴散常微分模型可以被用於生成的圖片的插值,這在生成影片以及一些廣告創意上有著極大的應用潛力。然而,我們注意到,當這種方法應用於自然圖片時,插值出的圖片效果往往不盡如人意。
通常情況下,擴散模型會對高斯噪聲進行取樣,然後逐步去噪以生成高質量的圖片。插值圖片的低質量意味著其潛在變數不再遵循我們所期望的高斯分佈。為了提高插值圖片的質量,我們需要確保潛在變數更接近於從高斯分佈中取樣得到。然而,直接對潛在變數進行縮放和偏移會嚴重破壞生成的圖片,並且為了保留原始圖片的資訊,我們不能過多地修改潛在變數。因此,在儘可能不破壞潛在變數的情況下提高插值圖片的質量成為一個難題。
我們首先改變潛在變數的噪聲水平來分析了什麼樣的潛在變數能夠被擴散模型還原成高質量的圖片,並結合SDEdit方法引入高斯噪聲來提高插值圖片的質量,然而高斯噪聲的引入會帶來額外的資訊。此外我們還分析了高維空間中潛在變數的正交性,這為我們方法奠定了基礎。我們結合球面線性插值法和直接引入噪聲的方法,提出了一個全新的插值方法:對潛在變數的極值進行約束,並結合微小的高斯噪聲使其更接近預期的分佈,且引入了原始圖片來緩解資訊丟失的問題。利用這種插值方法,我們能夠在保留原圖資訊的同時,顯著提高自然圖片的插值結果。
接下來,我將簡要向大家分享我們的研究結果。
論文標題:NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models beyond Spherical Linear Interpolation
論文連結:https://arxiv.org/pdf/2403.08840.pdf
程式碼連結:https://github.com/tmlr-group/NoiseDiffusion
Introduction
圖1:球面線性插值法在人臉圖片上的運用
擴散模型最常用的圖片插值方法是球面線性插值法[1,2]:
我們將這種方法運用在自然圖片上。從圖2可以觀察到,當在自然圖片上應用球面線性插值法時,插值效果顯著下降。
圖2:自然圖片和生成的圖片插值效果比較
Analysis
圖3:不同噪聲水平的高斯噪聲去噪的效果
我們首先研究噪聲水平對生成圖片的影響。觀察到只有當高斯噪聲的水平與去噪的水平匹配時(中間的圖片),才能得到質量較高的圖片。如果噪聲水平低於去噪水平(右圖),或者高於去噪水平(左圖),都會降低生成圖片的質量。我們使用定理一來解釋這種現象:
定理一闡述了在高維空間中,標準高斯噪聲的分佈特性:它們主要集中在一個超球面上。在這個超球面的內側,儘管點的機率密度相對較高,但由於其佔據的體積較小,其整體貢獻並不顯著;而在超球面的外側,雖然點的體積較大,但由於機率密度隨著距離的增大而迅速衰減,因此外側點的貢獻同樣可以忽略不計。因此,在訓練擴散模型時,我們主要觀察到的潛在變數集中在超球面上,而超球面內側和外側的潛在變數由於這些原因難以有效進行去噪。
圖4:自然圖片插值失敗的原因
自然圖片通常具有擴散模型在訓練過程中未曾見過的複雜特徵,這使得擴散模型在嘗試將自然圖片轉換為標準高斯噪聲時遇到困難。具體而言,這些圖片的潛在變數可能包含高於或低於模型去噪能力範圍的高斯噪聲。然而,擴散模型的能力主要侷限於還原定理一中所描述的超球面上的高斯噪聲。對於超出這一範圍的噪聲,模型往往無法有效處理。因此,在進行圖片插值時,通常會產生質量較低的插值圖片。
Introducing noise
圖5:直接引入噪聲插值
為了改善圖片的質量,使潛在變數更接近超球面,我們採用了結合 SDEdit[3] 的方法。具體而言,我們直接向圖片新增標準高斯噪聲,然後進行插值,最後進行去噪處理。透過圖5可以清晰地看出,這種方法顯著提升了插值圖片的質量。然而,需要注意的是,如圖中所示,這種處理方法同時也會引入一些額外的資訊。
Method
圖6:NoiseDiffusion的整體設計
為了提高圖片質量並儘可能減少資訊丟失,我們創新地結合了球面線性插值法與直接引入噪聲的插值方法,提出了全新的NoiseDiffusion方法。如圖6所示,NoiseDiffusion的整體設計既考慮了插值過程中的資訊保留,又透過引入噪聲提升了圖片質量,實現了兩者之間的有效平衡。接下來,我們將詳細闡述NoiseDiffusion的設計思路。
Design 1:
圖7:對潛在變數的極值進行約束
根據統計學的,超出一定範圍的噪聲分量可以被視為異常值。且結合圖3,我們發現高於去噪水平的高斯噪聲會產生明顯的噪點,而這與自然圖片的插值結果上的異常色塊非常相近,因此我們有理由認為是潛在變數的極值導致了這些異常色塊的產生。基於這些分析,我們對潛在變數的極值施加了約束,以控制這些異常噪聲的影響。從圖7可以看出,透過對潛在變數極值的約束,我們大幅提升了圖片的質量。
Design 2:
圖8:引入原圖資訊
在對潛在變數施加約束時,我們可能會不小心影響到一些正常的分量,從而導致資訊的損失。為了彌補這一潛在的資訊損失,我們引入了原圖資訊作為補充。如圖8所示,引入原圖資訊後,插值圖片的質量得到了明顯的提升。這表明原圖資訊在彌補資訊損失方面發揮了重要作用。透過結合潛在變數的約束和原圖資訊的補充,我們能夠在保證圖片質量的同時,減少資訊損失,實現更為準確和自然的插值效果。
Design 3:
球面線性插值法是一種依賴於計算兩個潛在變數之間角度的插值方法。然而,在實際應用中,我們觀察到這些潛在變數之間往往呈現出近乎正交的狀態。為了解釋這一現象,我們引入了定理二作為理論支撐。
圖9:引入不同大小的高斯噪聲
圖10:結合Design 1減少引入的高斯噪聲的量
從圖9可以看出,隨著我們逐步增加引入的高斯噪聲量,插值圖片的質量得到了顯著提升。然而,這一改進並非沒有代價,因為隨著噪聲量的增加,引入的額外資訊也在逐漸增多。在實際插值過程中,為了在滿足質量要求的同時儘量減少額外資訊的引入,我們結合了前面提到的策略來有效地降低所需引入的高斯噪聲的量(圖10),從而更好地保留原始影像的資訊。
Experiment
圖11:和球面線性插值法的比較
我們將所提出的方法與球面線性插值法的結果進行了比較(如圖11所示)。從插值結果來看,我們的方法在顯著提高插值圖片質量的同時,幾乎不丟失資訊。這充分展示了我們方法在保持資訊完整性和提升影像質量方面的優越效能。
我們還在Stable Diffusion[4]上做了實驗,由於Stable Diffusion的高度非結構化的潛在空間,在處插值很難得到平滑的插值(圖12)。因此我們考慮在更小的時間步上進行插值(),這可以更多的保留原圖的特徵以讓插值結果更加平滑,但是卻導致了圖片質量的降低(圖13)。為了解決這個問題,我們運用了我們的方法NoiseDiffusion來修正潛在變數(圖14)。從實驗結果可以看出,我們的方法在較少改變資訊的情況下,顯著提高了圖片的質量。
圖12:在時使用球面線性插值法
圖13:在時使用球面線性插值法
圖14:在時使用NoiseDiffusion插值
Reference
[1] Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In ICLR,2021.
[2] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR,2021.
[3] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon.
Sdedit: Guided image synthesis and editing with stochastic differential equations. In ICLR, 2022.
[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. Highresolution image synthesis with latent diffusion models. In CVPR, 2022.
[5] Weihao Xia, Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou, and Ming-Hsuan Yang. Gan
inversion: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022.
課題組介紹
香港浸會大學可信機器學習和推理課題組 (TMLR Group) 由多名青年教授、博士後研究員、博士生、訪問博士生和研究助理共同組成,課題組隸屬於理學院計算機系。課題組專攻可信表徵學習、基於因果推理的可信學習、可信基礎模型等相關的演算法,理論和系統設計以及在自然科學上的應用,具體研究方向和相關成果詳見本組Github (https://github.com/tmlr-group)。課題組由政府科研基金以及工業界科研基金資助,如香港研究資助局傑出青年學者計劃,國家自然科學基金面上專案和青年專案,以及微軟、英偉達、百度、阿里、騰訊等企業的科研基金。青年教授和資深研究員手把手帶,GPU計算資源充足,長期招收多名博士後研究員、博士生、研究助理和研究實習生。此外,本組也歡迎自費的訪問博士後研究員、博士生和研究助理申請,訪問至少3-6個月,支援遠端訪問。有興趣的同學請傳送個人簡歷和初步研究計劃到郵箱 (bhanml@comp.hkbu.edu.hk)。