NOISEDIFFUSION: 改進基於擴散模型的球面線性插值

zhaihaotian發表於2024-05-02

Motivation :
1.改進自然影像的插值質量:現有的影像插值方法,尤其是那些基於擴散模型的方法,通常在處理非模型生成的自然影像時遇到困難。這些方法往往不能有效地處理自然影像中的複雜和多樣的噪聲分佈,導致插值結果不自然或有明顯的影像偽影。
2.處理編碼噪聲的無效性:在影像插值過程中,影像首先被編碼到一個噪聲空間,然後透過去噪技術恢復。然而,如果編碼的噪聲不符合預期的噪聲分佈(例如正態分佈),這個基礎假設的破壞會導致插值過程中的問題,比如影像質量下降或者細節丟失。
3.提高訊雜比和減少資訊損失:傳統方法在引入噪聲以匹配預期分佈的過程中,可能會降低影像的訊雜比,從而損失重要的影像資訊。NoiseDiffusion方法透過在噪聲影像空間進行插值,並將原始影像資料注入到噪聲影像中,旨在解決這一資訊損失問題。

在DDIM中 其實還有兩個小點 :重建與插值 不過 DDIM中的插值是對由擴散模型生成之後的影像做的插值 然而,當將其擴充套件到自然影像時,插值結果的質量可能未達到預期,並且經常引入偽影 也就是論文中的Figure1的中間的生成效果

作者認為 產生不優的結果的原因是編碼噪聲不遵守預期的正態分佈並可能包含高於或低於去噪閾值的噪聲成分,導致最終插值影像中出現偽影。

根據圖3中展示的結果,我們觀察到,新增與去噪水平匹配的高斯噪聲可以產生高質量的影像。然而,當噪聲水平超過去噪閾值時,生成的影像中會引入額外的偽影。相反,當噪聲水平低於去噪閾值時,結果影像看起來有些模糊,伴隨著明顯的特徵丟失。

隨後作者提出了定理1 並基於定理一 將球面線性影像插值的失敗歸咎於噪聲水平和去噪閾值之間的不匹配。自然影像包含了模型之前未曾遇到的許多特徵。因此,潛在變數不遵循預期的正態分佈,並可能包含高於或低於去噪閾值的噪聲成分,導致去噪後影像質量低下。

一種直觀的方式是直接向影像中新增與預定去噪閾值匹配的高斯噪聲。這樣做可以確保影像的噪聲水平適合模型的處理能力,從而在去噪時保持影像質量。

4.3介紹了一種結合了SDEdit的影像插值方法。當給定兩幅影像時,該方法首先在同一水平上為它們每一幅新增高斯噪聲。接下來,我們使用球面線性插值,並隨後進行去噪處理。

但是由於這種影像插值方法基於SDEdit,它不可避免地繼承了SDEdit方法的缺點,如圖4所示。

圖4中呈現的插值結果表明,該方法可以處理影像質量差的問題。然而,當我們新增更多高斯噪聲並去噪時,插值的影像在保持原始風格的同時,表現出類似於直接影像疊加的現象。相反,選擇較少的高斯噪聲並去噪,雖然確保了影像的真實性,但引入了額外資訊,最終導致插值失敗。

所以 作者提出了noise diffusion :給定兩幅影像,我們首先透過將它們編碼到潛在空間並剪下以抑制極端值的噪聲來開始,然後我們將潛在變數與高斯噪聲結合,並且結合這些與原始影像,最後應用剪下和去噪來產生插值結果

剪下的方法則是使用了68-95-99.7規則
如果畫素值大於邊界值,則設為邊界值。
如果畫素值小於負邊界值,則設為負邊界值。
否則,保持畫素值不變。

隨後作者證明了球面線性插值和引入噪音的線性插值其實是noisediffusion的一種特殊情況

最後實驗部分介紹了幾種引數的影響 以及在什麼時候做邊界控制

總的來說 提出了一種新的方法 該方法克服了球面線性插值的侷限性。該方法建立了一個統一框架,結合了球面線性插值和直接引入噪聲用於插值的方法的優點。此外,透過對噪聲施加邊界控制並補充原始影像資訊,有效地應對了噪聲水平超出或低於去噪閾值所帶來的挑戰。透過對潛在變數的修正,實現了更優的插值效果。

相關文章