[論文閱讀] High-Resolution Image Synthesis with Latent Diffusion Models

Chunleiii發表於2024-11-02

寫在前面

原文:https://arxiv.org/abs/2112.10752
Github:https://github.com/CompVis/latent-diffusion?tab=readme-ov-file
參考:https://stable-diffusion-art.com/how-stable-diffusion-work/
關鍵詞:stable diffusion,LDMs
閱讀理由:對DM高消耗的最佳化,解決速度問題。看一下最佳化思路,最佳化原理,實驗是怎麼做的,對以後的研究有什麼啟發or幫助
前置知識:DDPM自編碼器潛在空間交叉注意力條件控制擴散模型



速覽

速覽

1.與擴散模型(DM)直接操作畫素空間不同,LDMs是將圖片壓縮到一個“潛空間”(Latnet Space)並進行取樣去噪的,這種方法可以節省大量計算,使執行速度更快

2.設計了一種基於注意力機制的通用條件化方法,使多模態訓練成為可能



思路和方法

思路:引入一個明確的壓縮學習階段與生成學習階段

方法:
過程


如圖所示,LDMs主要分為三步:

一.感知影像壓縮 Perceptual Image Compression

感知壓縮模型是基於先前的工作,由一個自編碼器(Auto-Encoder)組成。它是Pixel Space與Latent Space之間的轉換工具。
轉換到Latent Space空間有兩個優點:

  1. 透過離開高維影像空間,我們獲得了計算上更高效的DM,因為取樣是在低維空間中進行的。
  2. latent空間的特徵語義資訊更強,便於和其它模態(例如,文字或者初始影像)的特徵融合。

同時需要注意:類似於VAE,為了避免AE壓縮出的Latent Space過於發散,提出了正則化方法,通常會把Latent Space的特徵分佈用KL散度對齊到標準正態空間。

為什麼這是合理的?
為什麼VAE可以壓縮一張圖片到非常小的一個潛空間而不損失資訊呢?這是因為:自然圖片並非是隨機的,它們有很高的規律性。例如,一張臉上,鼻子、臉頰和嘴巴之間有特定的空間關係。一隻狗有4只腿並且有特定的形狀。

換句話說,高維的圖片是人為的。自然影像可以輕鬆地壓縮到較小的潛空間中,而不會丟失任何資訊。這在機器學習中被稱為流形假設。

二.隱式擴散模型 Latent Diffusion Models

與DDPM的過程類似,前向與反向擴散都是在潛空間裡完成的,只不過Zt是Latent Feature,Z0是AE的Encoder推理出的原始特徵,ZT是純噪聲特徵。所以在訓練時,不再是生成一張噪點圖,而是在潛空間裡生成一個隨機張量(Tensor),並且在給圖片每一步增加噪點時,也不再是給影像增加噪點,而是給圖片在潛空間裡的張量增加潛噪點。
這裡,LDM的噪聲估計器是一個UNet,用來預測每一步去噪所需噪聲。由於正向過程是固定的,因此在訓練過程中可以從 E 中高效地獲得 zt,並且可以從 p(z) 的樣本中透過 D 進行單次解碼以生成影像空間。

三.條件機制 Conditioning Mechanisms

與其它型別的生成模型一樣,擴散模型DM也可以對條件分佈p(z|y)進行建模擬合,可以透過條件去噪自編碼器ϵθ(zt,t,y)來實現,並透過條件輸入如文字、語義圖、影像-影像轉換任務等控制影像的生成。

本文方法是使用交叉注意力機制增強底層UNet結構。為了處理不同模態的輸入,引入了一個模態相關的編碼器τθ,輸入條件,獲得輸入條件的特徵,透過交叉注意力機制加權到diffusion的噪聲估計器UNet中間特徵上

實驗

有待後續補充。。。

相關文章