[基礎] Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion Models

fariver發表於2024-03-14

名稱

Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion Models

TL;DR

這篇文章介紹了一種名為潛在擴散模型(Latent Diffusion Models, LDMs)的新型高解析度影像合成方法。LDMs透過在預訓練的自編碼器的潛在空間中應用擴散模型,實現了在有限計算資源下訓練高質量影像合成模型的目標。文章提出的方法在多個影像合成任務上達到了新的最佳效能,包括影像修復、類條件影像合成和文字到影像合成,同時顯著降低了與基於畫素的擴散模型相比的計算量。

Method

從圖中可看出,LDM主要分三部分:

AE(auto-encoder)

AE是影像空間與latent空間之間的轉換工具。轉換到latent空間有兩個好處:
a) 後續做diffusion的計算量更小,特別是對於diffusion這種需要多步迭代的操作。
b) latent空間的特徵語義資訊更強,便於和其它模態(例如,文字或者初始影像)的特徵融合。
另外,類似於VAE,為了避免AE壓縮出的latent space過於發散(high variance),通常會把latent space的特徵分佈用KL散度對齊到標準正態空間。

LDM(latent diffusion model)

類似於DDPM,只不過Zt是latent feature,Z0是AE的Encoder推理出的原始特徵,ZT是純噪聲特徵。LDM的噪聲估計器是一個UNet,用來預測每一步去噪所需噪聲。

Conditioning Mechanisms

條件特徵可以是文字、影像或者其它模態資訊,不過應該需要對應到同一個latent空間(比如,使用CLIP)。以文字為例,文字先驗會經過Text Encoder得到特徵,透過cross attention加權到diffusion每次去噪的噪聲估計器UNet中間stage特徵上。

Inference

所以推理過程應該類似於架構圖上藍框所示,輸入文字或者其它模態先驗以及latent space的高斯噪聲,經過LDM擴散出相應語義的latent特徵,經過Decoder一次性生成相應影像。

Experiment

介紹兩個衡量影像生成效果的指標

FID

真實樣本與生成樣本取樣相同資料,用高斯分佈來擬合,判斷這兩個分佈之間距離。

CLIP Score

將condition text與生成的影像送入訓練好的CLIP模型中,計算整個測試集得分。

實驗結果表明,LDMs在多個資料集上實現了新的最高得分,包括影像修復和類條件影像合成任務。LDMs在降低計算成本的同時,還能在多個任務上提供與最先進的基於畫素的擴散模型相媲美或更好的效能。此外,LDMs還展示了在潛在空間中進行高解析度影像合成的能力,這在以前的模型中是不可行的。

總結

LDMs的提出為高解析度影像合成領域帶來了新的視角,特別是在提高生成模型的效率和靈活性方面。透過在潛在空間中應用擴散模型,LDMs能夠在保持影像質量的同時顯著減少計算資源的需求。這種方法的成功表明,透過結合自編碼器和擴散模型的優勢,我們可以在不犧牲效能的情況下,更高效地處理複雜的影像資料。LDMs的這些特性可能會激發未來在影像合成、資料增強、潛在空間探索等領域的進一步研究和應用。

相關連結

Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion Models

資料查詢

摺疊Title FromChatGPT(提示詞:XXX)

相關文章