無需訓練,這個新方法實現了生成影像尺寸、解析度自由

机器之心發表於2024-04-08

近日,來自香港中文大學 - 商湯科技聯合實驗室等機構的研究者們提出了FouriScale,該方法在利用預訓練擴散模型生成高解析度影像方面取得了顯著提升。

近期,擴散模型憑藉其出色的效能已超越 GAN 和自迴歸模型,成為生成式模型的主流選擇。基於擴散模型的文字到影像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展現了生成高質量影像的驚人能力。通常,這些模型在特定解析度下進行訓練,以確保在現有硬體上實現高效處理和穩定的模型訓練。

無需訓練,這個新方法實現了生成影像尺寸、解析度自由

圖 1 : 採用不同方法在 SDXL 1.0 下生成 2048×2048 影像的對比。[1]

然而,當這些預訓練的擴散模型在超出訓練解析度時生成影像,通常會出現模式重複和嚴重的人工偽影(artifacts)問題,如圖 1 最左側所示。

為了解決這一問題,來自香港中文大學 - 商湯科技聯合實驗室等機構的研究者們在一篇論文中深入研究了擴散模型中常用的 UNet 結構的卷積層,並從頻域分析的角度提出了 FouriScale, 如圖 2 所示。

圖片

圖 2 FouriScale 的流程(橙色線)示意圖,目的是保證跨解析度的一致性。

FouriScale 透過引入空洞卷積操作和低通濾波操作來替換預訓練擴散模型中的原始卷積層,旨在實現不同解析度下的結構和尺度一致性。配合「填充然後裁剪」策略,該方法能夠靈活生成不同尺寸和長寬比的影像。此外,藉助 FouriScale 作為指導,該方法在生成任意尺寸的高解析度影像時,能夠保證完整的影像結構和卓越的影像質量。FouriScale 無需任何離線預計算,具有良好的相容性和可擴充套件性。

定量和定性實驗結果表明,FouriScale 在利用預訓練擴散模型生成高解析度影像方面取得了顯著提升。

圖片

  • 論文地址:https://arxiv.org/abs/2403.12963

  • 開原始碼:https://github.com/LeonHLJ/FouriScale

  • 論文標題:FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

方法介紹

1、空洞卷積保證跨解析度下的結構一致性

擴散模型的去噪網路通常是在特定解析度的影像或潛在空間上訓練的,這個網路通常採用 U-Net 結構。作者的目標是在推理階段使用去噪網路的引數生成解析度更高的影像,而無需重新訓練。為了避免推理解析度下的結構失真,作者嘗試在預設解析度和高解析度之間建立結構一致性。對於 U-Net 中的卷積層,結構一致性可表述為:

圖片

其中 k 是原本的卷積核,k' 是為更大解析度定製的新卷積核。根據空間下采樣的頻域表示,如下:

圖片

可以將公式(3)寫為:

圖片

這個公式表明了理想卷積核 k' 的傅立葉頻譜應該是由 s×s 個卷積核 k 的傅立葉頻譜拼接而成的。換句話說,k' 的傅立葉頻譜應該有周期性重複,這個重複模式是 k 的傅立葉頻譜。

廣泛使用的空洞卷積正好滿足這個要求。空洞卷積的頻域週期性可以透過下式表示:

圖片

當利用預訓練擴散模型(訓練解析度為(h,w))生成 (H,W) 的高解析度影像時,空洞卷積引數使用原始卷積核,擴張因子為 (H/h, W/w),是理想的卷積核 k'。

2、低通濾波保證跨解析度下的尺度一致性

然而,只利用空洞卷積無法完美地解決問題,如圖 3 左上角所示,只使用空洞卷積仍然在細節上存在模式重複的現象。作者認為這是因為空間下采樣的頻率混疊現象改變了頻域分量,導致了不同解析度下頻域分佈的差異。為了保證跨解析度下的尺度一致性,他們引入了低通濾波來過濾掉高頻分量,以去除空間下采樣後的頻率混疊問題。從圖 3 右側對比曲線可以看到,在使用低通濾波後,高低解析度下的頻率分佈更加接近,從而保證了尺度一致。從圖 3 左下角圖看到,在使用低通濾波後,細節的模式重複現象有明顯地改善。

圖片

圖 3 (a) 是否採用低通濾波的視覺對比。(b)不採用低通濾波的傅立葉相對對數幅值曲線。(c) 採用低通濾波的傅立葉相對對數幅值曲線。

3、適應於任意尺寸的影像生成

以上的方式只能適應於生成解析度與預設推理解析度的長寬比一致時,為了使 FouriScale 適應於任意尺寸的影像生成,作者採用了一種「填充然後裁剪」的方式,方法 1 中展示了結合了該策略的 FouriScale 的虛擬碼.

圖片

4、FouriScale 引導

由於 FouriScale 中的頻域操作,不可避免的使生成的影像出現了細節缺失與不期望的偽影問題。為了解決這一問題,如圖 4,作者提出了將 FouriScale 作為引導的方式。具體來說,在原本的條件生成估計以及無條件生成估計的基礎上,他們引入一個額外的條件生成估計。這個額外的條件生成估計的生成過程同樣採用空洞卷積,但是使用更加溫和的低通濾波,從而保證細節不丟失。同時他們將利用 FouriScale 輸出的條件生成估計中的注意力分數替換掉這一額外的條件生成估計中的注意力分數,由於注意力分數包含著生成影像中的結構資訊,這一操作將 FouriScale 中正確的影像結構資訊引入,同時保證了影像質量。

圖片

圖 4 (a) FouriScale 引導示意圖。(b)不採用 FouriScale 作為引導的生成影像,有明顯的偽影和細節錯誤。(c) 採用 FouriScale 作為引導的生成影像。

實驗

1. 定量試驗結果

作者遵循 [1] 的方法,測試了三個文生圖模型(包括 SD 1.5,SD 2.1 和 SDXL 1.0),生成四種更高解析度的影像。測試的解析度是它們各自訓練解析度的 4 倍、6.25 倍、8 倍和 16 倍畫素數量。在 Laion-5B 上隨機取樣 30000/10000 個圖文對測試的結果如表 1 所示:

圖片

表 1 不同的無需訓練方法的定量結果對比

他們的方法在各個預訓練模型,不同解析度下都獲得了最優的結果。

2. 定性試驗結果

如圖 5 所示,他們的方法在各個預訓練模型,不同解析度下都能夠保證影像生成質量與一致的結構。

圖片

圖 5 不同的無需訓練方法的生成影像對比

結論

本文提出了 FouriScale 用於增強預訓練擴散模型生成高解析度影像的能力。FouriScale 從頻域分析出來,透過空洞卷積和低通濾波操作改善了不同解析度下的結構和尺度一致性,解決了重複模式和結構失真等關鍵挑戰。採用「填充然後裁剪」策略並利用 FouriScale 作為指導,增強了文字到影像生成的靈活性和生成質量,同時適應了不同的長寬比生成。定量和定性的實驗對比表明,FouriScale 能夠在不同預訓練模型,不同解析度下都能夠保證更高的影像生成質量。

[1] He Y, Yang S, Chen H, et al. Scalecrafter: Tuning-free higher-resolution visual generation with diffusion models[C]//The Twelfth International Conference on Learning Representations. 2023.

相關文章