史丹佛吳佳俊擴散自蒸餾來了!突破文生圖身份保留挑戰

机器之心發表於2024-11-29

藝術家們該高興了。

近年來,文字到影像擴散模型為影像合成樹立了新標準,現在模型可根據文字提示生成高質量、多樣化的影像。然而,儘管這些模型從文字生成影像的效果令人印象深刻,但它們往往無法提供精確的控制、可編輯性和一致性 —— 而這些特性對於實際應用至關重要。

單靠文字輸入可能不足以傳達影像細節,中間出現的變化很多情況下與使用者的意圖不完全一致。

然而,保持主體身份的一致性面臨很大的挑戰。如下圖所示,在「結構 - 保留編輯」中,目標和源影像共享總體佈局,但可能在風格、紋理或其他區域性特徵上有所不同;在「身份 - 保留編輯」中,影像結構可能發生大規模變化,但資產在目標和源影像之間可識別為相同。

圖片

對於結構 - 保留編輯,新增層(如 ControlNet )可引入空間條件控制,但僅限於結構指導,無法解決跨不同上下文的一致身份適應問題。對於身份保留編輯,DreamBooth 和 LoRA 等微調方法可以使用一些參考樣本來提高一致性,但耗時且計算密集,需要對每個參考進行訓練。零樣本替代(如 IP-Adapter 和 InstantID )提供了更快的解決方案,無需重新訓練,但無法提供所需的一致性和定製水平;IP-Adapter 缺乏完全的定製功能,而 InstantID 僅限於面部身份。

在新鮮出爐的一項研究中,史丹佛大學的吳佳俊等研究者提出了一種名為擴散自蒸餾(Diffusion Self-Distillation,DSD)的新方法,該方法使用預訓練的文字到影像模型來生成它自己的資料集,並用於文字條件的影像到影像任務。

圖片

  • 論文標題:Diffusion Self-Distillation for Zero-Shot Customized Image Generation
  • 論文連結:https://arxiv.org/pdf/2411.18616
  • 專案主頁:https://primecai.github.io/dsd/

首先利用文字到影像擴散模型的上下文生成能力來建立影像網格,並在視覺語言模型的幫助下策劃一個大型配對資料集。然後,使用精選的配對資料集將文字到影像模型微調為文字 + 影像到影像模型。該研究證明了擴散自蒸餾法優於現有的零樣本方法,並且在廣泛的身份保留生成任務上與每個例項的微調技術具有競爭力,而無需測試時間最佳化。

論文作者之一、史丹佛大學電腦科學博士生蔡盛曲表示:DSD 重新定義了使用 FLUX 進行零樣本自定義影像生成,DSD 類似於 DreamBooth,是零樣本、無需訓練的。它適用於任何輸入主題和所需的上下文角色一致性,專案、資產適應,場景重照明等等。它甚至可以建立漫畫,而無需任何微調或訓練個性化模型!

圖片

以下是一些示例展示:

角色保留:

圖片

實物保留:

圖片

建立漫畫:

圖片

擴散自蒸餾

最近的文字到影像生成模型具有令人驚訝的能力,可以生成上下文一致的影像網格(見圖 2 左)。受此啟發,研究者開發了一種零樣本適應網路,它能快速、多樣、高質量地生成影像,並能保留身份,即以參考影像為條件生成一致的影像。

圖片

為此,研究者首先使用預訓練的文字到影像擴散模型、大語言模型 (LLM) 和視覺語言模型 (VLM) 生成並整理出具有所需一致性的影像集(3.1 節)。

然後,研究者利用這些一致的影像集對相同的預訓練擴散模型進行微調,並採用新提出的並行處理架構(3.2 節)來建立條件模型。

透過這種方法,擴散自蒸餾以監督的方式將預訓練好的文字到影像擴散模型微調為零樣本定製影像生成器。

生成成對資料集

為了建立用於監督擴散自蒸餾訓練的成對資料集,研究者利用預訓練文字到影像擴散模型的新興多影像生成功能,生成由 LLM 生成的提示(第 3.1.2 節)所建立的潛在一致的普通影像(第 3.1.1 節)。然後,研究者使用 VLM 對這些普通影像樣本進行整理,獲得具有所需身份一致性的乾淨影像集(第 3.1.3 節)。資料生成和整理流程如圖 2 左所示。

並行處理架構

研究者希望有一個適用於通用影像到影像任務的條件架構,包括保留結構的轉換以及保留概念 / 特徵但不保留影像結構的轉換。這是一個具有挑戰性的問題,因為它可能需要在不保證空間一致性的情況下傳輸精細細節。

雖然 ControlNet 架構在結構保留編輯(如深度 - 影像或分割圖 - 影像)方面表現出色,但在更復雜的身份保留編輯(源影像和目標影像不是畫素對齊的)中,它卻難以保留細節。

另一方面,IP-Adapter 可以從輸入影像中提取某些概念,比如風格。但它仍然嚴重依賴於特定任務的影像編碼器,往往無法保留更復雜的概念和特徵。

研究者從多視角和影片擴散模型的成功經驗中汲取靈感,提出了一種簡單而有效的方法,將普通擴散 transformer 模型擴充套件為影像條件擴散模型。

具體來說,他們將輸入影像視為影片的第一幀,並生成雙幀影片作為輸出。最終損失是透過雙幀影片計算得出的,為第一幀建立了一個身份對映,為第二幀建立了一個條件編輯目標。

如圖 2 右所示,本文的架構設計可實現兩幀之間的有效資訊交換,使模型能夠捕捉複雜的語義並執行復雜的編輯,因此可用於通用的影像到影像轉換任務。

實驗

在實驗中,研究者使用了 FLUX1.0 DEV 作為教師模型和學生模型,實現了自蒸餾。生成提示使用的是 GPT-4o,資料集整理和字幕製作使用 Gemini-1.5。他們在 8 個英偉達 H100 80GB GPU 上訓練所有模型,有效批大小為 160,迭代次數為 100k,使用 AdamW 最佳化器,學習率為 10^-4。這裡的並行處理架構在基礎模型上使用了秩為 512 的 LoRA。

定性評估

下圖 4 展示了定性對比結果,表明本文的模型在主體適應性和概念一致性方面明顯優於所有基線模型,同時在輸出結果中表現出出色的提示對齊性和多樣性。文字反轉法作為一種早期的概念提取方法,只能從輸入影像中捕捉到模糊的語義,因此不適合需要精確主體適應的零樣本定製任務。

圖片

值得注意的是,IP-Adapter+ 使用了更強的輸入影像編碼器,加劇了這一問題,導致輸出的多樣性和適應性降低。相比之下,本文的方法既能有效地保留主體的核心身份,又能進行多樣化的、與上下文相適應的轉換。如圖 5 所示, 「擴散自蒸餾」技術具有顯著的多功能性,能熟練處理不同目標(人物、物體等)和風格(逼真、動畫等)的各種定製目標。此外,還能很好地概括各種提示,包括類似於 InstructPix2Pix 的指令,凸顯了其在各種定製任務中的魯棒性和適應性。

圖片

定量評估

表 1 展示了與基線的定量對比。本文的方法在概念保留和提示跟隨方面都取得了最佳的整體效能,而在前者方面僅遜於 IP-Adapter+ (主要是因為「複製貼上」效應),在後者方面則遜於按例項調整的 DreamBooth-LoRA。我們注意到,DreamBench++ 的概念保留評估仍然偏向於「複製貼上」效應,尤其是在更具挑戰性和多樣性的提示上。例如,IP-Adapter 系列之所以在概念保留方面表現出色,主要是因為它們具有很強的「複製貼上」效果,即在複製輸入影像時不考慮提示中的相關基本變化。

這在一定程度上也可以從它們表現不佳的提示跟隨得分中看出來,它們偏向於參考輸入,而不考慮輸入提示。因此,研究者也提出了「去偏見」版 GPT 分數,它就像告訴 GPT 如果生成的影像類似於參考影像的直接複製就進行懲罰一樣簡單。可以注意到,IP-Adaper+ 的優勢已不復存在。總體來說,擴散自蒸餾是其中表現最好的模型。

圖片

消融實驗

左圖是基礎模型的上下文采樣能力與 LoRA 過擬合模型進行了比較。研究者觀察到,雖然將 LoRA 應用於基礎模型可以增加輸出為一致網格的可能性,但它可能會對輸出多樣性產生不利影響。右圖將本文提出的架構設計與原始條件模型(透過新增一些輸入通道)、ControlNet 和 IP-Adapter 進行了比較,表明本文架構可以更好地學習輸入概念和身份。實驗還證明了本文架構可以有效地擴充套件到類似於 ControlNet 的深度條件影像生成。

圖片

更多研究細節,可參考原論文。

相關文章