線上試玩 | 對齊、生成效果大增,文字驅動的風格轉換迎來進階版

机器之心發表於2024-12-19
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


論文的第一作者是來自西湖大學的研究人員雷明坤,指導老師為西湖大學通用人工智慧(AGI)實驗室的負責人張馳助理教授。實驗室的研究方向聚焦於生成式人工智慧和多模態機器學習。

文字驅動的風格遷移是影像生成中的一個重要任務,旨在將參考影像的風格與符合文字提示的內容融合在一起,生成最終的風格化圖片。近年來,隨著 Stable Diffusion 等文字到影像生成模型的發展,這些技術使得在保留內容準確性的同時,實現出色的風格轉換成為可能。這項技術在數字繪畫、廣告和遊戲設計等領域具有重要的應用價值。

然而,以往的風格遷移演算法會讓結果的風格化影像過擬合到參考的風格影像上;從而丟失文字控制能力(例如指定顏色)。

為了解決這一難題,西湖大學、復旦大學、南洋理工大學、香港科技大學(廣州)等機構的研究團隊聯合提出了無需額外訓練的改進方法,能夠與眾多已有方法進行結合。簡單來說,研究團隊最佳化了影像和文字共同引導生成風格化影像的時候,兩種條件如何融合的問題。同時也探討了關於風格化影像穩定生成和風格歧義性的問題。
圖片
  • 論文標題:StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements

  • 論文連結:https://arxiv.org/abs/2412.08503

  • 專案地址:https://stylestudio-official.github.io/

  • Github 地址:https://github.com/Westlake-AGI-Lab/StyleStudio

問題背景
風格定義的模糊性

現在的風格遷移技術由於定義 “風格” 時固有的模糊性,仍然未能達到預期的效果。現在的方法主要在解決的問題是風格影像中的內容元素洩漏進風格化影像中,導致風格化影像完全不遵循文字條件,即內容洩漏問題。然而,一個風格影像中包含了多種元素,如色彩、紋理、光照和筆觸;所有這些元素都構成了影像中的整體美學。

現有的方法通常會複製所有的這些元素,這可能會無意中導致過擬合,即生成的輸出過於模仿參考風格影像的特點,這種對細節的過度複製不僅降低了生成影像的美學靈活性,也限制了它適應不同風格或基於內容需求的能力。因此,理想的風格遷移方法應該允許更選擇性的風格調整,給予使用者強調或省略特定風格元件的靈活性,以實現平衡且有意圖的轉換

另一個由過擬合引發的挑戰是在文字到影像生成過程中保持文字對齊準確性困難,即便是在相當簡單的文字條件下,例如 “A <color> <object>” 這類簡單文字。當前模型會優先考慮來自風格影像的主要顏色或圖案條件,即使它們與文字提示中指定的條件相沖突矛盾。這種不可控制性削弱了模型解讀和結合細緻文字指導的能力,導致生成結果的精準性和定製化能力下降。

最後,風格遷移可能會引入一些不期望的影像特徵,影響文字到影像生成模型的效果穩定性。例如,一種常見問題是佈局不穩定(例如棋盤格效應),即重複的圖案會不經意地出現在整個生成影像中,不論使用者的文字條件如何。這突顯了風格遷移過程中額外複雜性帶來的挑戰。

當前風格化文生圖模型存在的問題可以總結歸納為以下三個方面:
  • 風格化影像過擬合導致保持文字對齊準確性困難。

  • 風格化影像過擬合導致風格影像中風格元素遷移的不可控。

  • 風格化影像出現不穩定生成的問題,例如棋盤格效應。

StyleStudio 核心創新

針對風格定義模糊性導致的三個問題,研究團隊提出了針對每個問題的解決方案。具體的解決方法如下:

貢獻一:跨模態自適應例項正則化技術 (cross-modal AdaIN)

在文字驅動的風格遷移中,傳統的基於介面卡的方法(Adapter-Based)方法透過加權求和直接組合引導影像生成的文字和影像條件,這樣的做法可能導致兩種條件之間的資訊衝突,影響最終的生成效果。

研究團隊提出了跨模態自適應例項正則化技術 Cross-Modal AdaIN。論文回顧了經典風格遷移演算法 AdaIN 技術,然後提出了多模態版本 AdaIN 來解決文字驅動的風格遷移問題。具體來說,該演算法首先分別處理文字和風格特徵以生成獨立網格特徵圖,再應用原本的 AdaIN 技術使文字特徵透過風格特徵歸一化,最後將結果融合進 U-Net 特徵中。此方法自適應地平衡了文字與風格條件的影響,最小化了輸入間的潛在衝突;並避免了複雜超引數的設定,提高了模型對文字提示和風格參考的理解能力和生成質量。

與此同時,得益於傳統的基於介面卡的方法(Adapter-Based)採用加權求和組合文字和影像條件,這保證了兩個特徵圖位於相同的嵌入空間(embedding space);研究團隊發現可以直接將跨模態自適應例項正則化技術替換傳統基於介面卡的方法(Adapter-Based)中的加權求和策略,且不需要進行額外的訓練。
圖片
跨模態自適應例項正則化技術示例圖

貢獻二:基於風格影像的無分類器生成引導 Style-CFG

在風格遷移中,當參考風格影像包含多種風格元素(如卡通風格與夜間美學的結合)時,會出現風格模糊的挑戰。當前的方法難以有效地分離這些不同的風格元素,更無法選擇性地強調核心特定風格元素。為了解決這個問題,需要一種靈活的方法,可以有選擇地突出所需的風格特徵,同時過濾掉無關或衝突的特徵。

為此,研究團隊了借鑑了擴散模型中文字引導影像生成常用的無分類器引導(CFG)的概念,提出了基於風格的無分類器引導(Style-Based Classifier-Free Guidance, SCFG)設計,旨在提供對風格遷移過程的可控調整。
圖片
研究團隊提出利用佈局控制生成模型(如 ControlNet)生成所需要的負向風格圖;例如當正向風格圖片的風格特點是卡通風格與雪景時,可以生成真實風格下的雪景圖片;透過基於風格的無分類器引導使得最終風格化圖片中僅包含卡通風格而不包含雪這一風格元素。

貢獻三:引入教師模型穩定影像生成

在影像生成中,內容的佈局對視覺美學至關重要。研究團隊觀察到,生成過程中會出現較為明顯的短板是棋盤格現象。為了保持文字驅動風格遷移中的穩定佈局,研究團隊提出利用風格遷移方法中使用到的基模型(base model),即通常利用相對應的 Stable Diffusion 模型作為教師模型提供生成過程中的佈局指導。

具體來說,研究團隊利用教師模型在生成過程中每一個去噪時間步的注意力圖替換風格化影像生成過程中的相對應的注意力圖。這種方法確保了關鍵的空間關係特徵在去噪過程中的穩定性,既保留了原始影像的結構連貫性,又實現了所需的風格轉換,使結果更符合文字提示的要求。

在實驗中研究團隊有兩點發現,一是相較於替換交叉注意力圖,替換自注意力圖不僅可以穩定影像佈局,還可以保持跨風格影像生成內容的佈局一致性。二是替換自注意力圖只需要在去噪前期進行,當教師模型參與的去噪過程過長會導致風格特徵的丟失。
圖片 教師模型穩定影像生成示例。

實驗亮點
StyleStudio 的文字對齊能力與穩定的影像生成
圖片 與先前方法進行定性的比較試驗。

研究團隊進行了定性的比較試驗,實驗結果表明所提出的方法能夠精確捕捉並反映文字條件中指定的關鍵風格屬性(如顏色),優先確保文字對齊;此外還保證了生成影像的佈局穩定,保持結構完整性,沒有出現內容洩漏的問題;同時沒有損失風格特徵,實現了與目標風格的高度相似性。
圖片
研究團隊也進行了定量的比較試驗與使用者調研實驗,結果表明在各個指標中超過了已有的風格遷移方法。
圖片 基於風格的無分類器引導方法實驗

研究團隊針對提出的基於風格的無分類器引導方法進行試驗,透過與傳統的無分類器指導方法對比證明了所提出方法的有效性。
圖片 更多風格影像和文字條件下的實驗結果。所用的文字條件格式為 “A <color> bus”

研究團隊為了展示所提方法的通用性和穩健性,進行了更多風格影像和文字條件下的實驗。實驗結果進一步驗證了該方法的有效性,表明其在文字對齊和佈局穩定生成方面表現出色。更多內容與實驗分析,請參考原論文。

研究團隊官方支援 Huggingface Demo,可以線上體驗:
圖片
示例地址:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio

相關文章