300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

机器之心發表於2024-06-28
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

該文章的第一作者帥欣成,目前在復旦大學FVL實驗室攻讀博士學位,本科畢業於上海交通大學。他的主要研究方向包括影像和影片編輯以及多模態學習

前言

本文提出瞭解決一般性編輯任務的統一框架!近期,復旦大學 FVL 實驗室和南洋理工大學的研究人員對於多模態引導的基於文生圖大模型的影像編輯演算法進行了總結和回顧。綜述涵蓋 300 多篇相關研究,調研的最新模型截止至今年 6 月!該綜述擴充了關於控制條件(自然語言,影像,使用者介面)和編輯任務的討論 (物體 / 屬性操作、空間變換、inpainting、風格轉換、影像翻譯,主體 / 屬性客製化),以從更新穎和更一般性的角度全面的探討編輯方法。此外,該綜述提出的統一框架將編輯過程表示為不同演算法族的組合,並透過全面的定性和定量實驗來說明各種組合的特性以及適應場景。該框架提供了友好的設計空間以滿足使用者不同的需求,併為研究者們提供了一定的參考以開發新的演算法。

摘要

影像編輯旨在根據使用者的特定需求編輯給定的合成影像或真實影像。作為人工智慧生成內容(AIGC)領域中一個有前景且具有挑戰性的領域,影像編輯得到了廣泛研究。近期,大規模文生圖(T2I)擴散模型驅動了影像編輯技術的發展。這些模型根據文字提示生成影像,展示了驚人的生成能力,已成為影像編輯的常用工具。基於 T2I 的影像編輯方法顯著提升了編輯效能,為使用者提供了使用多模態條件引導進行內容修改的介面。我們對基於 T2I 擴散模型的多模態引導下的影像編輯技術進行了全面回顧。首先,我們從更一般性的角度定義了影像編輯任務的範圍,並詳細描述了各種控制訊號和編輯場景。然後,我們提出了一個統一框架來形式化編輯過程,將其表示為兩個演算法族的組合。這個框架為使用者提供了一個設計空間,以實現特定目標。接著,我們對該框架內的每個元件進行了深入分析,研究了不同組合的特性和適用場景。由於基於訓練的方法直接學習將源影像對映到目標影像,我們對這些方法進行了單獨討論,並介紹了不同場景下源影像的注入方案。此外,我們也回顧了 2D 技術在影片編輯中的應用,重點介紹瞭解決幀間不一致性的問題。最後,我們也討論了該領域的開放性挑戰,並提出了潛在的未來研究方向。

圖片

  • 論文題目:A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
  • 發表單位:復旦大學 FVL 實驗室,南洋理工大學
  • 論文地址:https://arxiv.org/abs/2406.14555
  • 專案地址:https://github.com/xinchengshuai/Awesome-Image-Editing

1.研究動機

1.1,在現實生活中,人們對於可控的、高質量的智慧化影像編輯工具的需求日益增加,因此有必要系統地總結與對比這個方向的方法與技術特點。
1.2,當前的編輯演算法與相關的綜述都將編輯場景侷限於保留影像中的大部分與編輯無關的低階語義資訊,為此需要擴充套件編輯任務的範圍,從更具有一般性的視角討論編輯任務。
1.3,由於需求和場景具有多樣性,有必要將編輯過程形式化為一個統一框架,併為使用者提供一個設計空間來適應不同的編輯目標。

2.綜述亮點,與當前編輯綜述有何區別?

2.1 關於編輯任務的定義與討論範圍。相比於現有的演算法以及此前的編輯綜述,本文對於影像編輯任務的定義更加廣泛。具體的,本文將編輯任務分為 content-aware 和 content-free 場景組。其中 content-aware 組內的場景為之前的文獻所討論的主要任務,它們的共性是保留影像中的一些低階語義特徵,如編輯無關區域的畫素內容,或影像結構。此外,我們開創性地將定製化任務(customization)納入到 content-free 場景組中,將這一類保留高階語義(如主體身份資訊,或者其他細粒度屬性)的任務作為對常規的編輯場景的補充。

圖片

圖 1. Survey 討論的各種編輯場景

2.2 一般性編輯演算法的統一框架。由於編輯場景的多樣性,現有的演算法無法很好的解決所有的需求。因此我們將現有的編輯過程形式化為一個統一的框架,將其表示為兩個演算法族的組合。此外我們也透過定性和定量實驗分析了不同組合的特性與適應場景,為使用者提供了一個良好的設計空間以適應不同的編輯目標。同時,該框架也為研究者們提供了一個較好的參考,以設計出效能更優的演算法。

2.3 討論的全面性。我們調研了 300 多篇的相關論文,系統且全面地闡述了各種模態的控制訊號在不同場景下的應用。對於基於訓練的編輯方法,本文也提供了在各種場景下將源影像注入到 T2I 模型的策略。此外,我們也探討了影像編輯技術在影片領域的應用,使得讀者能夠快速的理解不同領域間編輯演算法的聯絡。

3.一般性編輯演算法的統一框架

圖片

圖 2. 一般性編輯演算法的統一框架

框架包含了兩個演算法族 Inversion 演算法圖片和 Editing 演算法圖片

3.1 Inversion 演算法。Inversion 演算法圖片將源影像集合圖片編碼到特定的特徵或引數空間,得到對應的表徵圖片(inversion clue),並用對應的源文字描述圖片作為源影像的識別符號。包括 tuning-based圖片和 forward-based圖片兩種型別的 inversion 演算法。其可以被形式化為:

圖片Tuning-based inversion圖片透過原有的 diffusion 訓練過程將源影像集合植入到擴散模型的生成分佈中。形式化過程為:

圖片

其中圖片為引入的可學習的引數,且圖片

Forward-based inversion圖片用於在擴散模型的反向過程中(圖片)還原某一條前向路徑中的噪聲(圖片)。形式化過程為:

圖片

其中圖片為方法中引入的引數,用於最小化圖片,其中,圖片

3.2.Editing 演算法。Editing 演算法圖片根據圖片和多模態引導集合圖片來生成最終的編輯結果圖片。包含 attention-based圖片,blending-based圖片,score-based圖片以及 optimization-based圖片的 editing 演算法。其可以被形式化為:

圖片

特別地,對於每一步的反向過程,圖片進行了如下操作:

圖片

其中圖片中的操作表示編輯演算法對於擴散模型取樣過程圖片的干預,用於保證編輯後的影像圖片與源影像集合圖片的一致性,並反應出圖片中引導條件所指明的視覺變換。

特別地,我們將無干預的編輯過程視作為普通版本的編輯演算法圖片。其形式化為:

圖片

Attention-based editing圖片的形式化過程:

圖片

Blending-based editing圖片的形式化過程:

圖片

Score-based editing圖片的形式化過程:

圖片

Optimization-based editing圖片的形式化過程:

圖片

3.3 Training-Based 的編輯方法。與 training-free 的方法不同的是,training-based 演算法透過在任務特定的資料集中直接學習源影像集合到編輯影像的對映。這一類演算法可以看作是 tuning-based inversion 的擴充套件,即透過額外引入的引數將源影像編碼到生成分佈中。在這類演算法中,最重要的是如何將源影像注入到 T2I 模型中,以下是針對不同編輯場景的注入方案。

Content-aware 任務的注入方案:

圖片

圖 3. Content-aware 任務的注入方案

Content-free 任務的注入方案:

圖片

圖 3. Content-free 任務的注入方案

4.統一框架在多模態編輯任務中的應用

本文透過定性實驗說明了各個組合在多模態編輯任務中的應用:

圖片

圖 4. 關於 attention-based editing圖片的演算法組合的應用

圖片

圖 5. 關於 blending-based editing圖片的演算法組合的應用

圖片

圖 6. 關於 score-based editing圖片的演算法組合的應用

圖片

圖 7. 關於 optimization-based editing圖片的演算法組合的應用

詳細分析請查閱原始論文。

5.不同組合在文字引導編輯場景下的比較

對於常見的文字引導的編輯任務,本文透過設計了多個具有挑戰性的定性實驗,以說明不同組合所適合的編輯場景。此外,本文也相應地收集了高質量和具有一定難度的資料集,以定量地說明各種組合中的先進演算法在不同場景下的效能。

對於 content-aware 任務,我們主要考慮物件操作(增 / 刪 / 替換),屬性改變,風格遷移。特別地,我們考慮了具有挑戰性的實驗設定:1. 多目標編輯。2. 對於影像的語義佈局影響較大的用例。我們也收集了這些複雜場景的高質量圖片,並對不同組合中的先進演算法進行全面定量比較。

圖片

圖 8.Content-aware 任務中各個組合的定性比較,從左至右分別是

圖片

結果分析以及更多實驗結果請查閱原始論文。

對於 content-free 任務,我們主要考慮基於主體驅動的(subject-driven)定製化任務。並考慮了多種場景,如更換背景,與物體互動,行為改變,以及風格改變。我們也定義了大量的文字引導模板,並對各個方法的整體效能進行定量分析。

圖片

圖 9.Content-free 任務中各個組合的定性比較,從左至右分別是圖片
結果分析以及更多實驗結果請查閱原始論文。

6.未來可以研究的方向

此外本文也給出了一些關於未來研究方向的分析。這裡以 content-aware 任務和 content-free 任務面臨的挑戰為例。

6.1. Content-aware 任務的挑戰。對於 content-aware 編輯任務的挑戰,現有方法無法同時處理多種編輯場景和控制訊號。這一限制迫使應用在不同任務之間切換合適的後端演算法。此外,一些高階方法在易用性方面不友好。某些方法需要使用者調整關鍵引數以獲得最佳結果,而其他方法則需要繁瑣的輸入,例如源和目標提示,或輔助掩碼。

6.2.Content-free 任務的挑戰。對於 content-free 編輯任務,現有方法在測試時調優過程冗長且存在過擬合問題 。一些研究旨在透過最佳化少量引數或從頭開始訓練模型來緩解這一問題。然而,它們常常會丟失個性化主體的細節,或表現出較差的泛化能力。此外,當前方法在從少量影像中提取抽象概念方面也有所不足,它們無法完全將所需概念與其他視覺元素分離開來。

瞭解更多研究方向內容可以查閱原始論文。

相關文章