大一統影片編輯框架:浙大&微軟推出UniEdit,無須訓練、支援多種編輯場景

机器之心發表於2024-03-04
隨著 Sora 的爆火,人們看到了 AI 影片生成的巨大潛力,對這一領域的關注度也越來越高。

除了影片生成,在現實生活中,如何對影片進行編輯同樣是一個重要的問題,且應用場景更為廣泛。以往的影片編輯方法往往侷限於「外觀」層面的編輯,例如對影片進行「風格遷移」或者替換影片中的物體,但關於更改影片中物件的「動作」的嘗試還很少。

大一統影片編輯框架:浙大&微軟推出UniEdit,無須訓練、支援多種編輯場景

UniEdit 影片編輯結果(動作編輯、風格遷移、背景替換、剛性 / 非剛性物體替換)

本文中,來自浙江大學、微軟亞洲研究院、和北京大學的研究者提出了一個基於文字描述的影片編輯統一框架 UniEdit,不僅涵蓋了風格遷移、背景替換、剛性 / 非剛性物體替換等傳統外觀編輯場景,更可以有效地編輯影片中物件的動作,例如將以上影片中浣熊彈吉他的動作變成「吃蘋果」或是「招手」。

此外,除了靈活的自然語言介面和統一的編輯框架,這一模型的另一大優勢是無需訓練,大大提升了部署的便捷性和使用者使用的方便度。

圖片

  • 論文標題:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing
  • 專案主頁:https://jianhongbai.github.io/UniEdit
  • 程式碼:https://github.com/JianhongBai/UniEdit
  • 論文:https://arxiv.org/abs/2402.13185

1.UniEdit 在多種影片編輯場景中的表現

a) 物件動作編輯

圖片

編輯指令:一隻正在趴著的柯基

b) 風格化

圖片

編輯指令:上海,碼頭,油畫風格

c) 背景替換

圖片

編輯指令:鋼鐵俠在公園,冬季

d) 物件剛性編輯

圖片

編輯指令:一位男士穿著紅色西裝

e) 物件非剛性編輯

圖片

編輯指令:馬里奧正在享用晚餐

可以觀察到,UniEdit 在不同編輯場景中 1)保持了較好的時序一致性,2)較好的保留了原影片的結構及紋理細節,3)生成符合文字描述的編輯影片,展現出了強大的影片編輯能力。

2.UniEdit 獨特之處與技術創新點

研究者表示,UniEdit 相較於其他影片編輯方法,其獨特之處體現在:

  • 多功能:支援影片「動作」編輯以及多種影片「外觀」編輯場景。
  • 無需訓練:UniEdit 直接利用與訓練的文字到影片生成模型,無需額外訓練或微調。
  • 靈活性:可相容不同文字到影片生成模型,可以使用更加強大的影片生成模型提升 UniEdit 編輯質量。

UniEdit 技術上的核心創新點為:

  • 研究者發現,影片生成模型的時間自注意層編碼了影片的「幀間依賴性」。基於這個洞察,研究者引入了一個輔助的動作參考分支,用於生成文字引導的動作特徵,然後透過時間自注意層(SA-T)將這些特徵注入到主編輯路徑中,從而實現將文字引導的動作注入到源影片中。
  • 受到影像編輯技術的啟發,研究者發現影片生成模型的空間自注意層(SA-S)編碼了影片幀內空間依賴性。因此,研究者引入了一個輔助影片重建分支,並將從影片重建分支的空間自我注意層獲得的特徵注入到主編輯路徑中,以保留源影片的非編輯內容。
  • 為了在編輯外觀時保持空間結構,研究者將主編輯路徑中的空間注意力圖替換為影片重建分支中的空間注意力圖。

3.UniEdit 演算法框架解讀

圖片

方法概述。如上圖所示,UniEdit 主編輯路徑遵循反演 - 生成流程:使用 DDIM 反演後的潛變數作為初始噪聲圖片,然後以目標提示圖片為文字條件,使用預訓練的 UNet 進行去噪處理。進行動作編輯時,為了實現源內容保留和動作控制,研究者提出加入一個輔助影片重建分支和一個輔助動作參考分支,以提供所需的源影片內容和動作特徵,這些特徵被注入到主編輯路徑中,以實現內容保留和動作編輯。

物件動作編輯 — 內容保留。編輯任務的關鍵挑戰之一是繼承源影片中的原始內容(例如紋理和背景)。如影像編輯中所驗證的,重建過程中去噪模型的注意力特徵包含了源影片的內容資訊。因此,UniEdit 將影片重建分支中的注意力特徵注入到主編輯路徑的空間自注意(SA-S)層中,以保留原影片內容。

在去噪步驟 t,主編輯路徑中第圖片個 SA-S 模組的注意力機制操作如下:

其中圖片是主編輯路徑中的特徵,圖片是重建分支中對應 SA-S 層的值(value),圖片圖片超引數。透過替換空間自注意力層的 value 特徵,主編輯路徑合成的影片保留了源影片的未編輯特徵(例如背景)。與之前的影片編輯工作使用的跨幀注意力機制不同,研究者採用逐幀替換的操作,以更好地處理包含大幅度動作的源影片。

物件動作編輯 — 動作注入。為了在不犧牲內容一致性的情況下獲得所需的動作,研究者提出用參考動作指導主編輯路徑。具體來說,在去噪過程中涉及一個輔助動作參考分支。與重建分支不同,動作參考分支以包含所需動作描述的目標提示圖片為條件。為了將動作轉移到主編輯路徑,研究者的核心洞察是時間層模擬了合成影片剪輯的幀間依賴性(如下圖所示)。受上述觀察的啟發,研究者設計了在主編輯路徑的時間自注意層上注入注意力圖:

圖片

其中圖片圖片指的是動作參考分支的查詢(query)和鍵值(key),並在實踐中將圖片圖片設定為零。研究者觀察到,時間注意力圖的注入可以有效地幫助主編輯路徑生成與目標提示一致的動作。為了更好地將動作與源影片中的內容融合,研究者還在早期去噪步驟中對主編輯路徑和動作參考分支實施空間結構控制。

圖片

外觀編輯 — 空間結構控制。總的來說,外觀編輯和動作編輯之間有兩個主要區別。首先,外觀編輯不需要改變影片的幀間關係。因此,研究者從動作編輯流程中移除了動作參考分支和相應的動作注入機制。其次,外觀編輯的主要挑戰是保持源影片的結構一致性。為了解決這個問題,研究者在主編輯路徑和重建分支之間引入了空間結構控制。

先前的影片外觀編輯方法主要利用輔助網路(例如 ControlNet)實現空間結構控制。當輔助控制模型失敗時,可能會導致在保持原始影片結構方面的效能下降。作為替代,研究者建議從重建分支中提取源影片的空間結構資訊。直觀地說,空間自注意層中的注意力圖編碼了合成影片的結構,如下圖所示。因此,研究者用重建分支中的查詢和鍵替換主編輯路徑中 SA-S 模組的查詢和鍵:

圖片

其中圖片圖片指重建分支的查詢和鍵,圖片圖片用於控制編輯的程度。值得一提的是,空間結構控制的效果與內容保留機制不同。以風格化為例,上式中的結構控制機制只確保了每幀空間構圖的一致性,同時使模型能夠基於文字提示生成所需的紋理和風格。另一方面,內容呈現技術繼承了源影片的紋理和風格。因此,研究者使用結構控制而不是內容保留來進行外觀編輯。

圖片

允許影像輸入。為了使 UniEdit 更加靈活,研究者進一步提出一種方法,允許將影像作為輸入併合成高質量的影片。與影像動畫技術不同,UniEdit 允許使用者用文字提示指導動畫過程

具體來說,研究者提出首先透過以下方式實現文字到影像(I2V)的生成:1)透過模擬相機運動轉換輸入影像,形成偽影片片段;或者 2)利用現有的影像動畫方法(例如SVD、AnimateDiff)合成一個具有隨機動作的影片(這可能與文字提示不一致)。然後,研究者使用以上介紹的 UniEdit 演算法對原始影片進行文字引導編輯,以獲得最終輸出影片。

3.UniEdit 實驗結果

UniEdit 不侷限於特定的影片擴散模型。研究者將 UniEdit 建立在影片生成模型 LaVie 之上,以驗證所提出方法的有效性。對於每個輸入影片,研究者遵循 LaVie 的預處理步驟將解析度調整為 320×512。然後,將預處理後的影片輸入 UniEdit 進行影片編輯。每個影片在 NVIDIA A100 GPU 上編輯僅需 1-2 分鐘。

圖片

基線方法。為了評估 UniEdit 的效能,研究者將 UniEdit 的編輯結果與最先進的動作和外觀編輯方法進行比較。對於動作編輯,由於缺乏開源的無需訓練的方法,研究者將最先進的非剛性影像編輯技術 MasaCtrl 適配到 T2V 模型,以及 one-shot 影片編輯方法 Tune-A-Video (TAV) 作為強基線。對於外觀編輯,研究者使用最新的效能強大的方法,包括 FateZero、TokenFlow 和 Rerender-A-Video (Rerender) 作為基線。結果如下圖所示:

圖片

定性結果。研究者在圖中給出了 UniEdit 的編輯示例(更多示例見專案主頁及論文原文)。觀察到 UniEdit 可以:1)在不同場景中編輯,包括動作變化、物體替換、風格轉換、背景修改等;2)與目標提示一致;3)展示出極佳的時序一致性。

此外,研究者在圖 5 中與最先進的方法進行了比較。對於外觀編輯,即將源影片轉換為油畫風格,UniEdit 在內容保留方面優於基線。例如草原仍保持其原始外觀,沒有任何額外的石頭或小路。對於動作編輯,大多數基線方法未能輸出與目標提示對齊的影片,或者未能保留源內容。

定量結果。研究者從兩個方面定量驗證了 UniEdit 的有效性:時間一致性和與目標提示的一致性。遵循之前的工作,研究者使用 CLIP 模型計算幀間一致性和文字對齊的分數。研究者還透過邀請 10 位參與者對 UniEdit 和基線方法編輯的影片進行五級評分(1-5)進行了使用者研究。如下表所示,UniEdit 的表現大幅超過基線方法。

圖片

更多細節內容請參閱原論文。

相關文章