多重可控插幀影片生成編輯,Adobe這個大一統模型做到了,效果驚豔

机器之心發表於2025-02-03

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文一作 Maham Tanveer 是 Simon Fraser University 的在讀博士生,主要研究方向為藝術視覺生成和創作,此前在 ICCV 發表過藝術字型的生成工作。師從 Hao (Richard) Zhang, IEEE Fellow, Distinguished Professor, 並擔任 SIGGRAPH 2025 Paper Chair. 本文尾作 Nanxuan (Cherry) Zhao 在 Adobe Research 擔任 Research Scientist, 研究方向為多模態可控生成和編輯,有豐富的交叉方向研究經歷(圖形學 + 影像 + 人機互動),致力於開發可以讓使用者更高效進行設計創作的演算法和工具。

繼 Firefly 影片大模型公佈後,Adobe 的研究者在如何更好的控制影片的生成和編輯進行了更深入的研究。近日,Adobe 提出了一個統一模型,除了傳統的根據圖片生成動畫的功能(image animation)外,同時支援各種模態的控制,包括關鍵幀 (keyframes)、運動軌跡 (sparse trajectory)、掩碼(mask)、引導畫素(guiding pixels)、文字等。多重可控插幀影片生成編輯,Adobe這個大一統模型做到了,效果驚豔
論文中的 demo 讓人眼前一亮,下面一起來看看模型的效果:

1. 運動軌跡 (sparse trajectory)
圖片
透過提供簡單的軌跡筆畫,小熊栩栩如生地動起來了。

2. 掩碼(Mask)
圖片
MotionBridge 不僅可以控制物體的運動,如圖所示,將簡單的運動筆畫和 mask 結合起來,模型也可以輕鬆控制鏡頭視角。
圖片
如上所示的 mask 描繪了變動(dynamic)區域,同樣 mask 也可以指定不動的(static,紅色)區域。描繪出整座桃林圍著城堡旋轉的景象。

圖片
讓我們看看同樣的影像和運動軌跡,不同 mask 作用下的結果吧。

3. 引導畫素 (guiding pixels)

透過將想要的畫素區域貼上在指定幀的指定位置,就可以進行更精準的畫素控制。如:船在指定時間 “航行” 到指定位置。
圖片
圖片
4. 關鍵幀 (keyframes)

提供關鍵幀,模型可以在關鍵幀之間生成中間幀,實現場景的平滑切換。在影片內容創作、動畫製作、影片合成等方面都有至關重要的作用,例如長影片合成 / 生成。除了可以生成有別於以往插幀方法更豐富困難的動作,還可以自然和多種模態控制結合。

透過運動軌跡控制,三個小球可以自由在彭羅斯階梯分別滾動。

圖片

圖片

圖片

加上 mask,操控飛船左右擺動也不在話下,連灑下來的光也追隨移動
圖片
動靜結合,萬聖節裝扮的動圖也可以多種多樣:
圖片
當採用同一幀作為首位幀,還可以產生迴圈播放的奇妙效果:
圖片
當然,卡通影片也不在話下:
圖片
也可以進行視角轉化:
圖片
圖片
不單單可以進行新影片的生成和創作,MotionBridge 還可以改善圖生影片或者文生影片的效果,減少歧義並增加影片複雜度和可控性。
圖片
除此之外,最常用的文字互動也是支援的。
更多的結果和應用,請參考官方影片。

技術概覽

如今,已經有很多模型可以進行圖生影片的創作,但生成的結果往往缺少可控性,使用者要進行很多次的試錯才能得到滿意的結果。本文提出了一個名為 MotionBridge 的演算法整合了多種可控訊號,方便使用者生成或者編輯現有的影片。不同於以往工作,MotionBridge 以插幀作為基本框架構建模型。即模型可以透過輸入 1~n 張關鍵幀來生成對應影片,補全幀與幀之間的流暢過度。這個建模方式自然的保留了原本圖生影片(image to video)的能力,同時提供了更高的可控性和影片生成質量。

然而,傳統的插幀方法還具有一定的侷限性,傳統方法一般分為運動估計和運動補償兩個步驟,但當輸入幀之間的時間或空間間隔增大時,運動估計和補償的難度呈指數級上升。這是因為要生成逼真的中間幀,就必須填補輸入幀之間缺失的資訊,而這往往需要合成全新的內容,這對於傳統方法而言是一個巨大的挑戰。

儘管近年來影片生成模型取得了顯著進展,為插幀技術帶來了新的可能性,但這些技術仍然存在不足。一方面,許多模型難以生成複雜的大動作,無法滿足創作者對於豐富場景變化的需求;另一方面,即使能夠生成高質量的影片,卻常常缺乏對中間幀細節的精細控制,導致最終生成的影片與創作者的創意設想存在偏差。

因此,為了解決以上的難題,MotionBridge 第一次進行了統一多模態可控插幀影片模型的嘗試。

相比於圖生影片,可控插幀影片任務的複雜度更高。以運動軌跡控制為例,影片插幀不僅需要服從指定軌跡,還需要絲滑過度並在指定幀結束。即使軌跡不完整,模型也需要根據關鍵幀推測,往往生成的動作比圖生影片更為複雜。而進行多模態控制會進一步提升問題難度。
圖片
為了確保模型的生成能力,MotionBridge 的設計基於 DiT 的模型架構並且具有普適性(backbone-agnostic)可以適用於任何形式的 DiT 架構。

技術要點

1. 分類編碼控制訊號:為了減少控制訊號融合時的歧義,MotionBridge 將控制分為內容控制(如掩碼和引導畫素)和運動控制(如軌跡)兩類,透過雙分支嵌入器分別計算所需特徵,再引導去噪過程。這樣的設計能更精準地處理不同型別的控制資訊。

2. 運動軌跡表徵:用簡單且準確的互動表徵方式進行影片運動的控制頗具挑戰。該模型提出一種生成器,它能從光流合成軌跡,並將其轉換為稀疏 RGB 點,作為模型訓練時的運動表示,有效提升了運動控制的準確性。
圖片
3. 空間內容控制表徵:MotionBridge 不僅有傳統的軌跡控制,還增加了掩碼和引導畫素等空間內容控制。使用者可以指定想要移動或保持靜止的區域,進一步降低生成過程中的歧義,提供更靈活的創作條件。

4. 訓練策略:面對多模態控制,常規訓練效果不佳。MotionBridge 採用 curriculum learning 策略,先給模型輸入更密集、簡單的控制,再逐漸過渡到更稀疏、高階的控制,確保模型能平穩學習各種控制方式。

對比實驗

1. 與 SOTA 的演算法相比,MotionBridge 在沒有額外控制的干預下,可以生成更真實高質量的圖片細節。並且證實了在不同 DiT 架構下的普適性。
圖片
圖片
2. 消融研究

a. 對於演算法提出的分類編碼融合(dual-branch)和 curriculum learning,文中也進行了實驗。可以看出其設計對於模型理解軌跡控制輸入以及影片生成質量起到了至關重要的作用。
圖片
b. 掩碼(mask)的作用:定性實驗表明在一些情況下,mask 的使用可以讓模型更容易感知到主體,並且讓使用者可以以儘量少的互動達到想要的效果。比如當只有一個運動軌跡時,因為過於稀疏,狐狸的跳起空間有限。當額外將 mask 輸入,狐狸的跳躍便更加連貫自然。而使用者也不需要像之前的工作一樣提供過多的軌跡筆畫反覆除錯。
圖片
更多技術細節,對比實驗請參考原文:https://motionbridge.github.io/static/motionbridge_paper.pdf
影片:https://motionbridge.github.io/static/motionbridge_1.mp4

相關文章