AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
無需訓練或微調,在提示詞指定的新場景中克隆參考影片的運動,無論是全域性的相機運動還是區域性的肢體運動都可以一鍵搞定。
論文:https://arxiv.org/abs/2406.05338
主頁:https://bujiazi.github.io/motionclone.github.io/
程式碼:https://github.com/Bujiazi/MotionClone
本文提出了名為 MotionClone 的新框架,給定任意的參考影片,能夠在不進行模型訓練或微調的情況下提取對應的運動資訊;這種運動資訊可以直接和文字提示一起指導新影片的生成,實現具有定製化運動的文字生成影片 (text2video)。
相較於先前的研究,MotionClone 具備如下的優點:
無需訓練或微調:先前的方法通常需要訓練模型來編碼運動線索或微調影片擴散模型來擬合特定運動模式。訓練模型編碼運動線索對於訓練域之外的運動泛化能力較差,而微調已有的影片生成模型可能會損害基模型潛在的影片生成質量。MotionClone 無需引入任何額外的訓練或微調,在提高運動泛化能力的同時最大程度保留了基座模型的生成質量。
更高的運動質量:已有的開源文生影片模型很難生成大幅度的合理的運動,MotionClone 透過引入主成分時序注意力運動指導在大幅加強生成影片運動幅度的同時有效保障了運動的合理性。
更好的空間位置關係:為了避免直接的運動克隆可能導致的空間語義錯配,MotionClone 提出了基於交叉注意力掩碼的空間語義資訊指導來輔助空間語義資訊和時空運動資訊的正確耦合。
時序注意力模組中的運動資訊
在文字生影片工作中,時序注意力模組 (Temporal Attention) 被廣泛用於建模影片的幀間相關性。由於時序注意力模組中的注意力分數 (attention map score) 表徵了幀間的相關性,因此一個直觀的想法是是否可以透過約束完全一致的注意力分數來複制的幀間聯絡從而實現運動克隆。
然而,實驗發現直接複製完整的注意力圖 (plain control) 只能實現非常粗糙的運動遷移,這是因為注意力中大多數權重對應的是噪聲或者非常細微的運動資訊,這些資訊一方面難以和文字指定的新場景相結合,另一方面掩蓋了潛在的有效的運動指導。
為了解決這一問題,MotionClone 引入了主成分時序注意力運動指導機制 (Primary temporal-attention guidance),僅利用時序注意力中的主要成分來對影片生成進行稀疏指導,從而過濾噪聲和細微運動資訊的負面影響,實現運動在文字指定的新場景下的有效克隆。
空間語義修正
主成分時序注意力運動指導能夠實現對參考影片的運動克隆,但是無法確保運動的主體和使用者意圖相一致,這會降低影片生成的質量,在某些情況下甚至會導致運動主體的錯位。
為了解決上述問題,MotionClone 引入空間語義引導機制 (Location-aware semantic guidance),透過交叉注意力掩碼(Cross Attention Mask)劃分影片的前後背景區域,透過分別約束影片前後背景的語義資訊來保障空間語義的合理佈局,促進時序運動和空間語義的正確耦合。
MotionClone 實現細節
DDIM 反轉:MotionClone 採用 DDIM Inversion 將輸入的參考影片反轉至 latent space 中,實現對參考影片的時序注意力主成分提取。
引導階段:在每次去噪時,MotionClone 同時引入了主成分時序注意力運動指導和空間語義資訊指導,它們協同執行,為可控影片生成提供全面的運動和語義引導。
高斯掩碼:在空間語義引導機制中,採用高斯核函式對交叉注意力掩碼進行模糊處理,消除潛在的結構資訊影響。
DAVIS 資料集中的 30 個影片被用於測試。實驗結果表明 MotionClone 實現了在文字契合度、時序一致性以及多項使用者調研指標上的顯著提升,超越了以往的運動遷移方法,具體結果如下表所示。
MotionClone 與已有運動遷移方法的生成結果對比如下圖所示,可見 MotionClone 具有領先的效能。
綜上所述,MotionClone 是一種新的運動遷移框架,能夠在無需訓練或微調的情況下,有效地將參考影片中的運動克隆到使用者給定提示詞指定的新場景,為已有的文生影片模型提供了即插即用的運動定製化方案。
MotionClone 在保留已有基座模型的生成質量的基礎上引入高效的主成分運動資訊指導和空間語義引導,在保障和文字的語義對齊能力的同時顯著提高了和參考影片的運動一致性,實現高質量的可控的影片生成。
此外,MotionClone 能夠直接適配豐富的社群模型實現多樣化的影片生成,具備極高的擴充套件性。