賈佳亞團隊聯合Adobe提出GenProp,物體追蹤移除特效樣樣在行 机器之心 發表於2025-01-24
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 論文一作劉少騰,Adobe Research實習生,香港中文大學博士生(DV Lab),師從賈佳亞教授。主要研究方向是多模態大模型和生成模型,包含影像影片的生成、理解與編輯。作者Tianyu Wang、Soo Ye Kim等均為Adobe Research Scientist。
論文地址:https://arxiv.org/pdf/2412.19761 專案地址:https://genprop.github.io/ 影片地址:https://www.youtube.com/watch?v=GC8qfWzZG1M Text-to-Video 模型已展現出世界模擬器的潛力,這種潛力能革新傳統視覺任務嗎? 近日,賈佳亞團隊聯手 Adobe 團隊,用 GenProp(Generative Video Propagation)來給出答案。 GenProp 可以完成幾乎所有 “傳播”( Propagation)任務,即便是更接近感知任務的例項追蹤(Instance Tracking) : 在人們的印象裡,追蹤(Tracking)問題已經得到了很好的解決。SOTA 方法 SAM 在大規模分割資料上經過了專門的訓練,精度很高。然而,傳統感知方法的資料標註很難覆蓋 “千變萬化” 的影子,強如 SAM 也會在這類問題上犯錯。 相比於 SAM v2.1,GenProp 展現出了生成模型特有的優勢 :得益於 video generation 的基礎能力,模型可以完整地追蹤物體的 side effects,如狗和人的影子、反射等。 生成式的大規模預訓練,可能會彌補感知模型的一些缺陷。 GenProp 並不追求在某個問題上成為定量的 SOTA,而是希望能夠發揮生成模型的作用,擴充每個問題的邊界,展現之前方法做不到的事情 。接下來,我們會看到 GenProp 對物體移除、影片補全、物體替換、背景替換、物體插入、影片外繪等問題的革新。 對於物體移除,傳統方法只能移除物體本身。和追蹤問題類似,GenProp 也可以同時移除物體產生的 side effects ,如反射、影子。這對於傳統方法很困難,因為資料多變、難以收集,需要模型對物理規律有理解。
對於物體插入,GenProp 不僅能插入靜止物體,還可以產生合理的獨立運動 ,如行駛的賽車、掉落的檸檬(符合物理規律)。
對於物體替換,GenProp 不止能編輯外觀(appearance editing),還能大幅改變替換物體的形狀 ,例如熊變成羊,人變成石臺。而依靠 attention map 的傳統影片編輯方法,如 Video-P2P,都無法大幅改變形狀。
GenProp 還可以編輯特效 ,如使釣魚竿著火!須知,現階段的編輯演算法大多圍繞物體和場景,對於特效的編輯能力都較弱。
對於背景替換,GenProp 能使生成物體和新背景的相互作用,適應協調:
除此之外,GenProp 在沒有 outpainting 資料 pair 訓練的情況下 ,湧現出了 outpainting 的能力,可以補全大面積運動的區域,體現了模型的通用能力:
GenProp 允許使用者在初始幀上做任意修改 ,並據此生成後續變化的內容。 在推理過程中,GenProp 的框架透過選擇性內容編碼器(Selective Content Encoder ,SCE)接收原始影片作為輸入,以保留未改變區域的內容。首幀所做的更改會透過 Image-to-Video(I2V)模型在整個影片中傳播,而其他區域則保持不變。
如圖所示,Selective Content Encoder 負責重建原始影片的資訊,Image-to-Video 模型負責生產新的影片資訊。透過調整 Injection Weight,可以控制生成和重建的比例。 GenProp 的框架在 I2V 生成模型的基礎上整合了選擇性內容編碼器(Selective Content Encoder,SCE)和掩碼預測解碼器(Mask Decoder),強制模型傳播編輯區域的同時,保留原始影片中其他所有區域的內容。透過 Copy & Paste 等合成資料,模型被訓練以傳播首幀中的各種變化,同時還可以預測每幀中被編輯區域的位置。
如圖所示,訓練過程中,僅需放開 Selective Content Encoder 和 Mask Decoder 的引數。合成資料只作為 Selective Content Encoder 的輸入,用於監督的模型輸出資料均採用原始影片,從而保證了模型輸出的影片質量不會被降低 。這也意味著,原始影片的 caption 可以直接送入 text encoder。 具體來說,文章對例項分割資料採用了多種資料製造技術,針對不同的傳播子任務進行了設計: (1) Copy-and-Paste :從一個影片中隨機分割物體並貼上到另一個影片中,模擬物體移除; (2) Mask-and-Fill :對遮罩區域進行影像修復,模擬選定區域內的編輯效果; (3) Color Fill :用特定顏色填充遮罩區域,代表基本的物體跟蹤場景。 Copy & Paste 合成資料如圖所示(Video1 和 Video2 是隨機取樣的影片):
可以看出,GenProp 的資料對並無涵蓋所有的應用場景,但資料量很大。透過有限的構造資料 ,SCE 和 I2V 的分工得到了充分訓練,實現了 “無限” 應用 ,如特效編輯、outpainting 等。 除此之外,GenProp 提出了區域感知損失(Region-Aware Loss )。該 loss 透過限制梯度的方式,削弱了 SCE 對於編輯區域的影響 ,幫助模型將編輯區域與原始內容區分開來。
可以觀察到,在注意力圖視覺化過程中,注意力圖逐漸聚焦於要移除的區域(左邊的天鵝),引導 I2V 模型在這些區域內生成新內容,符合訓練的預期:
本文搭建了一個通用的框架,把影片生成模型轉變為編輯模型 GenProp,可將一幀的修改傳播到整個影片。對於去除任務,模型可去除物體的 side effects(如影子、反射)。對於修改任務,模型可修改物體的一小部分,也可進行較大形變的修改。對於背景修改,模型能夠生成物體和新背景的相互作用。對於物體插入,模型能夠允許物體獨立的運動。對於物體追蹤,模型能夠同時追蹤 side effects(如影子、反射)。此外,模型還湧現出瞭如 outpainting 等新能力。