論文一作劉少騰,Adobe Research實習生,香港中文大學博士生(DV Lab),師從賈佳亞教授。主要研究方向是多模態大模型和生成模型,包含影像影片的生成、理解與編輯。作者Tianyu Wang、Soo Ye Kim等均為Adobe Research Scientist。
論文地址:https://arxiv.org/pdf/2412.19761
專案地址:https://genprop.github.io/
影片地址:https://www.youtube.com/watch?v=GC8qfWzZG1M
Text-to-Video 模型已展現出世界模擬器的潛力,這種潛力能革新傳統視覺任務嗎? 近日,賈佳亞團隊聯手 Adobe 團隊,用 GenProp(Generative Video Propagation)來給出答案。 GenProp 可以完成幾乎所有 “傳播”( Propagation)任務,即便是更接近感知任務的例項追蹤(Instance Tracking): 在人們的印象裡,追蹤(Tracking)問題已經得到了很好的解決。SOTA 方法 SAM 在大規模分割資料上經過了專門的訓練,精度很高。然而,傳統感知方法的資料標註很難覆蓋 “千變萬化” 的影子,強如 SAM 也會在這類問題上犯錯。相比於 SAM v2.1,GenProp 展現出了生成模型特有的優勢:得益於 video generation 的基礎能力,模型可以完整地追蹤物體的 side effects,如狗和人的影子、反射等。 這給我們帶來了一些啟發:
能夠生成的視覺現象,是否都能夠被感知?
生成式的大規模預訓練,可能會彌補感知模型的一些缺陷。
GenProp 並不追求在某個問題上成為定量的 SOTA,而是希望能夠發揮生成模型的作用,擴充每個問題的邊界,展現之前方法做不到的事情。接下來,我們會看到 GenProp 對物體移除、影片補全、物體替換、背景替換、物體插入、影片外繪等問題的革新。 對於物體移除,傳統方法只能移除物體本身。和追蹤問題類似,GenProp 也可以同時移除物體產生的 side effects,如反射、影子。這對於傳統方法很困難,因為資料多變、難以收集,需要模型對物理規律有理解。
總結 本文搭建了一個通用的框架,把影片生成模型轉變為編輯模型 GenProp,可將一幀的修改傳播到整個影片。對於去除任務,模型可去除物體的 side effects(如影子、反射)。對於修改任務,模型可修改物體的一小部分,也可進行較大形變的修改。對於背景修改,模型能夠生成物體和新背景的相互作用。對於物體插入,模型能夠允許物體獨立的運動。對於物體追蹤,模型能夠同時追蹤 side effects(如影子、反射)。此外,模型還湧現出瞭如 outpainting 等新能力。