RTX3090可跑,360AI團隊開源最新影片模型FancyVideo,紅衣大叔都說好

机器之心發表於2024-08-26
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

論文作者之一 Ao Ma,碩士畢業於中科院計算所,曾在 MSRA 視覺計算組和阿里通義實驗室進行學術研究和演算法落地工作。目前是奇虎 360-AIGC 團隊-影片生成方向負責人,長期致力於視覺生成方向研究和落地,以及開源社群建設。

近日,開源社群又迎來一款強力的「影片生成」工作,可以在消費級顯示卡 (如 GeForce RTX 3090) 上生成任意解析度、任意寬高比、不同風格、不同運動幅度的影片,其衍生模型還能夠完成影片擴充套件、影片回溯的功能…… 這便是 360AI 團隊和中山大學聯合研發的 FancyVideo,一種基於 UNet 架構的影片生成模型。

作者基於已經開源的 61 幀模型,實測效果如下。

首先適配不同解析度、寬高比:RTX3090可跑,360AI團隊開源最新影片模型FancyVideo,紅衣大叔都說好其次支援不同風格: RTX3090可跑,360AI團隊開源最新影片模型FancyVideo,紅衣大叔都說好最後生成不同運動性: RTX3090可跑,360AI團隊開源最新影片模型FancyVideo,紅衣大叔都說好

圖片

  • 論文地址:https://arxiv.org/abs/2408.08189

  • 專案主頁:https://fancyvideo.github.io/

  • 程式碼倉庫:https://github.com/360CVGroup/FancyVideo

  • 論文標題:FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

跨幀文字引導模組

作者在進行影片生成研究過程中,發現現有的文字到影片(T2V)工作通常會採用空間交叉注意力(Spatial Cross Attention),將文字等價地引導至不同幀的生成過程中,缺乏對不同幀靈活性的文字引導(如下圖左)。這會導致模型理解提示詞所傳達的時間邏輯和生成具有連續運動影片的能力受到限制。

FancyVideo 正是從這一角度切入,特殊設計了跨幀文字引導模組(Cross-frame Textual Guidance Module, CTGM, 如下圖右)改進了現有文字控制機制。

具體來說,CTGM 包含 3 個子模組:

  • 時序資訊注入器(Temporal Information Injector, TII)-- 將來自潛在特徵的幀特定資訊注入文字條件中,從而獲得跨幀文字條件;

  • 時序特徵提取器(Temporal Affinity Refiner, TAR)-- 沿時間維度細化跨幀文字條件與潛在特徵之間的相關矩陣;

  • 時序特徵增強器(Temporal Feature Booster, TFB)-- 增強了潛在特徵的時間一致性。

圖片

FancyVideo 訓練流程

FancyVideo 整體訓練 Pipeline 如下所示。其中在模型結構方面,FancyVideo 選擇在 2D T2I 模型基礎上插入時序層和基於 CTGM 的運動性模組的方式構造 T2V 模型。在生成影片時,先進行 T2I 操作生成首幀,再進行 I2V。這既儲存了 T2I 模型的能力,使影片整體畫質變高,又大大減少了訓練代價。

此外,為實現運動控制的能力,FancyVideo 在訓練階段將基於 RAFT 提取影片運動資訊和 time embedding 一起注入到網路中。

圖片

實驗結果

作者透過定量和定性兩個方面對模型效果進行評估。他們首先在 EvalCrafter Benchmark 上比較了 FancyVideo 和其他 T2V 模型,可以看到 FancyVideo 在影片生成質量、文字一致性、運動性和時序一致性方面均處於領先位置。

圖片

論文還在 UCF-101 和 MSR-VTT Benchmark 上進行了 Zero-shot 的評測,在衡量生成影片豐富性的 IS 指標和文字一致性的 CLIPSIM 指標均取得了 SOTA 結果。

圖片

此外,論文還基於 FancyVideo 模型的 T2V 和 I2V 能力分別和前人方法進行了人工評測,結果顯示在影片生成質量、文字一致性、運動性和時序一致性角度 FancyVideo 均處於領先。

圖片

最後,論文中採用消融實驗探究了 CTGM 的不同子模組對於影片生成結果的影響,以驗證各個子模組的合理性和有效性。

圖片

應用場景

基於這種訓練 pipline 和策略,FancyVideo 可以同時完成 T2V 和 I2V 功能,還可以在生成關鍵關鍵幀的基礎上進行插幀操作:

圖片

影片擴充套件、影片回溯操作:

圖片

FancyVideo 上線開源社群不到一週,已經有手快的同學自發搭建了 FancyVideo 的 ComfyUI 外掛,讓大家可以在自己的機器上玩的開心。

圖片

此外,據作者瞭解,後續 FancyVideo 團隊除了會放出更長、效果更好的模型到開源社群,還計劃上線網頁版本供大家【免費】使用。在 AIGC 時代,人人都是「能詩會畫」的藝術家。

結論

相比於 SORA 類影片生成「產品」的發展,開源社群中影片生成模型的更新和迭代顯得略微緩慢,FancyVideo 的釋出也給了普通使用者更多選擇。相信在社群小夥伴共同的努力下,影片生成這一目前看上去費時費力的任務,能夠成為更多普通小夥伴日常生活、工作中的工具。

相關文章