一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx

机器之心發表於2025-03-12

圖片

自 OpenAI 釋出 Sora 以來,影片生成領域迎來爆發式增長,AI 賦能內容創作的時代已然來臨。

去年 4 月,生數科技聯合清華大學基於團隊提出的首個擴散 Transformer 融合架構 U-ViT,釋出了首個國產全自研影片大模型 Vidu,打破國外技術壟斷,支援一鍵生成 16 秒高畫質影片,展現出中國科技企業的創新實力。Vidu 自去年 7 月上線以來,已服務數千萬使用者,極大促進了影片內容的智慧創作。近期,騰訊混元阿里通義萬相等開源影片生成模型相繼亮相,可生成 5-6 秒影片,進一步降低了影片創作門檻。

儘管如此,海內外社群仍有不少使用者抱怨現有開源模型受限於生成 5-6 秒的短影片,時長不夠用。

圖片

今天,Vidu 團隊帶來了一個簡潔優雅的解決方案 ——RIFLEx。新方案僅需一行程式碼、無需額外訓練即可突破影片生成模型現有長度限制,打破「短影片魔咒」。目前該專案已經開源,體現了團隊對開源社群的積極回饋和貢獻。

圖片

  • 專案地址:https://riflex-video.github.io/
  • 程式碼地址: https://github.com/thu-ml/RIFLEx

RIFLEx適用於基於RoPE的各類Video Diffusion Trasnsformer,例如CogvideoX、混元(連結到之前推送)以及最新發布的通義萬相(連結到之前的推送)。

下列為開源模型無需任何訓練直接時長外推兩倍至10s效果:

  • 大幅度運動:

一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx

prompt: 一隻棕白相間的動畫豪豬好奇地審視著緞帶裝飾的綠色盒子,靈動的眼神與細膩的3D動畫風格營造出溫馨而精緻的視覺體驗。

  • 多人物複雜場景:
一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx
prompt: 荒涼空地上的簡易營地散佈著無人機與物資,軍人與平民共處,一名男子絕望抱頭,女子憂慮注視,沉重氛圍暗示剛經歷重大事件,鏡頭穩定細膩,突出緊張與不安感。

  • 自然動態流暢:

一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx

sora的經典長毛猛獁象prompt

在短影片微調幾千步可進一步提升效能。

  • 多轉場時序一致性保持:

一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx

prompt: 蓬亂頭髮、穿棕色夾克系紅色領巾的男子在馬車內嚴肅端詳硬幣,與女子交談,廣角與中近景結合展現歷史劇風格與戲劇氛圍。

  • 3D動畫風格:

一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx

prompt: 動畫中的兔子和老鼠,身穿探險裝備正處於險境之中。它們急速墜入一個黑暗而未知的空間,緊接著便漂浮並遊動在寧靜的水下世界裡。緊張而堅定的表情透過中景與特寫展現,高質量3D動畫風格增強電影感與沉浸感。

  • 真實人物特寫:

一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx

prompt: 留著鬍鬚、穿格子襯衫的男子坐著彈奏原聲吉他,沉浸於激情演唱。他所在的室內環境簡潔,背景是一面純灰色牆壁,左側放置著一個吉他音響和麥克風架,右側擺放著一疊書籍。

除此之外,RIFLEx 不僅支援影片的時間維度外推(如基於已有幀生成未來幀或延長影片時序長度),還可擴充套件至空間維度外推(如透過區域性畫面超解析度重建、修復缺失區域或擴充套件影片邊界內容),以及可同時進行的時空外推(如生成未來高解析度影片序列或動態擴充套件影片的時空內容,兼顧時間連續性與空間一致性)。

  • 影像寬度外推兩倍:
圖片
左圖為訓練尺寸,右圖為外推結果

  • 影像高度外推兩倍:
圖片
左圖為訓練尺寸,右圖為外推結果

  • 影像高寬同時外推兩倍:

圖片

左圖為訓練尺寸,右圖為外推結果

  • 影片時空同時外推兩倍:
一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx 訓練尺寸:480*720*49 一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx
外推結果:960*1440*97

該研究成果一經發布,獲得了廣泛關注。

知名博主 Ak 第一時間轉發,海外科技公司和博主稱讚其為「影片擴散模型領域的突破性創新」。
圖片
Diffusers 核心貢獻者 sayakpaul 和 a-r-r-o-w 也收藏了程式碼並留言點贊:
圖片
目前 RIFLEx 已被社群使用者整合到各類知名影片生成倉庫:
圖片
揭秘 RIFLEx:化繁為簡,直擊本質

長度外推問題在大型語言模型中早有研究,但這些方法在影片生成中卻屢屢碰壁,導致時序內容重複慢動作效果
一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx 直接外推導致影片內容重複,紅色框表示開始和影片開頭重複 一行程式碼、無需訓練突破影片生成時長「魔咒」,清華朱軍團隊開源全新解決方案RIFLEx
同時結合外推和內插的Yarn導致慢動作效果

為破解這一難題,Vidu 團隊深入挖掘 RoPE 的頻率成分,揭示了其每個頻率成分在影片生成的作用:

1. 時間依賴距離:不同頻率成分只能捕捉特定週期長度的幀間依賴關係。當幀數超過週期長度時,週期的性質導致位置編碼重複,從而使影片內容也會出現重複。

2. 運動速度:不同頻率成分捕捉不同的運動速度,由該頻率的位置編碼變化率決定。高頻成分捕捉快速運動,低頻成分捕捉慢速運動。
圖片
當所有頻率成分結合時,存在一個 「內在頻率」,即週期距離首次觀測重複幀最近的成分,它決定了影片外推時的重複模式。

基於此,團隊提出 RIFLEx:透過降低內在頻率,確保外推後的影片長度在一個週期內,從而避免內容重複。該方法僅需在經典 RoPE 編碼中加入一行程式碼即可實現。
圖片
這一方案為影片生成領域提供了新的思路,有望推動長影片生成技術的進一步發展。

團隊介紹
圖片
論文第一作者趙敏為清華大學TSAIL 團隊博後研究員,研究方向為基於擴散模型的視覺內容生成。趙敏是生數科技影片生成大模型Vidu的核心開發者之一,此前以第一作者發表在NeurIPS、ICLR、ECCV等頂級會議和期刊發表論文數篇,併入選2024年清華大學“水木學者”。個人主頁:https://gracezhao1997.github.io/。

清華大學 TSAIL 團隊長期致力於擴散模型的研究,代表性工作包括Analytic-DPM(ICLR 2022 傑出論文獎)、U-ViT、DPM-solver、ProlificDreamer等,並研製了首個對標Sora的高動態、長時長的影片生成大模型Vidu。論文其他作者均為TSAIL 課題組學生,其中何冠德和朱泓舟也參與了Vidu的開發,陳亦逍為清華大學計算機系大三本科生,李崇軒已經畢業,現任中國人民大學高瓴人工智慧學院副教授。

相關文章