可靈,影片生成領域的佼佼者,近來動作不斷。繼釋出可靈 1.6 後,又公開了多項研究揭示影片生成的洞察與前沿探索 ——《快手可靈憑什麼頻繁刷屏?揭秘背後三項重要研究》。可靈近一年來的多次迭代展現出驚人的技術進步,讓我們看到了 AI 創作的無限可能,也讓我們思考影片生成技術面臨的挑戰。
影片作為一種時空連續的媒介,對時間維度的連貫性有很高的要求。模型需要確保影片中的每一幀畫面都能自然銜接,包括物體運動、光照變化等細節都需要符合現實世界的規律。另一個挑戰是使用者意圖在影片中的精確表達。當創作者想要實現特定的視覺效果時,僅依靠文字描述往往難以準確傳達他們的創作意圖。這兩個挑戰直接導致了影片生成的“抽卡率”高,使用者難以一次性獲得符合預期的生成結果。
針對這些挑戰,一個核心解決思路是:透過多模態的使用者意圖輸入來提升影片生成的可控性,從而提升成功率。可靈團隊沿著這一思路,在四個控制方向上做了代表性的探索:
三維空間控制:之前的影片生成往往侷限於單一視角,難以滿足複雜敘事需求。為此,團隊研究了 SynCamMaster ,實現了高質量的多機位同步影片生成。讓創作者能像專業導演一樣,透過多角度鏡頭切換來講述故事。
運動軌跡控制:3DTrajMaster 讓創作者能在三維空間中直觀地規劃和精確地控制物體運動軌跡,讓使用者輕鬆實現複雜的動態效果。
內容風格控制:StyleMaster 確保了生成影片在保持時間連貫性的同時,能夠統一呈現特定的藝術風格,為創作者提供了更豐富的藝術表現手法。
互動控制:GameFactory 使用少量 MineCraft 動作資料就能實現互動式遊戲體驗。結合影片生成的開放域生成,展示了影片生成技術在遊戲創作中的廣闊應用前景。
這一系列研究成果充分展現了可靈在影片生成領域的系統性探索。透過更好地理解和整合多模態使用者意圖,降低生成“抽卡率”,可靈正在逐步實現讓 AI 影片創作更加精確、可控且易用的目的。
Sora、可靈等影片生成模型令人驚豔的效能表現使得創作者僅依靠 AI 就能夠創作出好的影片。然而,我們所常見的大熒幕上的電影通常是由多個攝像機同步拍攝後再剪輯而成的,導演可以根據人物情緒變化或故事情節發展切換鏡頭,以達到更好的視覺效果。例如,在拍攝兩人交談的場景時,鏡頭通常根據說話人在兩人間切換,並在交談結束後切換到對整個場景拍攝的鏡頭。而如今的影片生成模型均無法實現 “多機位同步” 影片生成,限制了 AI 影視製作的能力。近期,可靈研究團隊在 “多視角同步影片生成” 領域做出了首次嘗試,推出了基於文字的 “多視角同步” 影片生成模型 SynCamMaster,該模型可以根據使用者提供的文字描述和相機位姿資訊,生成時序同步的多段不同視角影片。SynCamMaster 支援多種相機視角變化,例如改變相機方位角、俯仰角、距離遠近等,在 AI 影視製作、虛擬拍攝等場景有較強的應用價值。此外、該工作提出了多視角同步影片資料集 SynCamVideo-Dataset 用於多視角影片生成的研究。- 論文標題:SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
- 專案主頁:https://jianhongbai.github.io/SynCamMaster
- 程式碼:https://github.com/KwaiVGI/SynCamMaster
- 論文:https://arxiv.org/abs/2412.07760
1. SynCamMaster 效果展示:支援多種相機視角變化可以觀察到,SynCamMaster 可以根據使用者輸入的文字描述及相機位姿生成多段時序同步影片,在保證同步性的同時支援大幅度的視角變化。如下圖所示,SynCamMaster 基於預訓練的 “文字 - 影片” 生成模型,在每個 Transformer Block 中插入兩個新元件:- 相機編碼器:將歸一化的相機外部引數投影到嵌入空間;
- 多視角同步模組:在相機相對位姿的指導下進行多視角特徵融合。
在訓練時只更新新元件引數,預訓練的文字 - 影片生成模型保持凍結狀態。- SynCamMaster 率先實現了多機位真實世界影片生成。設計了一種即插即用的 “多視角同步” 模組以實現任意視角下的同步影片生成。
- 提出了一種多種資料混合的訓練正規化,以克服多機位影片資料的稀缺性並使得模型具備較好的泛化能力。並公開了多視角同步影片資料集 SynCamVideo-Dataset 用於多視角影片生成的研究。
資料收集過程。圖(a),從鏡頭運動的影片中取樣影片幀以構造 “多視角影像資料”,示例影像來自 DL3DV-10K;圖(b),透過 Unreal Engine 5 渲染的 “多視角影片資料”;圖(c),利用通用影片資料作為正則化。SynCamVideo 資料集是使用 Unreal Engine 5 渲染的多攝像機同步影片資料集。它包含 1,000 個不同的場景,每個場景由 36 個攝像機拍攝,總計 36,000 個影片。SynCamVideo 以 50 種不同的動物為 “主要拍攝物件”, 20 個不同地點作為背景。在每個場景中,從 50 種動物中選擇 1-2 個拍攝物件並沿著預定義的軌跡移動,背景從 20 個位置中隨機選擇,36 個攝像機同時記錄拍攝物件的運動。渲染場景示例如下:每個場景中的攝像機都放置在距離場景中心 3.5m - 9m 的半球形表面上。為了最小化渲染影片與真實世界影片的域偏移,研究者將每個攝像機的仰角限制在 0°- 45° 之間,方位角限制在 0°- 360° 之間。每個攝像頭都在上述約束條件下隨機取樣,而不是在各個場景中使用相同的攝像頭位置。上圖顯示了一個示例,其中紅星表示場景的中心點(略高於地面),影片由同步相機渲染,以捕捉主要拍攝物件(在本例中是一隻山羊和一隻熊)的運動。上圖中研究者將 SynCamMaster 與最先進的方法進行了比較。研究者使用 SynCamMaster 合成多視角影像(M.V. 影像)作為基線方法的參考影像(以藍色框表示)。據觀察,基線方法無法生成多視角同步影片。例如,藍色巴士可能在一個鏡頭中停留在原地,在另一個鏡頭中向前移動。而 SynCamMaster 可以合成符合相機姿勢和文字提示的檢視對齊影片。更多結果請訪問專案主頁(https://jianhongbai.github.io/SynCamMaster)檢視。在本文中,研究者提出了 SynCamMaster ,一種基於文字和相機位姿的 “多視角同步” 影片生成模型,該模型可以根據使用者提供的文字描述和相機位姿資訊,生成符合文字描述的時序同步的多段不同視角影片。SynCamMaster 支援多種相機視角變化,例如改變相機方位角、俯仰角、距離遠近等。此外、研究者還提供了多視角同步影片資料集 SynCamVideo-Dataset 用於多視角影片生成的研究。精準控制影片中物體的 3D 軌跡 ——3DTrajMaster除了多機位同步生成,虛擬拍攝的真正落地亟需精準的物體可控性。試想一下,如果我們可以精準控制影片中每個主體的 3D 時空位置,那麼就可以拍攝出針對物體的定製化特效,進一步促進 AI 電影的進展。可靈研究團隊提出了 3DTrajMaster 的多物體 3D 位姿可控的影片生成模型。該方法透過逐主體相對應的 3D 軌跡控制影片生成中多個主體在 3D 空間中的運動,相比與傳統在 2D 空間的表徵 (邊界框、點軌跡等) 是一種更本真的物體運動建模方式。這裡的 3D 軌跡指可控制 6 個自由度,即控制主體的 3D 位置和朝向。- 論文標題:3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation
- 專案主頁:http://fuxiao0719.github.io/projects/3dtrajmaster
- 程式碼:https://github.com/KwaiVGI/3DTrajMaster
- 論文:https://arxiv.org/pdf/2412.07759
以下展示了 3DTrajMaster 的廣泛特徵:(1) 泛化到多種主體:包括人、動物、機器人、飛機、汽車,甚至抽象的火焰、雲霧等。(2) 泛化到多樣的背景:如下所示可以將一隻考拉以相同的 3D 軌跡生成在城市、森林、沙漠、海灘、冰川、洞穴等不同的場景中。(3) 生成複雜的 3D 軌跡:支援多個主體的 3D 遮擋、180 度 / 連續 90 度的轉彎、大角度的變向、原地轉圈等(4) 精細化控制物體細節:可改變人的穿著、髮型、身材、性別、佩戴等,也可以改變其它物體 (如動物、車) 的整體定性描述3DTrajMaster 的訓練涵蓋兩個階段。首先,它透過訓練 LoRA (具體為基模型的自注意力、跨注意力和線性對映層) 作為域自適應器來減輕訓練資料集(透過 UE 引擎採集的運動軌跡 - 影片 pair)帶來的負面影響。其次,該方法選擇了一種通用的方法在 2D 空間自注意力層之後插入 object injector 來插入成對的文字實體提示和 3D 軌跡。具體而言,實體透過文字編碼器被投影到隱空間向量中,並利用可學習的位姿編碼器投影成和 3D VAE 編碼後對齊的位姿序列,然後與實體嵌入融合形成實體和軌跡的對應關係。這種對應關係嵌入與影片隱空間向量相連線,並被饋送到門控自注意力層進行進一步的運動融合。最後,修改後的隱向量返回到 DiT 塊中的剩餘層中。在推理階段,該方法將退火取樣策略融入了 DDIM 取樣:在較為初始的推理過程步驟中,主體和相對應的軌跡插入模型中以確定總體的多物體運動軌跡,而在後續階段它們被捨棄,模型退回到最基礎的文生影片過程。3. UE 渲染的標註物體 6DoF 位姿的資料集合 360°-Motion高質量的訓練資料對於模型的訓練至關重要,但是目前從通用的影片資料中標註物體的 6DoF 位姿資料非常困難:- 較低的物體多樣性和質量:高質量併成對的主體和軌跡大多受限於人和自動駕駛車輛,不同資料集在 3D 空間的分佈差異非常大,而且主體可能過於冗餘。在一些資料集中,人的分佈佔了大量的比重,會導致域外的主體泛化問題。
- 低質量 / 失敗的位姿估計:對於非剛性物體的運動 6D 物體,只有人透過 SMPL 模型被廣泛地研究。目前仍然缺乏通用的 6DoF 位姿估計器。
為了解決這個問題,可靈研究團隊透過 UE 平臺構建了合成的 360°-Motion 資料集。如下圖所示,團隊首先收集了 70 個可驅動運動的人和動物 3D 資產,並進一步用 GPT-4V 給資產打上相應的文字標註。然後,研究團隊採用了 GPT 生成複雜的多物體運動軌跡 (含 3D 位置和朝向,在 5×5 平方米的運動平臺上),涵蓋 96 個運動軌跡模版。其次,研究團隊收集了 9 個 3D UE 平臺 (涵蓋城市、沙漠、森林和 5 個投影到 3D 空間的 HDRIs),並將 3D 資產與生成的 3D 軌跡組合放置在 UE 平臺中。最後安置 12 個相機環繞拍攝多物體的運動,獲得 54,000 組訓練影片資料。相比 SOTA 的基準 Direct-a-Video、MotionCtrl、Tora 等,3DTrajMaster 可以在 3D 空間進一步控制物體的位置和朝向,同時它可以學到多主體和相對應的 3D 軌跡對應關係,而這是之前 2D 運動表徵的方法普遍缺失的。當多物體在 3D 空間中存在運動的遮擋,這個難點會變得更加突出。相比逐場景最佳化的 TC4D,3DTrajMaster 這種 feed-forward 的方法可以實現 700× 的提速,並且具有更高質量的現實畫質和渲染更多樣的背景。3DTrajMaster 展示了強大的影片生成和 3D 互動的可能性。在未來,更復雜的運動表徵 (如人跳舞、揮舞手等區域性運動,一個男人舉起一隻狗等互動運動) 也可以透過類似的 structured 運動表徵進行建模,其中核心的是構建高質量的運動表徵資料。同時,更加複雜的文字提示詞輸入和更多的主體輸入也是可以進一步改進的點,這些都將為高質量可控的虛擬影片拍攝打下基礎。獨特的影片藝術風格呈現 ——StyleMaster創作者們不再滿足於簡單的影片生成,而是追求更具藝術性和個性化的創作表達。風格控制其能夠賦予影片獨特的藝術氣質。然而,現有的影片風格化方法面臨著兩個主要挑戰:難以準確提取和遷移參考影像的風格特徵,以及在影片風格轉換時出現時序不連貫、內容難以保持的問題,這嚴重限制了 AI 影片藝術創作的表現力。StyleMaster,透過進一步提升參考影像中的風格和內容的解耦能力來提升生成影片中的風格準確度,引入內容控制模組以及運動提升模組來改善內容一致性與時序穩定性。- 論文標題:StyleMaster: Stylize Your Video with Artistic Generation and Translation
- 論文連結:https://arxiv.org/abs/2412.07744
- 專案主頁:https://zixuan-ye.github.io/stylemaster/
- 程式碼倉庫:https://github.com/KwaiVGI/StyleMaster
以下展示了 StyleMaster 的多方面效能。影片風格遷移:給定任意源影片,StyleMaster 能在內容保持良好的前提下根據提供的風格參考圖將其轉換至對應風格。並且在時序上保持良好的一致性和流暢度。風格化影片生成:給定文字 prompt 和風格影像,StyleMaster 能生成風格準確、文字對齊的高質量影片。並且,對於不同的 prompt 和風格圖都具有良好的泛化性。影像風格遷移:與其他影像風格遷移方法相比,StyleMaster 能夠更好地對齊參考圖中的風格,例如使用諾貝爾獲獎圖風格對人物風格化時,StyleMaster 能更好地將圖片轉變為線條風,而不是保留過多細節,僅僅改變影像的顏色。 StyleMaster 提出創新解決方案來完成風格資料集的自動構建。透過 model illusion(模型幻覺)技術,預訓練的文生圖模型可自動生成配對資料。具體透過預定義的物體列表和風格描述列表,隨機選擇風格和物體生成配對影像。由於生成的配對影像本質是畫素重排,能完美保證風格一致性,且完全自動化。- 全域性風格提取:基於對比學習與幻覺資料集的提取器。使用 CLIP 提取初始影像特徵,透過 MLP 投影層轉換為全域性風格表示。採用三元組損失函式訓練,將同對影像作為正樣本,其他影像作為負樣本。
- 區域性紋理保持:提取 CLIP patch 特徵,透過計算與文字提示的相似度,選擇相似度較低的 patch 作為紋理特徵。透過 Q-Former 結構處理,更新查詢 token 並整合特徵,既保留區域性紋理資訊,又避免內容洩露。
- 動態質量最佳化:使用 MotionAdapter 的時序注意力模組,透過調節 α 引數控制動態效果。α=0 保持原始效果,α=1 生成靜態影片,α=-1 增強動態範圍。
- 精確內容控制:採用 gray tile ControlNet 設計,移除顏色資訊避免對風格遷移的干擾。複製一半 vanilla DiT 塊作為控制層,與風格 DiT 模組特徵相加,確保內容和風格平衡。
影片模型在影片生成和物理模擬中的潛力使其成為未來遊戲引擎的有力候選者。AI 驅動的引擎能夠透過自動化生成遊戲內容,顯著減少傳統開發中的工作量。然而,現有研究多侷限於過擬合特定遊戲(如《DOOM》、《Minecraft》、《Super Mario Bros》等),限制了模型建立全新遊戲場景的能力,同時高昂的動作標註資料成本進一步增加了實現泛化的難度。因此,提升場景泛化能力成為生成式遊戲引擎發展的關鍵方向。為解決這一挑戰,可靈研究團隊提出了 GameFactory 框架。透過結合少量 Minecraft 的高質量動作標註資料與預訓練影片生成模型,GameFactory 探索了一條基於在開放域非標註影片資料上預訓練的經濟可行路徑。該方法能夠將從小規模標註資料集中學習到的物理控制知識泛化到開放域場景,不僅顯著提升了場景泛化能力,還為解決具身智慧、自動駕駛等複雜領域的問題帶來了更多可能。其核心創新包括多階段解耦訓練策略,將遊戲風格學習與動作控制學習分離,避免生成內容受特定風格限制;自迴歸生成機制,支援無限長的動作可控影片生成,滿足持續遊戲的實際需求;以及開源高質量資料集 GF-Minecraft,有效克服傳統標註資料中的人類偏差,為未來的研究提供了堅實基礎。- 論文標題:GameFactory: Creating New Games with Generative Interactive Videos
- 專案主頁:https://vvictoryuki.github.io/gamefactory
- 程式碼:https://github.com/KwaiVGI/GameFactory
- 論文:https://arxiv.org/abs/2501.08325
- GF-Minecraft 訓練資料集: https://huggingface.co/datasets/KwaiVGI/GameFactory-Dataset
(1)開放域的可控遊戲影片生成能力。如下所示,利用預訓練影片大模型的強大生成先驗,GameFactory 將能夠生成訓練時沒有見過的遊戲場景,並泛化遊戲動作的控制能力。(2)無限長可控遊戲影片的生成能力。如下所示,展示了 GameFactory 透過自迴歸的方式生成幾十秒可控遊戲長影片的效果。 下圖展示了 GameFactory 的設計思想,如何利用預訓練的大型影片生成模型與動作控制模組生成新遊戲。藍色上半部分展示了透過海量無標註開放領域資料預訓練的大型影片生成模型,具備強大的開放領域影片生成能力,提供豐富的生成基礎;綠色下半部分則展示了從少量標註的遊戲動作資料中訓練出的動作控制模組如何與預訓練模型結合,生成受動作控制的動態內容。透過將兩者有機結合,GameFactory 能夠實現從影片生成到動作控制的泛化,最終支援建立新遊戲及其他受控場景的開發。下圖展示的是動作控制模組,其是影片生成模型實現互動性的關鍵設計。如圖中(a)部分所示,透過與 Transformer 結構的深度結合,讓模型具備響應使用者輸入的能力。如圖中(b)部分所示,模組針對連續的滑鼠訊號和離散的鍵盤指令設計了不同的處理機制。此外如圖(c)中所示,模組引入了動作分組機制,解決了動作訊號與潛在特徵在時間粒度上的不匹配問題,同時設計了了滑動視窗機制捕捉延遲動作對多幀畫面的影響。透過這一架構,影片生成模型不僅能生成高質量內容,還能動態響應使用者指令,為互動式影片和遊戲生成帶來新的可能。下圖展示了一個分階段的訓練策略,旨在實現動作控制與開放領域內容生成的有效結合。- Phase #0 透過在開放領域資料上預訓練影片生成模型,為模型提供可泛化的生成能力;
- Phase #1 使用遊戲資料進行 LoRA 微調,學習特定的遊戲風格;
- Phase #2 在固定模型其他部分的情況下,訓練動作控制模組,實現與風格無關的動作響應能力;
- Phase #3 透過推理結合動作控制模組和預訓練模型,生成受動作訊號控制的開放領域影片內容。
這種設計將風格學習與動作控制分離,不僅保留了開放領域的生成能力,還透過動作控制模組實現了場景泛化和使用者指令的響應,充分展示了模型的靈活性和適應性。下圖展示了自迴歸影片生成的過程,包括訓練階段和推理階段。在訓練階段(左圖),模型使用前面若干幀作為條件幀,預測後續的幀。條件幀的數量是隨機選定的,損失函式專注於預測噪聲幀的部分,從而最佳化模型的生成能力。在推理階段(右圖),模型透過自迴歸的方式逐幀生成影片內容,每次使用歷史影片的潛在特徵作為條件,逐步生成新的幀。這樣的設計保證了訓練時的多樣性和推理時生成內容的連貫性,能夠生成高質量、動態一致的影片內容。GF-Minecraft 資料集的設計充分考慮了動作可控影片生成的核心需求,具有以下顯著特點。首先,資料集透過可自定義的動作序列實現了低成本的大規模資料採集,同時確保動作序列具有隨機性和多樣性,從而覆蓋了低機率但關鍵的動作組合。其次,Minecraft 平臺的多樣化開放世界環境以及豐富的動作空間為捕捉場景物理動態提供了理想條件。為了增強多樣性,資料採集預設了三種生物群落(森林、平原、沙漠)、三種天氣狀態(晴天、下雨、雷暴)和六種時間段(如日出、正午、午夜),生成了超過 2,000 個影片片段,每個片段包含 2,000 幀,並配有由 MiniCPM-V 多模態語言模型生成的文字描述。這些設計使得該資料集能夠有效支援動作可控和場景泛化的影片生成模型訓練,尤其在多樣性和場景描述的精細度上提供了極大優勢。下面是一個資料標註的示例:展望未來,可靈研究團隊提出的 GameFactory 不僅是一個用於建立新遊戲的工具,更是一個具有廣泛應用潛力的通用世界模型。該模型能夠將從小規模標註資料集中學到的物理知識泛化到開放領域場景,解決包括自動駕駛和具身智慧等領域中的關鍵挑戰,這些領域同樣面臨缺乏大規模動作標註資料集的問題。在本文中,研究團隊透過 GameFactory 提出了一種利用生成式互動影片來建立新遊戲的框架,填補了現有研究在場景泛化能力上的重要空白。然而,生成式遊戲引擎的研究仍面臨諸多挑戰,例如關卡和玩法的多樣性設計、玩家反饋系統、遊戲內物件的操控、長上下文記憶,以及實時遊戲生成等複雜問題。GameFactory 是可靈在這一領域邁出的第一步,未來將繼續努力,向實現一個全面的生成式遊戲引擎目標邁進。影片生成本身時空建模難度高,準確體現使用者意圖在影片中是一項巨大的挑戰,這些挑戰導致影片生成的 “抽卡率” 較高。為了應對這些問題,核心思路是透過多模態的使用者意圖輸入來提升影片生成的可控性和精確性。可靈在三維空間控制(SynCamMaster)、運動軌跡控制(3DTrajMaster)和內容風格控制(StyleMaster)三個方向上進行了具有代表性的探索。此外,透過多輪次的多模態使用者意圖互動(GameFactory),展示了影片生成技術在遊戲創作等領域的廣闊應用前景。這些技術透過更好地理解和整合多模態使用者意圖來降低影片生成的 “抽卡率”。可靈正在用技術創新推動著影片生成領域走向更遠的未來。在這個充滿無限可能的領域,期待看到更多令人欣喜的發展,讓 AI 創作的邊界不斷擴充,讓創作者能夠更自由地表達他們的想象力;讓影片生成能夠為更多領域帶來新探索的可能性。歡迎大家在可靈 AI 平臺體驗最新最強的影片生成技術:https://klingai.kuaishou.com/。歡迎大家關注可靈 AI 研究的最新進展,一起思考、探索影片生成的新前景。歡迎大家加入可靈 AI 團隊(歡迎聯絡 zhangluowa@kuaishou.com),共同創造未來的影片生成!