同時提升攝像機控制效率、影片質量,可控影片生成架構AC3D來了

机器之心發表於2025-01-14
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


可控的影片生成需要實現對攝像機的精確控制。然而,控制影片生成模型的攝像機運動(camera control)總是不可避免地伴隨著影片質量的下降。近期,來自多倫多大學、Vector Institute、Snap Research 和西蒙・弗雷澤大學(SFU)的研究團隊推出了 AC3D (Advanced 3D Camera Control)。AC3D 從基本原理出發,分析了攝像機運動在影片生成中的特點,並透過以下三方面改進了影片生成的效果和效率:

1. 低頻運動建模:研究發現影片中的攝像機運動具有低頻特性。研究者最佳化了訓練和測試的條件排程,加速了訓練收斂,同時提升了視覺和運動質量。

2. 攝像機資訊表示:透過研究無條件影片擴散變換器的表示,研究者觀察到其內部隱含地進行了攝像機姿態估計。將攝像機條件注入限制在特定子層,既減少干擾,又顯著降低了引數數量並提升訓練速度和視覺質量。

3. 資料集改進:透過加入包含 20,000 段動態影片的高質量靜態攝像機資料集,增強模型區分攝像機運動與場景運動的能力。這些發現促成了 AC3D 架構的設計,從而同時提升了攝像機控制的效率以及影片的質量,使得 AC3D 在具有攝像機控制的生成影片建模中達到了新的技術水平。同時提升攝像機控制效率、影片質量,可控影片生成架構AC3D來了
圖片
  • 論文標題:AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

  • 論文地址:arxiv.org/abs/2411.18673

  • 專案地址:snap-research.github.io/ac3d/

方法介紹

研究者首先搭建了文生影片擴散模型作為基礎模型,對該模型進行分析,從而得到攝像機控制的第一性原理。然後研究者基於這些原理設計了 AC3D。

基礎模型:影片擴散模型

AC3D 基於 VDiT(Video Diffusion Transformer)採用了標準的 Transformer 結構進行構建。VDiT 透過在變分自動編碼器(VAE)潛空間中執行擴散建模,從文字描述生成影片。模型架構包括:
  • 使用 T5 編碼器生成文字嵌入;

  • 透過交叉注意力機制將文字嵌入輸入 VDiT;

  • 在潛空間中採用流擴散引數化技術(Rectified Flow Diffusion)進行生成。

具體而言,研究者採用了一種標準設計,預訓練了一個具有 11.5B 引數的 Video DiT 模型。該模型包含 32 層,隱藏維度為 4,096,並在 CogVideoX 的潛空間中操作,並使用了 流擴散引數化技術(Rectified Flow Diffusion)。基礎模型在一個大規模影像和影片資料集上訓練,該資料集包含了文字註釋,解析度範圍從 17×144×256 到 121×576×1024。

攝像機運動的第一性原理分析

(1)分析 1:運動光譜體積(MSVs)分析

透過運動光譜體積(Motion Spectral Volumes, MSVs)分析,研究者發現攝像機引起的運動主要位於低頻段。與場景運動相比,攝像機運動更平滑且更少劇烈變化。並且,84% 的低頻運動資訊在擴散過程的前 10% 階段已經確定,後續不會再改變。基於這一觀察,研究者調整了訓練和測試的噪聲條件排程,將攝像機運動注入限制在早期噪聲階段進行訓練和推理。這一方法大幅減少了後期干擾,同時提升了影片的視覺質量和運動保真度。同時提升攝像機控制效率、影片質量,可控影片生成架構AC3D來了
(2)分析 2:線性探測的 VDiT 表徵

研究者透過線性探測實驗,在文生影片網路的每一層訓練一個線性層以預測攝像機引數。實驗結果顯示:

1. 無條件文生影片模型在中間層對攝像機姿態資訊預測最為準確;
2. 網路中間層對攝像機引數具有最佳表徵,說明模型在早期階段隱式地注入了攝像機位置資訊,並利用後續層指導其他視覺元素生成。

基於此發現,AC3D 將攝像機條件注入限制在前 8 層,從而減少了對其他視覺特徵表徵的干擾,顯著提升了訓練速度和生成質量。
圖片
(3)分析 3:資料集偏見的分析

傳統的具有相機引數的影片資料集(如 RealEstate10k)幾乎只有靜態場景。這種靜態場景影片導致模型難以區分攝像機運動與場景運動,也使得網路過擬合到靜態分佈上,從而降低了生成影片中文運動場景的質量。然而,在動態影片中預測攝像機運動依然沒有很好的開源解決方案。研究者另闢蹊徑,構建了一個包含 20,000 個動態場景但使用靜態攝像機拍攝的資料集。

這種混合動態場景靜態攝像機與靜態場景動態攝像機的資料集,顯著改善了模型的學習效果。訓練後,模型更能分離攝像機運動和場景運動,從而生成更加真實且動態的影片。

攝像機控制方法

為實現攝像機控制,研究者將 ControlNet 模組與 VDiT 結合,形成了 VDiT-CC(VDiT with Camera Control)。具體方法:

1. 用 Plücker 相機表徵,透過全卷積編碼器對攝像機軌跡進行編碼;

2. 使用輕量化的 128 維 DiT-XS 模組處理攝像機編碼,並類似 ControlNet 直接將攝像機特徵加入到影片特徵中進行融合;

3. 只在 256x256 的解析度中訓練攝像機運動注入,因為研究者發現攝像機運動屬於一種低頻資訊。在低解析度中訓練也可以推理在推理高解析度時實現精準相機控制。

4. 調整訓練和推理時的攝像機條件排程,僅覆蓋逆擴散軌跡的前 40%。這種噪聲調節平均將 FID 和 FVD 指標提升了 14%,並使攝像機跟蹤能力在 MSR-VTT 資料集上提高了 30%(該資料集用於評估模型對多樣化、超出微調分佈場景的泛化能力)。此外,這種方法還增強了整體場景的運動性,我們在實驗中對其進行了定性驗證。

5. 僅在前 8 個 DiT 塊中注入攝像機資訊,而將後續的 24 個 DiT 塊保持無條件狀態。這種設計能夠避免攝像機資訊與後續層的其他特徵表徵產生干擾,同時顯著減少訓練複雜度,提高模型的生成效率和質量。

其他改進:為了進一步提升模型的效能和攝像機控制能力,研究者引入了以下創新:

1. 一維時間編碼器:透過因果卷積,將高解析度攝像機軌跡資料轉換為低解析度表示。
2. 分離文字與攝像機引導:為文字和攝像機訊號獨立設計引導機制,分別調整每種輸入型別的權重。
3.ControlNet 反饋機制:透過交叉注意力,從影片向攝像機提供反饋,最佳化攝像機表示。
4. 移除攝像機分支的上下文資訊:消除上下文干擾,提高對攝像機軌跡的追蹤能力。

透過這些方法,AC3D 在攝像機控制效率和生成質量上取得了顯著突破,為高質量的文字生成影片提供了新的技術基準。
圖片
模型結果

研究者展示了一系列提示詞,不同攝像機軌跡下的可控影片生成(總時長 40 秒),透過這些影片可以直觀地觀察 AC3D 在攝像機控制上的表現。同時提升攝像機控制效率、影片質量,可控影片生成架構AC3D來了
Prompts:

1. 在一個藝術工作室中,一隻戴著貝雷帽的貓正在小畫布上作畫。
2. 在一個未來廚房中,宇航員熟練地用平底鍋烹飪。
3. 在一個舒適的廚房裡,一隻泰迪熊認真地洗碗。
4. 在一個熱帶海灘上,一隻金毛獵犬坐在沙灘上,興奮地吃著冰淇淋。
5. 在公園的長椅上,一隻松鼠用小爪子抓著一個多汁的漢堡,悠閒地吃著。
6. 在一個溫馨的咖啡館裡,一隻水獺熟練地操作著濃縮咖啡機。
7. 在一個別致的城市廚房裡,一隻戴著小廚師帽的貓正在揉麵團。
8. 在廚房裡,一名宇航員正在用平底鍋烹飪。
9. 在一個未來感十足的東京天台上,一隻戴著耳機的機械考拉在混音。
10. 穿著正式服裝的貓坐在棋盤旁,專注於下一步棋局策略。
11. 在一個廢墟中,一名孤獨的機器人正在尋找可利用的材料。
12. 穿著文藝復興服飾的小老鼠正優雅地吃著一塊乳酪。

總結

AC3D 對影片擴散模型中的攝像機運動進行系統性分析, 從而顯著提升控制的精度和效率。透過改進條件排程、針對特定層的攝像機控制以及更精確校準的訓練資料,模型在三維攝像機控制影片合成方面達到了最先進的效能,同時保持了高視覺質量和自然的場景動態。這項工作為文字生成影片中更精準和高效的攝像機控制奠定了基礎。未來的研究將專注於進一步克服資料侷限性,並開發適用於訓練分佈範圍外攝像機軌跡的控制機制。

相關文章