AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
Apple MM1Team 再發新作,這次是蘋果影片生成大模型,關於模型架構、訓練和資料的全面報告,87 億引數、支援多模態條件、VBench 超 PIKA,KLING,GEN-3。
- 論文地址: https://arxiv.org/abs/2412.07730
- Hugging Face link: https://huggingface.co/papers/2412.07730
OpenAI 的 Sora 公佈了一天之後,在一篇由多位作者署名的論文《STIV: Scalable Text and Image Conditioned Video Generation》中,蘋果正式公佈自家的多模態大模型研究成果 —— 這是一個具有高達 8.7B 引數的支援文字、影像條件的影片生成模型。近年來,影片生成領域取得了顯著進展,尤其是基於 Diffusion Transformer (DiT) 架構的影片生成模型 Sora 的推出。儘管研究者已在如何將文字及其他條件融入 DiT 架構方面進行了廣泛探索,如 PixArt-Alpha 使用跨注意力機制,SD3 將文字與噪聲塊拼接並透過 MMDiT 模組應用自注意力等,但純文字驅動的影片生成(T2V)在生成連貫、真實影片方面仍面臨挑戰。為此,文字 - 影像到影片(TI2V)任務被提出,透過加入初始影像幀作為參考,提供了更具約束性的生成基礎。當前主要挑戰在於如何將影像條件高效地融入 DiT 架構,同時在模型穩定性和大規模訓練效率方面仍需創新。為解決這些問題,我們提出了一個全面、透明的白皮書,涵蓋了模型結構,訓練策略,資料和下游應用,統一了T2V和TI2V任務。- 提出 STIV 模型,實現 T2V 和 TI2V 任務的統一處理,並透過 JIT-CFG 顯著提升生成質量;
- 系統性研究包括 T2I、T2V 和 TI2V 模型的架構設計、高效穩定的訓練技術,以及漸進式訓練策略;
- 模型易於訓練且適配性強,可擴充套件至影片預測、幀插值和長影片生成等任務;
- 實驗結果展示了 STIV 在 VBench 基準資料集上的優勢,包括詳細的消融實驗和對比分析。
該研究不僅提升了影片生成質量,還為影片生成模型在未來多種應用場景中的推廣奠定了堅實基礎。STIV 基於 PixArt-Alpha 架構,透過凍結的變分自編碼器(VAE)將輸入幀轉換為時空潛變數,並使用可學習的 DiT 塊進行處理。文字輸入由 T5 分詞器和內部訓練的 CLIP 文字編碼器處理。此外,該研究還對架構進行了以下最佳化:- 時空注意力分解:採用分解的時空注意力機制,分別處理空間和時間維度的特徵,這使得模型能夠複用 T2I 模型的權重,同時降低了計算複雜度。
- 條件嵌入:透過對影像解析度、裁剪座標、取樣間隔和幀數等元資訊進行嵌入,並結合擴散步長和文字嵌入,生成一個統一的條件向量,應用於注意力層和前饋網路。
- 旋轉位置編碼(RoPE):利用 RoPE 提升模型處理時空相對關係的能力,適配不同解析度的生成任務。
- 流匹配目標:採用流匹配(Flow Matching)訓練目標,以更優的條件最優傳輸策略替代傳統擴散損失,提升生成質量。
- 穩定訓練策略:透過在注意力機制中應用 QK-Norm 和 sandwich-norm,以及對每層的多頭注意力(MHA)和前饋網路(FFN)進行歸一化,顯著提升了模型訓練穩定性。
- 高效訓練改進:借鑑 MaskDiT 方法,對 50% 的空間 token 進行隨機掩碼處理以減少計算量,並切換最佳化器至 AdaFactor,同時使用梯度檢查點技術顯著降低記憶體需求,支援更大規模模型的訓練。
簡單的幀替換方法
在訓練過程中,我們將第一個幀的噪聲潛變數替換為影像條件的無噪聲潛變數,然後將這些潛變數傳遞到 STIV 模組中,並遮蔽掉被替換幀的損失。在推理階段,我們在每次 擴散步驟中使用原始影像條件的無噪聲潛變數作為第一個幀的潛變數。
幀替換策略為 STIV 的多種應用擴充套件提供了靈活性。例如,當 c_I (condition of image)=∅ 時,模型預設執行文字到影片(T2V)生成。而當 c_I 為初始幀時,模型則轉換為典型的文字-影像到影片(TI2V)生成。此外,如果提供多個幀作為 c_I,即使沒有 c_T (condition of text),也可以用於影片預測。同時,如果將首尾幀作為 c_I提供,模型可以學習幀插值,並生成首尾幀之間的中間幀。進一步結合 T2V 和幀插值,還可以生成長時影片:T2V 用於生成關鍵幀,而幀插值則填補每對連續關鍵幀之間的中間幀。最終,透過隨機選擇適當的條件策略,可以訓練出一個能夠執行所有任務的統一模型。
如前所述,幀替換策略為訓練不同型別的模型提供了高度靈活性。我們在此展示其具體應用,即同時訓練模型以執行文字到影片(T2V)和文字 - 影像到影片(TI2V)任務。在訓練過程中,我們隨機丟棄影像條件 cI 和文字條件 cT,類似於 T2V 模型中僅對文字條件隨機丟棄的方式。無分類器引導(Classifier-Free Guidance, CFG)在文字到影像生成中表現出色,可以透過將機率質量引導到高似然區域來顯著提升生成質量。在此基礎上,我們提出了聯合影像 - 文字無分類器引導(JIT-CFG),同時利用文字和影像條件進行引導,其速度估計公式為:其中 s 為引導比例。當 c_I=∅ 時,該方法退化為標準的 T2V 無分類器引導。儘管可以像 InstructPix2Pix 所述引入兩個獨立的引導比例,以平衡影像和文字條件的強度,我們發現兩步推理方法已經能夠取得優異效果。此外,使用兩個引導比例會增加一次前向傳遞,從而提高推理成本。實驗證明影像條件隨機丟棄結合 JIT-CFG 不僅能自然地實現多工訓練,還有效解決了高解析度影片生成模型訓練的 “靜止” 問題。我們推測,影像條件隨機丟棄可以防止模型過度依賴影像條件,從而更好地捕捉影片訓練資料中的運動資訊。我們採用漸進式訓練策略,其流程如圖 4 所示。首先訓練一個文字到影像(T2I)模型,用以初始化文字到影片(T2V)模型;隨後,T2V 模型用於初始化 STIV 模型。為快速適應高解析度和長時訓練,我們在空間和時間維度中加入了插值的 RoPE 嵌入,並利用低解析度、短時長模型的權重進行初始化。值得注意的是,高解析度 T2V 模型同時結合了高解析度 T2I 模型和低解析度 T2V 模型的權重進行初始化。為了確保高質量的輸入資料,我們首先解決了原始影片中不一致的動作以及諸如切換和漸變之類的不必要過渡問題。利用 PySceneDetect,我們對影片幀進行分析,識別並分割出包含突兀過渡或漸變的場景。這一過程剔除了不一致的片段,確保影片片段在視覺上保持一致性,從而減少偽影並提升整體質量。隨後,我們提取了一系列初始特徵用於後續篩選,包括運動分數、美學分數、文字區域、幀高度、幀寬度、清晰度分數、時間一致性以及影片方向等。影片 - 文字對在訓練文字到影片生成模型中起著至關重要的作用。然而,許多影片資料集缺乏高質量的對齊字幕,並且通常包含噪聲或不相關內容。為此,我們在資料處理流程中引入了一個額外的影片字幕生成模組,用於生成全面的文字描述。我們主要探索了兩種方向:(1) 抽樣少量幀,應用影像字幕生成器生成字幕後,再使用大型語言模型(LLM)對生成的字幕進行總結;(2) 直接使用影片專用的 LLM 生成字幕。在初步嘗試了第一種方法後,我們發現兩個主要侷限性:一是影像字幕生成器只能捕捉單幀的視覺細節,導致缺乏對影片動作的描述;二是 LLM 在基於多幀字幕生成密集描述時可能會出現虛構現象(hallucination)。近期研究使用 GPT 家族模型建立微調資料集並訓練影片 LLM。為了在大規模字幕生成中平衡質量和成本,我們選擇了一種高效的影片字幕生成器。隨後,我們使用 LLM 對生成的字幕進行分類,並統計影片的類別分佈。為了比較不同字幕生成技術,我們開發了一個評估模組,用於評估字幕的豐富度和準確性。我們透過測量字幕中提及的唯一物件的多樣性來量化字幕的豐富度,並透過檢測虛構物件來評估準確性。受文字到影像評估方法的啟發,我們提出了 DSG-Video,用於驗證字幕中提到的物件是否真實出現在影片內容中。1. 首先,我們利用 LLM 自動生成針對字幕關鍵細節的問題,例如物件的身份、動作和上下文。舉例來說,給定一段提到 “沙發上坐著一隻貓” 的字幕,LLM 會生成問題,比如 “影片中是否有一隻貓?” 以及 “貓是否在沙發上?”2. 然後,我們使用多模態 LLM 回答這些物件驗證問題,透過評估影片中多個均勻取樣幀的每個參考物件的存在情況。對於每個生成的問題(例如,“該幀中是否有貓?”),多模態 LLM 檢查每個取樣幀並提供響應。如果對於某個問題,所有幀的響應都表明物件不存在,則我們將其分類為虛構物件。這一方法確保了對影片中每個物件的逐幀驗證。基於此,我們定義了兩個評估指標:- DSG-Video_i:虛構物件例項的比例(即提到的所有物件中被檢測為虛構的比例);
- DSG-Video_s:包含虛構物件的句子的比例(即所有句子中含虛構物件的比例)。
基於上述研究,我們將 T2V 和 STIV 模型從 600M 引數擴充套件到 8.7B。主要結果展示在表格中,與最新的開源和閉源模型對比後,證明了我們方法的有效性。具體而言,我們基於 Panda-70M 資料集中的 20,000 條經過篩選的影片,使用預訓練的影片生成模型進行了微調(SFT)。在預訓練階段採用了 MaskDiT 技術後,我們嘗試對模型進行無掩碼方式的微調(UnmaskSFT)。此外,我們還對 STIV 模型進行了時間插值微調,以提升生成影片的運動平滑度(+TUP)。表格列出了不同 T2V 模型在 VBench 上的對比結果,包括 VBench-Quality、VBench-Semantic 和 VBench-Total 分數。分析表明,擴充套件 T2V 模型的引數能夠提升語義理解能力。具體來說,當模型從 XL 增加到 XXL 和 M 時(三種模型尺度),VBench-Semantic 分數從 72.5 提升到 72.7,最終達到 74.8。這表明更大的模型在捕獲語義資訊方面表現更好。然而,對於影片質量的影響相對有限,VBench-Quality 僅從 80.7 提升至 82.1。這一發現表明,模型引數擴充套件對語義能力的提升大於對影片質量的影響。此外,將空間解析度從 256 提升到 512 時,VBench-Semantic 分數顯著提高,從 74.8 上升到 77.0。透過高質量的 SFT 資料微調模型,可以顯著提升 VBench-Quality 分數,從 82.2 提升到 83.9。在無掩碼條件下對模型進行微調時,語義分數略有提升。我們的最佳模型實現了 79.5 的 VBench-Semantic 分數,超越了 KLING、PIKA 和 Gen-3 等領先的閉源模型。結合時間插值技術後,我們的模型在質量評分方面超越了所有其他模型,達到了最新的行業標準。如表中所示,我們的模型在與最新方法的對比中表現出色。分析表明,儘管模型引數擴充套件提升了 I2V 分數,但對質量的影響較小。相比之下,提高解析度能夠顯著改善質量和 I2V 分數。這一趨勢表明,解析度的提高對於提升多工生成能力尤為關鍵。完整的分解維度結果見文章附錄。我們從 STIV-XXL 模型出發,訓練一個以前四幀為條件的文字 - 影片到影片模型(STIV-V2V)。實驗結果表明,在 MSRVTT 測試集和 MovieGen Bench 上,影片到影片模型的 FVD 分數顯著低於文字到影片模型。這表明影片到影片模型在生成高保真和一致性影片幀方面表現出色,尤其適用於自動駕駛和嵌入式 AI 等需要高質量生成的領域。我們提出了 STIV-TUP,一個時間插值模型,以 STIV-XL 為初始模型,並在具有時間間隔的連續幀上進行訓練,同時新增文字條件。實驗表明,STIV 可以在文字和影像條件下進行高質量的幀插值,並且在 MSRVTT 測試集中,使用文字條件稍微優於其他條件。此外,我們將時間插值器與主模型級聯,發現這種方法能夠提升生成質量,同時保持其他指標穩定。多視角生成旨在從給定的輸入影像建立新視角。這項任務對視角一致性要求較高,依賴於良好預訓練的影片生成模型。透過將影片生成模型適配為多視角生成,我們可以驗證預訓練是否有效捕獲了 3D 資訊,從而提升生成效果。我們使用某些新視角相機的定義,並以初始幀為給定影像,預測接下來的新視角幀。透過訓練一個 TI2V 模型並調整解析度和訓練步數,我們實現了與現有方法相當的表現,同時驗證了我們的時空注意力機制在保持 3D 一致性方面的有效性。我們開發了一種高效生成長影片的分層框架,包括兩種模式的訓練:(1) 關鍵幀預測,學習以較大時間間隔取樣的幀;(2) 插值幀生成,透過學習連續幀,並將首尾幀作為條件。在取樣階段,首先使用關鍵幀預測模式生成關鍵幀,再透過插值模式生成中間幀,從而實現長影片生成。更多關於模型結構、影像條件融合方法,訓練策略的各種消融實驗以及其他研究細節,請參考原論文。