AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文地址:https://arxiv.org/abs/2412.17805
程式碼已開源:https://github.com/VideoVerses/VideoVAEPlus
方式 1 同時建模:透過將預訓練的 2D 空間 VAE 擴充套件為 3D VAE 實現,進行時間和空間的同步壓縮。然而,這種方法在捕捉時間動態時容易導致資訊混淆,影響生成質量。
方式 2 順序建模:先透過空間編碼器壓縮空間維度,再用時間編碼器壓縮時間資訊。但這種方式對時序細節的處理較為有限,容易出現時序一致性問題。
該研究的方法:該研究結合兩種方法的優勢,提出最優的時空建模策略。