AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文介紹了一篇由浙江大學章國鋒教授和商湯科技研究團隊聯合撰寫的論文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。
針對複雜場景的長距離場景生成的時空一致性問題,該研究團隊創新提出了一種解決方案 StarGen,其核心創新在於透過引入空間與時間雙重條件機制,將稀疏檢視的 3D 幾何資訊與影片擴散模型有機結合,緩解誤差累積。
StarGen 實現了多視一致的長影片生成,並且能夠支援稀疏檢視插值、圖生影片以及佈局驅動場景生成等多樣化任務。實驗結果表明,StarGen 在生成質量、一致性保持和場景擴充套件能力等方面均顯著優於現有方法。
近年來,隨著大規模模型的快速發展,3D 重建與生成技術取得了顯著進展,並逐漸呈現出互補融合的趨勢。在重建領域,基於大規模重建模型的方法顯著降低了對密集多視角資料採集的依賴,同時生成模型被有效應用於稀疏輸入視角下不可見區域的補全任務。在生成領域,3D 重建技術為 2D 生成模型向 3D 生成任務的遷移提供了重要支撐,具體表現為兩種技術路徑:其一是透過將 2D 機率分佈蒸餾為 3D 表示,其二是基於 2D 生成影像重建 3D 表示。然而,這些大規模重建與生成模型面臨一個關鍵性挑戰:在有限計算資源約束下,單次推理過程僅能處理有限數量的 Token。儘管現有一些研究提出了時間自迴歸方法,透過將當前影片片段的初始幀與前一生成片段的末尾幀進行條件關聯以實現長影片生成,但這類方法僅能在較短時間跨度內維持時序一致性。隨著生成過程的推進,誤差累積問題將導致空間一致性難以有效保持。目前與本文工作相關的新視角生成方法主要分為三類:重建模型和生成模型,以及結合重建與生成的混合方法。重建模型主要透過從多視角輸入中重建場景的幾何結構和外觀資訊來實現新視角生成。傳統幾何重建方法,如 NeRF 和 3D-GS,透過隱式或顯式表示對場景進行建模,在生成高質量新視角方面表現優異,但其對密集視角輸入的依賴限制了其適用性。基於前饋網路的重建方法,如 PixelNeRF 和 PixelSplat,透過從稀疏檢視直接推斷 3D 表示,降低了對密集輸入的需求,顯著提升了重建效率。然而,這類方法本質上仍侷限於重建任務,缺乏生成能力,仍然需要輸入影像覆蓋充分才能獲得完整的場景表達。生成模型透過學習輸入資料的分佈來生成影像或影片,主要包括生成對抗網路(GAN)和擴散模型的兩類方法。GAN 在早期取得了一定成功,但在跨幀或跨片段的全域性一致性方面表現不足。擴散模型透過逆向擴散過程生成高質量影像,並結合控制條件(如 ControlNet)實現對生成內容的精確約束。儘管擴散模型在影片生成任務中表現出色,透過全注意力機制(Full-Attention)能夠實現單段影片內的多檢視一致性,但由於計算資源的限制,現有方法難以實現長距離、高質量且多視一致的影片生成。近年來,重建與生成方法的結合逐漸受到關注,透過互補方式提升生成質量和一致性。代表性方法如 ViewCrafter,利用 Dust3r 從稀疏檢視中生成點雲,並將所有點雲投影到當前片段作為空間約束,從而實現多段生成影片的幾何一致性。然而,這種以點雲作為空間約束的方法會隨著生成影片的增長而累積點雲重建誤差,最終導致生成內容出現顯著偏差。此外,該方法需要訓練影片生成模型本身,限制了其擴充套件性和通用性。如圖 1 所示,StarGen 框架主要包括三部分:時空自迴歸框架、時空條件影片生成和下游任務實現。StarGen 透過滑動視窗的方式逐步實現長距離場景生成,每個視窗的生成既依賴於上一視窗的時間條件影像,也依賴於與當前視窗具有共視關係的空間相鄰影像。具體而言,StarGen 從前一視窗生成的關鍵幀中選擇影像作為時間條件,來保證當前生成結果和上一段影片在時間上的連續性。同時,從歷史視窗中提取與當前視窗具有最大共視區域的影像集合作為空間條件,保證長距離生成過程中各個影片間的多視一致。StarGen 透過引入大型重建模型(LRM)和影片擴散模型(VDM)實現高質量可控影片生成。具體流程如圖 2 所示:1. 空間條件處理:從空間條件影像中提取 3D 幾何資訊,並透過基於多視幾何的渲染方法生成目標視角的特徵圖。這些特徵圖隨後被壓縮到 VDM 的潛在空間中。2. 時間條件處理:將時間條件影像透過變分自編碼器(VAE)編碼為隱特徵,並與空間條件特徵融合,生成結合時空資訊的綜合特徵。3. 影片擴散生成:將融合後的時空特徵輸入影片擴散模型,透過 ControlNet 進行條件控制生成,生成當前視窗的高質量影像序列。- 稀疏檢視插值:透過結合時空條件,生成輸入影像之間的中間幀,同時支援精確的姿態控制;
- 圖生影片:以單張輸入影像為起點,逐幀生成實現長距離視角變化;
- 基於佈局的城市生成:結合深度圖和語義圖,透過 ControlNet 對佈局資訊進行精準約束,生成具有大規模場景一致性的城市場景。
為了確保生成內容的一致性和質量,StarGen 框架設計了三種損失函式:1. 深度損失:透過多視角約束最佳化重建深度圖的精度,從而提升空間條件的幾何一致性。2. 潛在損失:監督空間條件生成的潛在特徵與真實檢視特徵之間的差異,確保特徵空間的一致性。3. 擴散損失:最佳化擴散模型生成的潛在特徵與噪聲潛在變數之間的差異,增強生成序列的質量。在 RealEstate-10K 和 ACID 資料集上,StarGen 在 PSNR 指標上優於其他基於重建和生成的方法,同時在其他指標上達到了當前最先進的水平:特別是在輸入檢視幾乎無重疊的情況下,仍能生成合理的中間內容:1. 短影片生成:在測試集上生成 25 幀影片,StarGen 在所有指標(PSNR、SSIM、LPIPS)上表現最好。2. 長影片生成:與其他方法相比,StarGen 生成的長影片在視覺保真度和姿態精度上退化更少。實驗基於 OpenStreetMap 佈局資料生成城市場景,與 CityDreamer 方法相比,StarGen 生成的內容在佈局一致性和細節保真度上更優:透過逐步移除空間或時間條件等模組進行消融實驗,結果表明這兩種條件的結合對生成質量和一致性有顯著貢獻: