「See Video, Get 3D」,智源開源無標註影片學習3D生成模型See3D

机器之心發表於2024-12-10

近日,著名 AI 學者、史丹佛大學教授李飛飛團隊 World Labs 推出首個【空間智慧】模型,僅輸入單張圖片,即可生成一個逼真的 3D 世界,這被認為是邁向空間智慧的第一步。

幾乎同時,國內智源研究院推出了首個利用大規模無標註的網際網路影片學習的 3D 生成模型 See3D---See Video, Get 3D。不同於傳統依賴相機引數(pose-condition)的 3D 生成模型,See3D 採用全新的視覺條件(visual-condition)技術,僅依賴影片中的視覺線索,生成相機方向可控且幾何一致的多視角影像。這一方法不依賴於昂貴的 3D 或相機標註,能夠高效地從多樣化、易獲取的網際網路影片中學習 3D 先驗。See3D 不僅支援零樣本和開放世界的 3D 生成,還無需微調即可執行 3D 編輯、表面重建等任務,展現出在多種 3D 創作應用中的廣泛適用性。

圖片 See3D 支援從文字、單檢視和稀疏檢視到 3D 的生成,同時還可支援 3D 編輯與高斯渲染。

相關的模型、程式碼、Demo 均已開源,更多技術細節請參考 See3D 論文。

  • 論文地址: https://arxiv.org/abs/2412.06699
  • 專案地址: https://vision.baai.ac.cn/see3d

效果展示

1. 解鎖 3D 互動世界:輸入圖片,生成沉浸式可互動 3D 場景,實時探索真實空間結構;「See Video, Get 3D」,智源開源無標註影片學習3D生成模型See3D
實時 3D 互動(備註:為了實現實時互動式渲染,當前對 3D 模型和渲染過程進行了簡化,離線渲染真實效果更佳)

2. 基於稀疏圖片的 3D 重建:輸入稀疏的 (3-6 張) 圖片,模型可生成一個精細化的 3D 場景。 「See Video, Get 3D」,智源開源無標註影片學習3D生成模型See3D「See Video, Get 3D」,智源開源無標註影片學習3D生成模型See3D 基於 6 張檢視的 3D 重建 「See Video, Get 3D」,智源開源無標註影片學習3D生成模型See3D
基於 3 張檢視的 3D 重建

3. 開放世界 3D 生成:根據文字提示,生成一副藝術化的圖片,基於此圖片,模型可生成一個虛擬化的 3D 場景。「See Video, Get 3D」,智源開源無標註影片學習3D生成模型See3D
開放世界 3D 生成樣例

4. 基於單檢視的 3D 生成:輸入一張真實場景圖片,模型可生成一個逼真的 3D 場景。「See Video, Get 3D」,智源開源無標註影片學習3D生成模型See3D
基於單張圖片的 3D 生成

研究動機

3D 資料具有完整的幾何結構和相機資訊,能夠提供豐富的多視角資訊,是訓練 3D 模型最直接的選擇。然而,現有方法通常依賴人工設計(designed artists)、立體匹配(stereo matching)或運動恢復結構(Structure from Motion, SfM)等技術來收集這些資料。儘管經過多年發展,當前 3D 資料的積累規模依然有限,例如 DLV3D (0.01M)、RealEstate10K (0.08M)、MVImgNet (0.22M) 和 Objaverse (0.8M)。這些資料的採集過程不僅耗時且成本高昂,還可能難以實施,導致其資料規模難以擴充套件,無法滿足大規模應用的需求。

與此不同,人類視覺系統無需依賴特定的 3D 表徵,僅透過連續多視角的觀察即可建立對 3D 世界的理解。單幀影像難以實現這一點,而影片因其天然包含多視角關聯性和相機運動資訊,具備揭示 3D 結構的潛力。更重要的是,影片來源廣泛且易於獲取,具有高度的可擴充套件性。基於此,See3D 提出 “See Video, Get 3D” 的理念,旨在透過影片中的多檢視資訊,讓模型像人類一樣,學習並推理物理世界的三維結構,而非直接建模其幾何形態。

方法介紹

為了實現可擴充套件的 3D 生成,See3D 提供了一套系統化的解決方案,具體包括:

1)資料集:團隊提出了一個影片資料篩選流程,自動去除源影片中多視角不一致或觀察視角不充分的影片,構建了一個高質量、多樣化的大規模多視角影像資料集 WebVi3D。該資料集涵蓋來自 1600 萬個影片片段的 3.2 億幀影像,可透過自動化流程隨網際網路影片量的增長而不斷擴充。「See Video, Get 3D」,智源開源無標註影片學習3D生成模型See3D

WebVi3D 資料集樣本展示

2)模型:標註大規模影片資料的相機資訊成本極高,且在缺乏顯式 3D 幾何或相機標註的情況下,從影片中學習通用 3D 先驗是更具挑戰的任務。為解決這一問題,See3D 引入了一種新的視覺條件 —— 透過向掩碼影片資料新增時間依賴噪聲,生成一種純粹的 2D 歸納視覺訊號。這一視覺訊號支援可擴充套件的多檢視擴散模型(MVD)訓練,避免對相機條件的依賴,實現了 “僅透過視覺獲得 3D” 的目標,繞過了昂貴的 3D 標註。
圖片 See3D 方法展示

3)3D 生成框架:See3D 學到的 3D 先驗能夠使一系列 3D 創作應用成為可能,包括基於單檢視的 3D 生成、稀疏檢視重建以及開放世界場景中的 3D 編輯等, 支援在物體級與場景級複雜相機軌跡下的長序列檢視的生成。
圖片
基於 See3D 的多視圖生成

優勢

a) 資料擴充套件性:模型的訓練資料來源自海量網際網路影片,相較於傳統 3D 資料集,構建的多檢視資料集 (16M) 在規模上實現了數量級的提升。隨著網際網路的持續發展,該資料集可持續擴充,進一步增強模型能力的覆蓋範圍。

b)相機可控性:模型可支援在任意複雜的相機軌跡下的場景生成,既可以實現場景級別的漫遊,也能聚焦於場景內特定的物體細節,提供靈活多樣的視角操控能力。

c) 幾何一致性:模型可支援長序列新視角的生成,保持前後幀檢視的幾何一致性,並遵循真實三維幾何的物理規則。即使視角軌跡發生變化,返回時場景依然保持高逼真和一致性。

總結

透過擴大資料集規模,See3D 為突破 3D 生成的技術瓶頸提供了新的思路,所學習到的 3D 先驗為一系列 3D 創作應用提供了支援。希望這項工作能夠引發 3D 研究社群對大規模無相機標註資料的關注,避免高昂的 3D 資料採整合本,同時縮小與現有強大閉源 3D 解決方案之間的差距。

相關文章