近日,著名 AI 學者、史丹佛大學教授李飛飛團隊 World Labs 推出首個【空間智慧】模型,僅輸入單張圖片,即可生成一個逼真的 3D 世界,這被認為是邁向空間智慧的第一步。
幾乎同時,國內智源研究院推出了首個利用大規模無標註的網際網路影片學習的 3D 生成模型 See3D---See Video, Get 3D。不同於傳統依賴相機引數(pose-condition)的 3D 生成模型,See3D 採用全新的視覺條件(visual-condition)技術,僅依賴影片中的視覺線索,生成相機方向可控且幾何一致的多視角影像。這一方法不依賴於昂貴的 3D 或相機標註,能夠高效地從多樣化、易獲取的網際網路影片中學習 3D 先驗。See3D 不僅支援零樣本和開放世界的 3D 生成,還無需微調即可執行 3D 編輯、表面重建等任務,展現出在多種 3D 創作應用中的廣泛適用性。
論文地址: https://arxiv.org/abs/2412.06699 專案地址: https://vision.baai.ac.cn/see3d
WebVi3D 資料集樣本展示