AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
雷嘉暉,美國賓夕法尼亞大學計算機系博士生 (2020 - 今), 導師為 Kostas Daniilidis 教授,目前主要研究方向為四維動態場景幾何的建模表示和演算法以及應用。他在計算機視覺和機器學習頂會 (CVPR、NeurIPS、ICML、ECCV) 以第一或共一作者身份發表文章 7 篇。此前他本科 (2016-2020) 以專業第一名的成績畢業於浙江大學控制系,竺可楨學院混合班。
從任意單目影片重建可渲染的動態場景是計算機視覺研究領域的一個聖盃。本文中,賓夕法尼亞大學和史丹佛大學研究團隊嘗試向這一目標邁進一小步。
網際網路上有海量單目影片,其中蘊含了大量物理世界的資訊,但三維視覺仍缺乏行之有效的手段,將三維動態資訊從這些影片中提取出來,從而支撐未來三維大模型建模及理解動態物理世界。儘管重要,這個反問題極具挑戰性。
其一,真實拍攝的二維影片往往缺乏多視角資訊,因此不能利用多視角幾何進行三維重建,甚至在很多情況下無法透過已有軟體(如 COLMAP)求解相機位姿和內參。
其二,動態場景的自由度極高,其變形和長時間資訊融合的四維表示仍然不成熟,使這一困難的反問題更加複雜。
本文提出了一種新穎的神經資訊處理系統 —— 摩斯卡 (MoSca),只需提供一連串影片幀圖片,無需任何額外資訊,即可從 SORA 生成的影片、電影電視劇片段、網際網路影片和公開資料集的單目野生 (in-the-wild) 影片中重建可渲染的動態場景。
ArXiv地址: https://arxiv.org/pdf/2405.17421 程式碼 (近期將開源):www.github.com/JiahuiLei/MoSca 專案網站: www.cis.upenn.edu/~leijh/projects/mosca/ 影片 (bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4
方法概覽
為了克服上述的困難,摩斯卡首先利用了儲存在計算機視覺基石模型 (foundation models) 中的強先驗知識將問題解空間縮小。
具體而言,摩斯卡利用了單目有尺度的深度估計 (mono metric-depth) 模型 UniDepth、 影片任一點長時間跟蹤 (track any point) 模型 CoTracker、光流估計 (optical flow) 模型 RAFT 計算出的對極幾何誤差 (epipolar error), 以及預訓練語義模型 DINO-v2 提供的語義特徵。詳參論文 3.1 章節.
我們觀察到,大多數真實世界的動態變形本質上都是緊湊和稀疏的,其複雜度往往遠低於真實幾何結構的複雜度。比如,一個硬物體的運動可以用旋轉和平移表示,一個人的運動大致可以用多個關節的旋轉平移近似。
基於這一觀察,本文提出了一種新穎的緊湊動態場景表示 —— 四維運動腳手架 (4D Motion Scaffold),將上述基石模型輸出從二維提升至四維並進行融合,同時也融入物理啟發的變形正則化 (ARAP) 。
四維運動腳手架是一個圖,圖的每一個節點是一串剛體運動 (SE (3)) 軌跡,圖的拓撲結構是全域性考慮剛體運動軌跡曲線距離而構建的最近鄰邊。透過使用對偶四元數 (dual-quaternion) 在時空中平滑插值圖上節點的剛體軌跡,可表示空間中任意一點的變形。這一表示大大簡化了需解的運動引數。(詳見論文 3.2 章節)。
四維運動腳手架的另一個巨大優勢在於可以直接被單目深度和影片二維點跟蹤初始化,再透過高效的物理正則項最佳化求解出未知的遮擋點位置以及區域性座標系方向。詳參論文 3.3 章節.
有了四維運動腳手架,任何時刻的任何一點都可以被變形到任意目標時刻,這讓全域性融合觀測資訊變得可能。具體而言,影片每一幀都可以利用估計的深度圖反投影到三維空間並初始化三維高斯 (3DGS)。這些高斯被「繫結」在四維運動腳手架上,自由穿梭於任何時刻。想要渲染某一時刻的場景,只需將全域性所有其他時刻的高斯透過四維腳手架傳送到當前時刻融合即可。這一基於四維運動腳手架和高斯的動態場景表示可高效地被高斯渲染器最佳化(詳見論文 3.4 章節)。
最後值得一提的是,摩斯卡是一個無需相機內外參的系統。透過利用上述基石模型輸出的對極幾何誤差確定靜態背景掩碼,利用基石模型輸出的深度和點跟蹤,摩斯卡可以高效地最佳化重投影誤差,求解全域性集束最佳化 (bundle adjustment),從而直接輸出相機內參和位姿,並透過後續的渲染持續最佳化相機(詳見論文 3.5 章節)。
實驗結果
摩斯卡可以在 DAVIS 資料集影片中重建動態場景。值得注意的是,摩斯卡可靈活支援多種基於高斯的渲染器。除了原生的 3DGS 渲染器,本文還測試了近期的高斯表面重建渲染器 GOF (Gaussian Opacity Field),如圖中最右列的火車,GOF 可渲染出更高質量的 normal 和 depth。
摩斯卡在極具挑戰性的 IPhone DyCheck 資料集上取得了顯著提升,同時也在廣泛對比的 Nvidia 資料集上對比了其他方法。