CVPR 2024滿分論文：浙大提出基於可變形三維高斯的高質量單目動態重建新方法

單目動態場景（Monocular Dynamic Scene）是指使用單眼攝像頭觀察並分析的動態環境，其中場景中的物體可以自由移動。單目動態場景重建對於理解環境中的動態變化、預測物體運動軌跡以及動態數字資產生成等任務至關重要。

隨著以神經輻射場（Neural Radiance Field, NeRF）為代表的神經渲染的興起，越來越多的工作開始使用隱式表徵（implicit representation）進行動態場景的三維重建。儘管基於 NeRF 的一些代表工作，如 D-NeRF，Nerfies，K-planes 等已經取得了令人滿意的渲染質量，他們仍然距離真正的照片級真實渲染（photo-realistic rendering）存在一定的距離。

來自浙江大學、位元組跳動的研究團隊認為，上述問題的根本原因在於基於光線投射（ray casting）的 NeRF pipeline 透過逆向對映（backward-flow）將觀測空間（observation space）對映到規範空間（canonical space）無法實現準確且乾淨的對映。逆向對映並不利於可學習結構的收斂，使得目前的方法在 D-NeRF 資料集上只能取得 30 + 級別的 PSNR 渲染指標。

為了解決這一問題，該研究團隊提出了一種基於光柵化（rasterization）的單目動態場景建模 pipeline，首次將變形場（Deformation Field）與 3D 高斯（3D Gaussian Splatting）結合，實現了高質量的重建與新視角渲染。研究論文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被計算機視覺頂級國際學術會議 CVPR 2024 接收。值得一提的是，這是首個使用變形場將 3D 高斯擴充到單目動態場景的工作。

專案主頁：https://ingra14m.github.io/Deformable-Gaussians/
論文連結：https://arxiv.org/abs/2309.13101
程式碼：https://github.com/ingra14m/Deformable-3D-Gaussians

實驗結果表明，變形場可以準確地將規範空間下的 3D 高斯前向對映（forward-flow）到觀測空間，不僅在 D-NeRF 資料集上實現了 10 + 的 PSNR 提高，而且在相機位姿不準確的真實場景也取得了渲染細節上的增加：

^{圖 1 HyperNeRF 真實場景的實驗結果。}

相關工作

動態場景重建一直以來是三維重建的熱點問題。隨著以 NeRF 為代表的神經渲染實現了高質量的渲染，動態重建領域湧現出了一系列以隱式表徵作為基礎的工作。D-NeRF 和 Nerfies 在 NeRF 光線投射 pipeline 的基礎上引入了變形場，實現了穩健的動態場景重建。TiNeuVox，K-Planes 和 Hexplanes 在此基礎上引入了網格結構，大大加速了模型的訓練過程，渲染速度有一定的提高。然而這些方法都基於逆向對映，無法真正實現高質量的規範空間和變形場的解耦。

3D 高斯潑濺是一種基於光柵化的點雲渲染 pipeline。其 CUDA 定製的可微高斯光柵化 pipeline 和創新的緻密化使得 3D 高斯不僅實現了 SOTA 的渲染質量，還實現了實時渲染。Dynamic 3D 高斯首先將靜態的 3D 高斯擴充到了動態領域。然而，其只能處理多目場景非常嚴重地制約了其應用於更通用的情況，如手機拍攝等單目場景。

研究思想

Deformable-GS 的核心在於將靜態的 3D 高斯擴充到單目動態場景。每一個 3D 高斯攜帶位置，旋轉，縮放，不透明度和 SH 係數用於影像層級的渲染。根據 3D 高斯 alpha-blend 的公式，不難發現，隨時間變化的位置，以及控制高斯形狀的旋轉和縮放是決定動態 3D 高斯的決定性引數。然而，不同於傳統的基於點雲的渲染方法，3D 高斯在初始化之後，位置，透明度等引數會隨著最佳化不斷更新。這給動態高斯的學習增加了難度。

該研究創新性地提出了變形場與 3D 高斯聯合最佳化的動態場景渲染框架。具體來說，該研究將 COLMAP 或隨機點雲初始化的 3D 高斯視作規範空間，隨後透過變形場，以規範空間中 3D 高斯的座標資訊作為輸入，預測每一個 3D 高斯隨時間變化的位置和形狀引數。利用變形場，該研究可以將規範空間的 3D 高斯變換到觀測空間用於光柵化渲染。這一策略並不會影響 3D 高斯的可微光柵化 pipeline，經過其計算得到的梯度可以用於更新規範空間 3D 高斯的引數。

此外，引入變形場有利於動作幅度較大部分的高斯緻密化。這是因為動作幅度較大的區域變形場的梯度也會相對較高，從而指導相應區域在緻密化的過程中得到更精細的調控。即使規範空間 3D 高斯的數量和位置引數在初期也在不斷更新，但實驗結果表明，這種聯合最佳化的策略可以最終得到穩健的收斂結果。大約經過 20000 輪迭代，規範空間的 3D 高斯的位置引數幾乎不再變化。

研究團隊發現真實場景的相機位姿往往不夠準確，而動態場景更加劇了這一問題。這對於基於神經輻射場的結構來說並不會產生較大的影響，因為神經輻射場基於多層感知機（Multilayer Perceptron，MLP），是一個非常平滑的結構。但是 3D 高斯是基於點雲的顯式結構，略微不準確的相機位姿很難透過高斯潑濺得到較為穩健地矯正。

為了緩解這個問題，該研究創新地引入了退火平滑訓練（Annealing Smooth Training，AST）。該訓練機制旨在初期平滑 3D 高斯的學習，在後期增加渲染的細節。這一機制的引入不僅提高了渲染的質量，而且大幅度提高了時間插值任務的穩定性與平滑性。

圖 2 展示了該研究的 pipeline，詳情請參見論文原文。

^{圖 2 該研究的 pipeline。}

結果展示

該研究首先在動態重建領域被廣泛使用的 D-NeRF 資料集上進行了合成資料集的實驗。從圖 3 的視覺化結果中不難看出，Deformable-GS 相比於之前的方法有著非常巨大的渲染質量提升。

^{圖 3 該研究在 D-NeRF 資料集上的定性實驗對比結果。}

該研究提出的方法不僅在視覺效果上取得了大幅度的提升，在渲染的定量指標上也有著相應的改進。值得注意的是，研究團隊發現 D-NeRF 資料集的 Lego 場景存在錯誤，即訓練集和測試集的場景具有微小的差別。這體現在 Lego 模型鏟子的翻轉角度不一致。這也是為什麼之前方法在 Lego 場景的指標無法提高的根本原因。為了實現有意義的比較，該研究使用了 Lego 的驗證集作為指標測量的基準。

^{圖 4 在合成資料集上的定量比較。}

如圖 4 所示，該研究在全解析度（800x800）下對比了 SOTA 方法，其中包括了 CVPR 2020 的 D-NeRF，Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D，K-planes。該研究提出的方法在各個渲染指標（PSNR、SSIM、LPIPS），各個場景下都取得了大幅度的提高。

該研究提出的方法不僅能夠適用於合成場景，在相機位姿不夠準確的真實場景也取得了 SOTA 結果。如圖 5 所示，該研究在 NeRF-DS 資料集上與 SOTA 方法進行了對比。實驗結果表明，即使沒有對高光反射表面進行特殊處理，該研究提出的方法依舊能夠超過專為高光反射場景設計的 NeRF-DS，取得了最佳的渲染效果。

^{圖 5 真實場景方法對比。}

雖然 MLP 的引入增加了渲染開銷，但是得益於 3D 高斯極其高效的 CUDA 實現與我們緊湊的 MLP 結構，我們依舊能夠做到實時渲染。在 3090 上 D-NeRF 資料集的平均 FPS 可以達到 85（400x400），68（800x800）。

此外，該研究還首次應用了帶有前向與反向深度傳播的可微高斯光柵化管線。如圖 6 所示，該深度也證明了 Deformable-GS 也可以得到魯棒的幾何表示。深度的反向傳播可以推動日後很多需要使用深度監督的任務，例如逆向渲染（Inverse Rendering），SLAM 與自動駕駛等。

^{圖6 深度視覺化。}

作者簡介

論文第一作者：楊子逸，浙江大學碩士二年級，主要研究方向為三維高斯、神經輻射場、實時渲染等。

論文其他作者：高新宇，浙江大學碩士三年級，主要研究方向為神經輻射場，隱式場景組合。

張宇晴：浙江大學碩士二年級，主要研究方向為 3D 生成，逆向渲染。

論文通訊作者為浙江大學電腦科學與技術學院金小剛教授。

Email: jin@cad.zju.edu.cn
個人主頁：http://www.cad.zju.edu.cn/home/jin/

相關文章