AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
是否還在擔心大規模場景訓練和壓縮耗時太長、視訊記憶體開銷太大?是否還在苦惱重建出的建築物和道路表面破碎不堪?是否還在困擾如何定量衡量大規模場景幾何重建的精確程度?來自中科院自動化所的研究團隊提出了用於大規模複雜三維場景的高效重建演算法 CityGaussianV2,能夠在快速實現訓練和壓縮的同時,得到精準的幾何結構與逼真的實時渲染體驗。該論文已接受於 ICLR`2025,其程式碼也已同步開源。論文題目:CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes
專案主頁: https://dekuliutesla.github.io/CityGaussianV2
論文連結: https://arxiv.org/pdf/2411.00771
程式碼連結 (600+⭐): https://github.com/DekuLiuTesla/CityGaussian
三維場景重建旨在基於圍繞目標場景拍攝的一組影像恢復出場景的三維結構,其核心追求是精準的幾何結構以及逼真的影像渲染。隨著近兩年的發展,3D Gaussian Splatting(3DGS)因其訓練和渲染效率上的優勢逐漸成為該領域的主流演算法。這一技術使用一組離散的高斯橢球來表示場景,並使用高度最佳化的光柵器進行渲染。然而,這一離散且無序的表徵形式通常難以很好地擬合物體表面的實際分佈,導致重建出的場景幾何結構並不精準。近來包括 SuGaR、2DGS、GOF 在內的一系列傑出工作針對這一問題進行了探索,並給出了有效的解決方案。儘管這些技術在單一目標或小場景上取得了巨大的成功,但它們應用於複雜的大規模場景卻往往面臨比 3DGS 更加嚴峻的挑戰。上圖展現了不同演算法在大規模場景下的幾何重建效果。SuGaR 的模型容量有限,難以還原精細的幾何結構;GOF 受到嚴重的模糊鬼影的干擾,許多視角下畫面被鬼影完全遮擋,以至於監督失效,重建結果面對顯著的欠擬合;2DGS 受到模糊鬼影的影響較弱,但也妨礙了其收斂效果,並且退化現象容易誘發高斯基元的過度增長,進而引起視訊記憶體爆炸,訓練難以為繼。此外,大規模場景下長期以來缺少幾何重建質量的有效評估手段,已有的工作或只進行了視覺化定性比較,或忽視了欠觀測區域不穩定的重建效果對指標產生的干擾。大規模場景的重建往往還意味著顯著的訓練開銷,要重建 1.97 平方千米的區域會產生接近兩千萬的高斯點,這意味著 4.6G 的儲存以及 31.5G 的視訊記憶體開銷,以及超過三小時的訓練時長。如果要進一步完成壓縮,通常還需要額外將近一個小時的時間。針對這三方面的技術挑戰,本文提出了 CityGaussianV2。該演算法繼承了 CityGaussian 的子模型劃分與資料分配方案,並使用 2DGS 作為基元來重建。在此基礎上,CityGaussianV2 引入了基於延展率過濾和梯度解耦的稠密化技術,以及深度迴歸監督,同時合併了訓練和壓縮過程,得到了端到端的高效。訓練管線,不僅有效加速演算法收斂,同時保障了穩定、快速、低視訊記憶體開銷的並行訓練。3DGS 使用一組高斯分佈表徵的橢球對場景進行表徵,每個高斯球同時繫結包括不透明度、顏色以及高階球諧係數等用於 alpha blending 渲染的屬性,並透過包含 L1 損失和 SSIM 損失的加權和對渲染質量進行監督。在訓練過程中,演算法還會根據每個高斯基元的梯度資訊進行自適應地分裂和克隆,使得重建效果不佳的區域能夠自動被更合適的基元填充。2DGS 旨在增強幾何重建精度,並將橢球降維為橢圓面片作為基元表徵場景,同時對渲染出的深度和法向量分佈施加監督,保證重建表面的平整性。CityGaussian 旨在將 3DGS 泛化到大場景,首先預訓練一個表徵全域性場景的粗粒度的 3DGS 場,隨後將預訓練結果劃分為一系列子模型,並根據子模型對訓練檢視渲染的貢獻程度為每個子模型分配訓練資料。每個子模型隨後會用不同的 GPU 並行微調,並在訓練結束後進行合併和壓縮,得到場景的最終表徵。現有表面重建方案在泛化到大場景時往往展現出收斂遲緩、訓練不穩定等問題,導致並行訓練失敗,難以取得良好的重建效果。我們的演算法以泛化能力最好的 2DGS 為基元,在引入 Depth-Anything-V2 的偽深度監督提供幾何先驗的基礎上,進一步提出了新的高斯基元稠密化方案。我們觀察到,在複雜大規模場景上,2DGS 在早期訓練階段比 3DGS 受到更嚴重的模糊偽影的干擾,導致在迭代次數有限的情況下效能顯著劣於 3DGS。為了緩解這一問題,我們引入梯度解耦策略,利用對影像結構差異更為敏感的 SSIM 損失作為稠密化的主要梯度來源:此處 ω 用於控制梯度的尺度;另外在大規模場景下用 2DGS 進行重建的障礙在於其退化現象。實驗證據表明,當從遠距離或側面視角渲染時,部分面片可能會退化成線或點,尤其是那些延展率比較高的面片。對於那些具有高不透明度的投影點,它們的移動往往意味著畫素值的劇烈變化,從而使得它們獲得較高的梯度,並在稠密化過程中大量增殖,導致基元數量指數級增長,最終導致視訊記憶體爆炸問題。為了解決這一問題,在稠密化過程中,我們對容易引起退化和梯度集中的具有極端延展率的高斯面片進行了篩選,並對其增殖過程進行了限制,從而在不犧牲效能的情況下有效穩定了訓練過程,保障了最佳化過程的順利進行。 CityGaussianV2 訓練管線,虛線框為摒棄的演算法流程CityGaussianV2 在 V1 的基礎上進一步最佳化了並行訓練管線,使得訓練和壓縮過程得到統一,刪除了冗餘的後處理流程。具體而言,演算法在子模型的並行訓練過程中週期性地遍歷訓練視角集合 V_m 並計算每個高斯基元的重要性分數:其中 P_k 為第 k 張訓練檢視的畫素幾何,α_n 為第 n 個基元的不透明度。以此為基礎,重要性低於一定百分比閾值的基元會被刪除,從而降低視訊記憶體和儲存的開銷,使得訓練對於低端裝置更友好,也顯著加速了模型總體的收斂速度。CityGaussianV2 填補了大規模場景下幾何評測協議長期以來的空白,在 Tanks and Temple (TnT) 資料集的啟發下,基於點雲的目擊頻次統計設計了針對大規模場景欠觀測區域的邊界估計方案。具體而言,點雲真值會首先被初始化為 3DGS,在遍歷所有訓練檢視的同時記錄每個點的觀測頻次,觀測頻次低於閾值的點將被濾除;剩餘的點將用於估計垂直方向的高度分佈範圍,以及地平面內的多邊形外接輪廓,二者構成的 Crop Volume 進一步用於 TnT 形式的指標計算。這一方案有效規避了欠觀測區域重建效果不穩定帶來的指標波動,使得大規模複雜場景的幾何效能評估更為客觀公正。在實驗中,相比於已有演算法,CityGaussianV2 在幾何精度(精度 P,召回率 R,綜合指標 F1-Score)方面達到了最佳的效能表現。從視覺化結果中也可以看到,CityGaussianV2 的重建結果具有更準確的細節,完整性也更高。而渲染質量方面,CityGaussianV2 則達到了和 V1 相媲美的程度,能夠帶來逼真的瀏覽體驗。此外,CityGaussianV2 還能較好地泛化到街道景觀,並且在渲染質量和幾何精度上都取得良好的效能結果。在訓練開銷方面,CityGaussianV2 克服了 2DGS 泛化到大規模複雜場景下的種種挑戰,不僅有效規避視訊記憶體爆炸問題,而且實現了相對於 V1 顯著的視訊記憶體最佳化,同時在訓練用時和幾何質量方面大幅領先。針對 2DGS 的量化壓縮策略也使得大規模場景的重建結果能夠以 400M 左右的開銷儲存下來。總結
本工作致力於大規模複雜場景的高效精準重建,並建立了大規模場景下的幾何精度評估基準。所提出的 CityGaussianV2 以 2DGS 為基元,消除了其收斂速度和擴充套件能力方面的問題,並實現了高效的並行訓練和壓縮,從而大大降低了模型的訓練成本。在多個具有挑戰性的資料集上的實驗結果證明了所提出方法的效率、有效性和魯棒性。