LiV-GS: LiDAR-Vision Integration for 3D Gaussian Splatting SLAM in Outdoor Environments

Gaowaly發表於2024-11-28

arxiv |哈工大發布 LiV-GS:戶外環境中基於3D高斯潑濺的LiDAR-視覺整合SLAM系統

【LiV-GS: LiDAR-Vision Integration for 3D Gaussian Splatting SLAM in Outdoor Environments 】

LiV-GS: LiDAR-Vision Integration for 3D Gaussian Splatting SLAM in Outdoor Environments  

  摘要:我們提出了 LiV-GS,這是一種室外環境中的 LiDAR 視覺 SLAM 系統,利用 3D 高斯作為可微分的空間表示。值得注意的是,LiV-GS是第一個在大規模室外場景中將離散稀疏鐳射雷達資料與連續可微高斯圖直接對齊的方法,克服了傳統鐳射雷達測繪中固定解析度的限制。該系統使用前端跟蹤的共享協方差屬性將點雲與高斯圖對齊,並將法線方向整合到損失函式中以細化高斯圖。為了可靠且穩定地更新 LiDAR 視場外的高斯分佈,我們引入了一種新穎的條件高斯約束,將這些高斯分佈與最近的可靠高斯分佈緊密對齊。有針對性的調整使 LiV-GS 能夠以 7.98 FPS 的速率實現快速、準確的對映以及新穎的檢視合成。大量的對比實驗證明了LiV-GS在SLAM、影像渲染和建圖方面的優越效能。成功的跨模態雷達-LiDAR 定位凸顯了 LiV-GS 在跨模態語義定位和高斯地圖物件分割方面的應用潛力。

一、簡介

  SLAM(同步定位與建圖)對於大規模場景重建至關重要,它基於精確定位重建觀察到的場景。作為場景重建的兩種常用感測器,鐳射雷達和相機塑造了SLAM技術的發展。傳統的鐳射雷達 SLAM 利用點雲中的幾何和精確深度資訊來實現精確定位。最近出現的神經輻射場 (NeRF) [1] 和 3D 高斯分佈 (3DGS) [2] 透過更詳細的環境表示豐富了視覺 SLAM。點雲、體素和麵元等傳統地圖表示在地圖繪製中受到有限解析度的影響 [3],而隱式神經場需要昂貴的計算資源。相比之下,3DGS 使用高斯橢球體作為高效地圖,允許自適應空間特徵表示和快速渲染。考慮到精確 SLAM 和逼真場景重建的需求,3D 高斯噴射作為一種有效結合鐳射雷達和相機感測器優勢的強大方法應運而生。

  室外 SLAM 和場景重建面臨著獨特的挑戰,例如照明變化和無界深度尺度,這使得基於 RGBD 的室內解決方案不夠充分 [4]-[8]。雖然鐳射雷達在室外環境中精確距離測量方面表現出色,由於鐳射雷達點雲的稀疏性和不連續性,在不同檢視之間保持畫素對應關係具有挑戰性。手持測繪等現有方法依賴重複測繪來增強影像深度,這對於僅從相機角度捕獲單個檢視的移動機器人平臺來說是不切實際的。

  最後,我們介紹 LiV-GS,這是一個 SLAM 框架,它使用 3D 高斯空間表示來無縫整合 LiDAR 和相機影像。我們的方法透過將渲染的高斯協方差與當前觀測值對齊來估計機器人姿態,並在後端校正漂移並更新高斯圖。為了克服無界場景中視覺和鐳射雷達之間的深度連續性問題,我們提出了一種基於鐳射雷達點雲的高斯分割方法,確保地圖更新時的適當分佈約束。

  我們的研究貢獻總結如下:

  1)我們提出了一種使用3D高斯表示的統一鐳射雷達相機室外SLAM框架,在高精度定位過程中實現增量建圖和高質量的新檢視合成;

  2)我們引入了有效的高斯-LiDAR對準方法,包括用於穩定跟蹤的法線方向約束以及基於密度和法線一致性的加權機制以考慮不同高斯的可靠性;

  3)我們提出了用於地圖更新的條件高斯分佈約束,允許使用LiDAR先驗傳播可靠的高斯分佈來表示整個場景,甚至包括LiDAR點不可用的物件或片段。

二.相關工作

  A. 大規模重建

  大規模場景重建的現有任務依賴於已知的姿態和稀疏點雲來渲染環境。對於無界大場景,主要改進集中在從鳥瞰 (BEV) 角度約束高斯貼圖、利用細節層次 (LoD) 或劃分渲染區域以加速渲染並增強計算穩定性。在 3D Gaussian Splatting 的原始工作的基礎上,[9] 提出了一種樹狀結構,它使用檢視內的投影尺寸來選擇性地包含或排除特定節點,從而提高渲染效率。研究工作 DoGaussian [10] 透過分割槽渲染技術引入了改進。 [11]中的GaussianCity創新地處理了透過將視覺視角轉換為 BEV 並採用編碼-解碼策略進行高效處理來生成點雲。 Octree-GS [12]利用八叉樹資料結構來有效管理場景的多級細節。 EfficientGS [13] 結合了選擇性緻密化策略,並在球諧函式 (SH) 中應用稀疏階增量。 GaussianPro [14] 引入了高斯漸進傳播方法,使用深度和法線約束來有效渲染大型無紋理場景區域。

  B. 基於3DGS的LiDAR-視覺融合

  LiDAR資料的整合顯著增強了3DGS在大規模場景重建方面的能力。 LiDAR 的利用涉及使用從 LiDAR SLAM 獲得的點雲地圖和姿態作為初始輸入,取代傳統的 SfM 資料。例如,DrivingGaussian [15] 提取影像特徵並投影合併的 LiDAR 掃描幀,從而增強特徵整合。 3DGS-ReLoc [16] 和 Gaussian-LIC [17] 使用來自 LiDAR 點雲和相應影像的直接輸入來訓練 3D 地圖,從而實現更詳細的環境模型。 LIV-GaussianMap [18] 透過採用顯式八叉樹結構來推進點雲管理,而 TCLC-GS [19] 構建隱式特徵網格的分層八叉樹,使用顏色投影進行進一步的 3DGS 最佳化。 LetsGo [20] 將細節級別 (LoD) 渲染整合到 3DGS 中,使用各種解析度的高斯函式來有效地表示 3D 場景。

  另一種方法將 3DGS 直接整合到 SLAM 流程中。例如,MM-Gaussian[21]使用點雲配准演算法來估計相機位姿,並將這些點雲直接合併到地圖中以增強最佳化。該方法實現了增量建圖的視覺化,並利用高保真場景重建來逆向最佳化姿態,同時實現接近最優的定位精度和建圖質量。這些方法共同強調了 LiDAR 在完善 3D 重建過程中的關鍵作用。

  與我們的研究最密切相關的工作包括 DrivingGaussian [15]、LIV-GaussMap [18] 和 MMGaussian [21]。如表1所示,現有方法通常將SLAM和密集高斯建圖的任務分開,其中要麼使用LiDAR點雲來代替SfM,要麼將點雲直接匹配為跟蹤先驗,然後透過渲染損失來最佳化姿態基於高斯對映。相比之下,我們的 LiV-GS 框架在整合高斯地圖表示中最佳化了姿態估計和地圖更新。此外,雖然現有的基於 3DGS 的室外 SLAM 方法僅關注捕獲 LiDAR 點雲和視覺畫素的區域,但由於我們從 LiDAR 衍生出的新穎的高斯分裂方法,我們的方法可以高質量地重建 LiDAR 視場之外的場景。基於高斯。

三.方法

  我們的 LiV-GS 是一種戶外視覺 LiDAR SLAM 系統,採用 3D 高斯進行環境表示。高斯分佈在數學上表示為:

  其中 μ 和 Σ 分別表示高斯的均值和協方差矩陣。在我們的模型中,每個高斯由 gi = {α, c, μ, Σ} 定義,其中 α 表示不透明度,c 表示顏色,直接從原始畫素資料匯出。與[22]相同,為了簡單和速度,我們省略了球諧函式。

A.系統概述

  如圖1所示,LiV-GS的整個系統包括四個模組:資料預處理、跟蹤、最佳化和地圖更新。來自鐳射雷達和視覺感測器的多模態測量整合在資料預處理中,然後輸入前端跟蹤模組。在前端,系統採用前一時刻渲染的高斯橢球體結合當前點雲進行幀到地圖匹配。關鍵幀透過視覺區域的共同可見性進行評估,並附加到高斯圖上。然後在後端處理包含關鍵幀引數的高斯地圖,以進行位姿最佳化和地圖更新。高斯圖透過最小化損失函式,結合高斯函式的分裂和剪枝操作不斷更新高斯函式的引數。

圖 1:系統概述:SLAM 系統包括跟蹤和最佳化過程,共同支援高斯地圖的視覺表示。

地圖更新過程使用 LiDAR 深度和顏色監督來調整新的高斯。

  在所提出的系統中,資料輸入包括來自相機的影像和來自鐳射雷達感測器的點雲。使用校準的外部資料整合這些輸入,將時間對齊的 LiDAR 點雲轉換為深度影像。

  該變換由以下方程控制:

  其中P表示LiDAR點雲中的點,RC L和tC L分別表示從LiDAR到相機座標系的旋轉矩陣和平移向量,K是相機的固有矩陣。這種轉換將 LiDAR 資料與視覺資料對齊,促進從 RGB 角度實現統一的深度感知。

B. 前端跟蹤

  前端跟蹤的主要挑戰來自於如何將由顏色監督匯出的可變密度高斯與具有固定解析度的 LiDAR 點雲對齊。受[4]、[23]和[24]的啟發,我們採用點雲和高斯的共享屬性協方差作為整合的橋樑。確定每個鐳射雷達點的法線方向後,我們將其與高斯的最短軸對齊。為了進一步促進穩定跟蹤,我們引入了高斯加權函式,該函式區分僅由顏色監督生成的高斯和那些也透過LiDAR深度中點雲的誤差計算和高斯匹配。

  點雲和高斯分佈:最初,我們維護一個滑動視窗,從最近 10 次幀中過濾和選擇高斯分佈,同時遮蔽掉剩餘的高斯分佈。這個選擇過程使高斯與我們關注的子地圖內的匹配保持相關性。然後,我們利用增量誤差最小化函式來確保平面和點之間的精確對應,如下所示:

  其中xp表示LiDAR點雲PL中的一個點,T Ct−1 W (k)對應於基於前一時刻的姿態到世界座標系的第k次迭代後的當前姿態估計,xg表示高斯的中心最接近 T Ct−1 W (k)xp,nxp 是 xp 的法向量。 wxg是代表點xg的置信度的權重,下一段將詳細介紹。

  引入正則化項R進一步增強誤差函式的穩定性和精度,該函式考慮了法線之間的方向誤差:

  正則化項將乘以超引數進行調整,旨在加強法線的對齊。權重函式構造:點雲的可靠權重與其密度密切相關,如圖2所示。為了構造結合正態一致性和密度因子的權重函式,我們首先識別區域性區域內所有最近的高斯分佈中心球形區域 Nr(x),其中 x 是球體中心,r 是半徑。這些高斯中心是透過最小化從點 x 到每個高斯中心 μgi 的距離來確定的。密度函式 ρ(x) 如下:

圖 2:密度和權重之間的關係:僅基於顏色監督的高斯導致各向同性和稀疏高斯(左上)。

來自 LiDAR 的密集深度輸入區域通常顯示較高密度的高斯分佈(左下)。

  其中Σ′gi是重建的協方差矩陣,透過選擇沿法線方向的最小方差σ和在垂直方向上的較大方差σperp來實現。 Dgi 是由法線及其垂線形成的正交基。由於最佳化過程中高斯法線的長度難以限制,因此我們對點雲和高斯都引入了法線長度歸一化,從而透過法線的穩定方向來保證跟蹤演算法的魯棒性。

  另外,由於(5)在匹配過程中涉及到每點高斯密度的計算,為了加快計算過程,我們在跟蹤時簡化了(5)中的密度函式計算:

  對於每個點 x,我們計算當前高斯分佈的正態分佈 nxg 與區域性平均正態分佈 ̄ n 之間的一致性 C(x),即 C(x) = nxg · ̄ n。最終的權重函式W(x)定義為正態一致性和密度函式W(x) = C(x)ρ(x)的乘積。

  共同可見性評估:我們透過評估當前關鍵幀和最後一個關鍵幀之間高斯函式的重疊來測量共同可見性。如果共同可見性低於指定閾值,則該幀將被指定為關鍵幀。為了保證前視視角下的快速跟蹤始終將當前點雲與足夠的高斯橢球相匹配,將關鍵幀中的點雲直​​接新增到高斯圖上,使用畫素顏色和沿著射線傳播方向縮放點雲協方差進行初始化。隨後,後端透過將增強高斯圖與先前關鍵幀的視角進行比較來最佳化增強高斯圖,從而導致高斯圖的增量更新。

C.後端最佳化

  後端最佳化過程檢索關鍵幀識別符號序列及其相應的引數,並進行兩輪最佳化。第一次僅限於滑動視窗內關鍵幀的位姿,而第二次旨在更新高斯圖。 3D高斯圖Gs的深度和顏色渲染過程推導如下:

  其中 di 和 ci 表示沿相機光線到高斯 gi 的距離和顏色。用於最佳化高斯引數的損失函式設計為:

  其中前兩個術語在現有研究工作中常用:光度誤差Epho表示視覺地面實況與渲染影像之間的差異,而幾何誤差Egeo衡量LiDAR深度輸入與渲染深度影像之間的差異。第三項 Enormal = ∥σalong∥ 量化沿法線方向的平均方差的範數。

  與室內 3D 高斯分佈不同,室內 3D 高斯分佈是由密集的 RGB-D 影像構建的堆疊高斯分佈,而室外場景通常具有更大且稀疏的高斯分佈。為了將高斯函式與物體表面緊密對齊,我們引入了法線損失 Enormal,它針對更短且更穩定的法線進行了最佳化。如圖3所示,透過引入法線損失,3D高斯圖的法線更加穩定,大大提高了渲染質量。

圖 3:法線限制的效果:頂部:橢圓體視覺化。中:渲染影像。底部:渲染的放大細節。

左側比較(紅色)說明不受控制的高斯增長導致顯著的偽影。

右側的比較(綠色)顯示了由各向同性高斯分佈引起的渲染影像中的間隙。我們的方法有效地防止了這些問題。

D. 地圖更新

  為了管理無界場景中天空的表示,我們採用類似於[9]的方法,用 100,000 個高斯基元初始化場景外的天空盒。隨著高斯貼圖的增量構建,該天空盒會動態更新。在地圖初始化和更新期間,主要有兩種型別的高斯:從顏色監督 X 匯出的高斯和由 LiDAR 測量 Y 提供的高斯。我們引入條件高斯約束(CGC)來透過損失函式(10)調整顏色監督高斯的位置。對於透過顏色監督獲得的每個點x,從以下選擇最接近的高斯yLiDAR 測量的高斯集。此外,假設給定 y,x 服從高斯分佈:

  其中μx(y)是透過正態分佈取樣從高斯y分裂出新的高斯橢球的位置,Σy是高斯y的協方差。

  條件高斯方程 (11) 調整 x 的均值 μx 和協方差 Σx,使它們與最接近的可靠高斯 y 更接近地對齊。從可靠高斯分裂出來的新高斯經過一輪後端最佳化後被認為是可靠高斯,這個過程一直持續到所有高斯都成為可靠高斯。如圖4所示,新分割的點將嚴格遵循現有可靠點的分佈模式,特別是在形狀複雜或表面特徵明顯的區域。

圖 4:透過條件高斯約束 (CGC) 進行分裂的效果。

我們的方法透過引入的 CGC 增強了影像中缺乏 LiDAR 深度輸入的物件的高斯表示。

四.實驗

  在實驗中,我們從定位精度、渲染質量和高斯圖空間分佈的可靠性三個方面評估LiV-GS,並將其與其他SOTA演算法進行比較。

  為了評估軌跡誤差,我們使用開源工具rpg軌跡評估[25]來計算絕對軌跡誤差(ATE)和相對誤差(RE),測量ATE均方根誤差(RMSE)漂移(m) 、平均平移 RMSE 漂移 (%) 和平均旋轉 RMSE 漂移 (°/100 m)。

  為了進行渲染評估,提取了每種演算法的最佳化視點,並使用 SSIM、PSNR[dB] 和 LPIPS 指標與實際影像進行比較。

A.實現細節

  LiDAR和影像資料使用時間戳進行同步,以及R3Live獲得的軌跡[26]使用整合視覺、LiDAR 和 IMU 資料的演算法作為地面實況。作為軌跡精度,LiV-GS與已建立的基於點雲的幾何SLAM演算法HDL圖SLAM[27]、基於影像特徵的視覺SLAM演算法ORB-SLAM3[28]和基於隱神經場的NeRF-LOAM[3]進行了比較],以及基於3D Gaussian Splatting的開源SLAM演算法如MonoGS [22]、Gaussian-SLAM [29]、GSICP-SLAM [4] 和 SplaTAM [30]。使用 3DGS、NeRF++ [31]、MonoGS、Gaussian-SLAM、GS-ICP-SLAM 和 SplatTAM 等演算法在 gtpose 及其里程計下進行影像渲染質量比較。所有演算法均在配備 NVIDIA RTX 4090 GPU 的桌面上執行。

B. 資料集

  為了有效評估我們的 LiV-GS,我們利用了開源大型資料集 NTU4DRadLM,其中包括三種不同型別感測器收集的資料:10Hz 的 LivoxHorizo​​n LiDAR、解析度為 640 × 480 的單目相機和4D毫米波雷達Eagle Ocuill G7。我們的方法不使用 IMU 資料。由於在長距離室外場景中保持光度一致性的挑戰,我們將低速、公里長的場景分割為幾個較短的序列。對於 cp 序列,我們使用了前 2400 個 LiDAR 相機對齊的圖​​像,覆蓋約 230 米。對於花園和尼爾序列,我們從每個序列的開頭和結尾分別選擇了 2100 和 2400 個影像,每個片段至少覆蓋 220 米。此外,對於在人類駕駛車輛平臺上記錄的 Loop2 序列,我們選擇了覆蓋約 250 米的 300 幀。我們總共測試了六個序列來全面驗證我們的 LiV-GS 方法。

C. 跟蹤精度評估

  圖 5 和表 II 分別顯示了定位精度的定性和定量評估。我們的 LiVGS 展示了低速序列中最低的 ATE。然而,在高速序列迴圈2中,由於連續幀之間的位移較大以及高斯圖最佳化不足導致的稀疏高斯分佈,LiVGS的精度略低於NeRF-LOAM。 MonoGS、SplaTAM、GS-ICP-SLAM和GaussianSLAM都是為室內環境量身定製的,具有紋理良好的影像和密集的深度資訊,但由於室外場景中獲得的深度資訊稀疏,它們在一些室外序列中會出現效能下降甚至失敗。相比之下,我們的 LiV-GS 在大規模室外環境中跟蹤一致且穩定。

圖 5:在 NTU4DRadLM 資料集的四個序列上使用不同 SLAM 演算法的軌跡比較。

  此外,表 III 中的底部兩行顯示 LiVGS 里程計結果與地面實況結果之間的渲染差異最小,這進一步證明了 LiV-GS 里程計的高精度,因為更高的定位精度導致渲染質量損失更小。

D. 渲染評估

  表 III 比較了在同一平臺上實現的所有可重現的開源演算法的渲染結果。 3DGS 和 NeRF++ 不執行姿態估計並利用 COLMAP 來獲取初始輸入。 SplaTAM、MonoGS 和 Gaussian-SLAM 依靠損失函式來最佳化姿態,因此我們將渲染結果複製兩次:一次使用地面真實姿態,一次使用自己估計的姿態。

  圖6展示了影像渲染的定性結果,3DGS的渲染質量受到深度先驗的缺乏和SLAM運動過程中獲得的有限視角的影響。 LiVGS 渲染的影像表現出非凡的清晰度,捕捉到細微的細節,例如建築結構和建築物的輪廓、地面紋理、樹木和灌木的樹葉細節,甚至汽車引擎蓋上的反射。渲染的保真度不僅證明了 LiV-GS 的有效性,還突顯了其保留複雜視覺細節的能力。

圖 6:渲染結果比較。

E.效能和執行時間之間的評估

  為了進一步估計LiV-GS的效率和效能之間的權衡,我們比較了執行時間和之前評估的效能指標之間的關係。直接使用ATE RMSE衡量定位精度,透過歸一化綜合得分計算各演算法的影像質量:

  如圖所示。如圖 7a 和 7b 所示,LiV-GS 在精度和渲染質量方面同時達到了最先進的效能,執行速度為 7.98 FPS,由於 LiDAR 取樣率為 10 Hz,顯示了其在實時 SLAM 應用中的潛力。

  從各模組的執行時間來看,前端跟蹤和關鍵幀選擇模組平均每次執行時間為0.07 ms。當後端同時配​​置5個關鍵幀最佳化時,位姿最佳化和地圖更新模組的平均執行時間分別為0.04 ms和0.09 ms。值得注意的是,我們的LiV-GS系統採用非同步通訊機制,因此整個系統的執行時間並不等於各個模組執行時間的總和。

圖 7:效能指標和系統執行時間的比較。

FPS 計算為處理的幀總數與總時間的比率。 7.98 FPS 的值意味著平均一秒可以處理 7.98 個深度圖和 RGB 影像。

F. 幾何精度的定性分析

  為了評估LiV-GS構建的高斯圖的空間幾何分佈,我們進行了跨模態分析高斯地圖上的毫米波雷達定位。與鐳射雷達不同,毫米波雷達的點雲更加稀疏,解析度較低,噪聲較高。只有當鐳射雷達和影像生成的高斯地圖的空間幾何足夠準確和可靠時,魯棒的跨模態雷達定位才有可能。

  對於 NTU4DRadLM 資料集中的序列 cp,我們首先使用 LiV-GS 基於攝像機和 LiDAR 資料構建高斯圖,然後使用 HDL 定位演算法在高斯圖上重新定位雷達資料 [27]。圖 8 強調,即使使用跨模態雷達資料,也可以使用高斯地圖始終實現準確定位。它證實了LiV-GS的高斯圖提供了準確的幾何結構資訊,顯示出其在全天候戶外定位和導航等其他下游任務中的巨大潛力。

圖 8:跨模態毫米波雷達定位軌跡的視覺化。

G. 閉環驗證

  在本小節中,我們驗證 LiV-GS 在閉環序列中的效能。我們從 R3Live [26] 提供的手持掃描資料集中截獲了香港大學公園 00 資料的閉環序列,其中包括 30Hz 的 1280×1024 影像和 10Hz 的 Livox-Avia LiDAR 點雲。

  定量結果如表 IV 和 V 所示。在這個迴圈序列中,我們的 LiV-GS 仍然表現良好,但其效能偶爾落後於其他一些演算法。原因之一是 LiV-GS 缺乏閉環檢測模組來最佳化累積漂移。另一方面,由於 LiV-GS 不利用球諧函式來表示顏色。從閉環位置的不同視點觀察同一場景的不同顏色可能會導致高斯橢球體的大量重疊,這可能會導致效能下降。如何解決閉環和顏色細化的問題將是我們未來研究的重點。

五、結論

  我們提出了一種新穎的戶外 SLAM 系統,利用 3D 高斯作為空間表示,整合 LiDAR 相機資料。該系統透過協方差將鐳射雷達點雲與高斯地圖緊密整合以進行跟蹤,並使用視覺資訊來最佳化全域性高斯分佈。條件高斯約束指導高斯橢球分裂,特別是對於由於鐳射雷達深度不可用而缺乏幾何約束的高斯橢球。該方法利用視覺紋理連續性和鐳射雷達可靠性來構造具有一致深度約束的橢球體。

  實驗驗證我們的系統實現了穩健、精確的定位,並且可以渲染清晰的場景影像。據我們所知,這是首次在室外環境中使用3D高斯地圖成功實現跨模態雷達-鐳射雷達定位,標誌著室外3DGS SLAM的巨大潛在應用。

相關文章