論文資訊
論⽂全稱:LoD-Loc: Aerial Visual Localization using LoD 3D Map with Neural Wireframe Alignment
錄⽤會議:NeurIPS 2024
論⽂地址:https://arxiv.org/abs/2410.12269
程式碼地址:https://github.com/VictorZoo/LoD-Loc
TL;DR: 基於三維城市⽩模地圖(LoD 3D Map) 的⼀種使⽤神經線框對⻬進⾏空中視覺定位的新⽅法
論⽂概要:LoD-Loc 基於城市⽩模模型Level of Detail 3D Map (LoD 3D Map)提出⼀種城市⽆⼈機空中定位新正規化。 區別於基於SfM / SLAM / Mesh等複雜三維地圖的傳統定位⽅法 ,LoD 三維地圖具有儲存容量低 ,能提供隱私保護等優點。然⽽ , 由於 LoD 地圖缺乏紋理,使⽤之前傳統定位基線進⾏ LoD 地圖空中定位並不簡單。 因此 ,本⽂提出了⼀種可以處理此類任務的定位新⽅法 ,即基於從影像中估計線框機率進⾏姿態搜尋與細化定位 ,也可以理解為透過將 LoD 模型投影得出的線框與神經⽹絡預測的線框對⻬來實現定位⽬標。具體⽽⾔ ,給定⽆⼈機感測器提供的粗略姿 勢 ,LoD-Loc 分層構建均勻取樣姿勢假設的成本體積來描述姿勢機率分佈並選擇具有最⼤機率的姿勢。 該體積內的每個成本測量投影和預測線框之間的線對⻬程度。LoD-Loc 還設計了⼀種 6-DoF 姿勢最佳化演算法 ,以可微分⾼斯⽜頓法改進先前的結果。 由於該研究領域沒有公開資料集,論⽂收集了兩個地圖級 別為 LoD3.0 和 LoD2.0 的資料集 ,包括RGB 查詢影像及其真實姿勢標註。實驗表明,所提出的⽅法可以⼤⼤優於現有的基於 CAD 的定位⽅法 ,同時與使⽤紋理⽹格和區域性特徵描述符的傳統⽅法相⽐具有競爭⼒。
論⽂貢獻:
1. ⾸次提出利⽤LoD 3D Map進⾏空中六⾃由度定位;
2. 使⽤線框對⻬思路 ,提出⼀種僅以Pose為監督的端到端可微的定位⽅法;
3. 開源兩組城市⽩模定位資料集:UAVD4L-LoD和Swiss-EPFL
摘要
本⽂提出了⼀種名為 LoD-Loc 的⽤於空中視覺定位新⽅法 ,輸⼊是城市三維白模地圖和⼀張影像及其先 驗資訊 ,輸出影像對應的相機位姿。本⽂⽅法基於對⻬線框LoD模型投影得到的顯式線框與神經⽹絡預測的神經線框特徵對⻬ ,將相機定位問題轉換成度量學習。LoD-Loc端到端地學習了從三維線框到位姿的資料先驗,這種能⼒能夠在城市⽩模場景下的定位任務中表現優異。本⽂演算法能夠在給定粗略姿先驗的情況下定位 ,且效能與使⽤紋理⽹格模型的傳統⽅法相⽐具有競爭⼒。
原有問題
現有的地⾯或空中視覺定位⽅法主要依賴於在查詢影像中的畫素點與預先構建的⾼質量三維地圖中的點 進⾏匹配。然⽽ ,使⽤諸如傾斜攝影等技術構建⾼精度的全球範圍三維地圖,成本極為⾼昂,且難以在 ⽇常使⽤中進⾏及時的維護和更新。此外 ,這類三維地圖需要佔⽤⼤量的儲存空間,尤其是在⽆⼈機等 終端裝置上的部署⾯臨著顯著的挑戰。更為重要的是 ,⾼解析度的三維地圖暴露了定位區域的詳細資訊 ,這帶來了關於國家安全和隱私保護的潛在問題。
創新方案
為了解決上述難題 ,本⽂⾸次提出採⽤ LoD(Levels of Detail) 三維地圖作為引導進⾏空中六⾃由度視 覺定位。與傳統的三維紋理⽹格模型相⽐ ,LoD 3D 模型具有以下顯著優勢:
1. 獲取與維護的簡化 :得益於遙感技術的⻜速發展 ,全球範圍的 LoD 城市模型⽣成變得更加便捷。
Google Maps 和百度地圖等商業平臺已經將這些 LoD 3D 模型融⼊其地圖系統中,使得⼤規模城市 模型的構建和⽇常維護較傳統⽅法更為⾼效便捷。
2. 地圖資料的輕量化 :相⽐傳統的三維紋理⽹格模型 ,LoD 地圖的尺⼨極為緊湊 ,其資料⼤⼩可以縮 減⾄紋理三維地圖的1/10,000 ,⼤幅降低儲存要求。這樣輕量化的地圖資料可以輕鬆部署在⽆⼈機等裝置上 ,提升在⼴域環境下的定位效率。
3. 隱私保護 :LoD 城市模型只展⽰了建築物的基本三維輪廓 ,使⽤簡化的⽅式表現環境。這種抽象化 處理不僅減少了隱私洩露的⻛險 ,還符合許多國家對地理資訊保密的規定,特別適⽤于敏感區域的 應⽤場景。
透過採⽤ LoD 三維地圖 ,本研究為空中定位提供了⼀種更具實⽤性與⾼效性的解決⽅案,克服了傳統三維地圖在成本、儲存與隱私⽅⾯的限制。
關鍵技術點
總覽 :利⽤已知的LoD模型將三維線框與提取到的查詢影像神經線框直接對⻬對位姿進⾏結算,其中對⻬過程中使⽤了姿態搜尋和⽜頓迭代最佳化法。
輸入 :3D LoD map ,查詢影像 I 及其感測器先驗
輸出 :查詢影像對應的相機6-DoF位姿 ξ∗
4.1 多層級特徵提取器
對於輸⼊的查詢影像 I ,LoD-Loc使⽤標準的U-Net卷積神經⽹絡來提取多層級特徵
4.2 從成本體中進行姿態選擇
4.3 姿態最佳化階段
4.4 監督項
5. 實驗
作者使⽤兩塊 NVIDIA RTX 4090 GPUs計算裝置進⾏相應的實驗 ,程式碼框架為Pytorch.
5.1 資料集
LoD-Loc提出兩類資料集 ,分別為UAVD4L-LoD和Swiss-EPFL。UAVD4L-LoD為作者⾃⼰收集的資料 集 ,涵蓋2.5平⽅千⽶的LoD3.0地圖 ,幷包括兩個序列影像資料inTraj.和outTraj.及其姿態標註。
Swiss-EPFL則為公開開源的瑞⼠資料集 ,涵蓋8.8平⽅千⽶的LoD2.0地圖 ,幷包含兩個序列影像資料 inPlace和outPlace及其姿態RTK真值。具體詳情請⻅官⽅主⻚。
5.2 量化比較
⽂中對⽐了LoD-Loc演算法和Baseline的⽐較 ,透過結果能看出在UAVD4-LoD資料集上,演算法表現出了強 有⼒的競爭性 ,定位精度甚⾄能超越基於資訊豐富的紋理⽹格模型演算法。⽽在Swiss-EPFL資料集中,
結果會稍遜⼀籌 ,作者給出的原因是LoD2.0資訊會⽐LoD3.0的資訊更少 ,從⽽導致推理的時候難度更 ⼤ 。作者認為 ,這⼀結果啟發他了下⼀階段研究⽬標與⽅向。
5.3 消融實驗
透過對⽐不同階段的量化和視覺化結果 ,LoD-Loc模型展⽰了其⼦模組的有效性。更多實驗結果可以從論⽂的補充材料中找到。