提升90%!利用結構線索增強視覺場景識別(VPR)能力
標題:提升90%!利用結構線索增強視覺地點識別(VPR)能力
標題:Augmenting Visual Place Recognition with Structural Cues
作者:Amadeus Oertel, Titus Cieslewski, Davide Scaramuzza
來源:IEEE Robotics and Automation Letters (RA-L), 2020.
主頁:http://rpg.ifi.uzh.ch/research_vo.html
編譯:realcat
歡迎個人轉發,其他機構或自媒體如需轉載,後臺留言申請授權。
摘要
在這項工作中,本文提出用結構線索來增強基於影像的地點識別能力。具體來說,這些結構線索是利用SfM的方式獲得的,這樣就不需要額外的感測器來進行位置識別。這是通過增強用於影像的位置識別的2D卷積神經網路(CNN)和3D CNN來實現的,其中3D CNN將從SfM點雲中獲得的體素網格作為輸入。本文評估了不同的方法來融合二維和三維特徵,並通過全域性平均池化和簡單串聯獲得了最佳效能。與僅從一種輸入模態中提取的描述子(包括最先進的基於影像的描述子)相比,所得到的描述子表現出優越的識別效能。特別是在低描述子維度的情況下,我們的效能比最先進的描述子高達90%!
貢獻
- 本文首次提出學習型複合描述子,將外觀和結構都納入視覺場景識別任務;且效能比單一描述子有比較明顯的提升;
- 結構資訊的獲取並不依賴於額外的感測器,僅由視覺影像作為輸入即可;
演算法框架
上圖是本文提出的演算法框架,可以看出本文提出的網路由兩個子網路構成:基於外觀的特徵提取網路以及基於機構的特徵提取網路。網路的輸入是一張影像 I i I_i Ii以及對應的體素網格 G i G_i Gi,分別經過上述兩個子網路並經過全域性池化分別得到對應的描述子,緊接著將這兩個描述子 g A ( I i ) g_A(I_i) gA(Ii)以及 g S ( G i ) g_S(G_i) gS(Gi)串聯起來,最後通過兩個全連線層得到最終的全域性描述子,該描述子就是所謂的外觀+結構描述子。
上面描述中作為輸入的影像是顯而易見的,但體素是怎麼來的呢?作者提到,由於本演算法不依賴於除相機之外的其它感測器,本文實際中使用的是半稠密的雙目Direct Sparse Odometry (DSO)1進行位姿追蹤及建圖。
給定一個影像序列的三維重建模型,我們可以為每幀影像生成一個體素網格。一個點雲submap是從以相機姿勢為中心的矩形框中提取出來的畫面。每個submap是與世界系的z軸對準的,這可使用慣性測量單元(IMU)與對應攝像機姿勢的偏航方向來實現。在本文方法中,上述矩形框的大小需要根據其使用環境進行調整。一個submap包含DSO在位於矩形框邊界內的一組前 N N N個關鍵幀(以與該submap關聯的幀結束)上觀察到的所有點。下一步,submap需要被分解成規則的體素網格,本文采用的是二值佔據(binary occupancy)的方式進行離散化:一個voxel若有 3 D 3D 3D點則其被賦值為1,否則為0。
實驗結果
體素離散化方法
上表比較了不同體素離散化方法,其中 R E C A L L @ 1 RECALL@1 RECALL@1表示最近的召回幀是正確匹配的比例, d S d_S dS表示訓練網路設定的卷積深度,經比較二值佔據(binary occupancy)的方式進行離散化效能最優。
特徵融合方式
上表比較了不同特徵融合的方法:即比較將外觀全域性描述 g A ( I i ) g_A(I_i) gA(Ii)以及結構 g S ( G i ) g_S(G_i) gS(Gi)結合的方式,經比較直接串聯的方式最優。
與其它演算法對比
此處對比了目前主流的VPR演算法,包括SeqSLAM2,DenseVLAD3,NetVLAD4以及 Multi-Process Fusion5。
上圖比較NetVLAD與本文提出的演算法在特徵維度 d i m f dim_f dimf變化時的召回率。當減少 d i m f dim_f dimf時,NetVLAD的效能下降得嚴重。而我們的複合描述子與NetVLAD在 d i m f dim_f dimf=64時相比,mAP的相對增益高達90.5%,召回率@1增益為23.6%。
上表展示了複合描述子的效能最優,視覺效果如下:
耗時統計
上表展示了在NVIDIA TITAN XP平臺下處理一張影像的耗時,本文演算法耗時最少。
Abstract
Abstract—In this paper, we propose to augment image-based place recognition with structural cues. Specifically, these structural cues are obtained using structure-from-motion, such that no additional sensors are needed for place recognition. This is achieved by augmenting the 2D convolutional neural network (CNN) typically used for image-based place recognition with a 3D CNN that takes as input a voxel grid derived from the structure-from-motion point cloud. We evaluate different methods for fusing the 2D and 3D features and obtain best performance with global average pooling and simple concatenation. On the Oxford RobotCar dataset, the resulting descriptor exhibits superior recognition performance compared to descriptors extracted from only one of the input modalities, including state-of-the-art image-based descriptors. Especially at low descriptor dimensionalities, we outperform state-of-the-art descriptors by up to 90%.
——END——
參考文獻
Direct sparse odometry with stereo cameras, 2018 ↩︎
SeqSLAM: Visual route-based navigation for sunny summer days and stormy winter nights, ICRA 2012 ↩︎
24/7place recognition by view synthesis, TPAMI 2018 ↩︎
NetVLAD: CNN architecture for weakly supervised place recognition, CVPR 2016 ↩︎
Multi-process fusion: Visual place recognition using multiple image processing methods, 2019 ↩︎
相關文章
- RALLM 檢索增強LLM架構架構
- Graph RAG: 知識圖譜結合 LLM 的檢索增強
- 使用資料增強技術提升模型泛化能力模型
- GraphRAG 檢索增強+圖模型模型
- Apache RocketMQ 5.0 在Stream場景的儲存增強ApacheMQ
- 收入結構最佳化,營收能力增強,圓心科技上市進展順利營收
- 文字識別解決方案-OCR識別應用場景解析
- 聚焦證券行業資料安全,全場景方案助力能力提升行業
- Redis 資料結構使用場景Redis資料結構
- 通用文字識別API-通用文字識別介面可以識別哪些場景文字API
- OpenHarmony3.1 Release正式上線,系統基礎能力增強
- 影像識別的視覺化解釋史視覺化
- win10如何關閉視覺效果_win10視覺增強怎麼關閉Win10視覺
- 機器視覺以及驗證碼識別視覺
- iOS計算機視覺—人臉識別iOS計算機視覺
- 加油站ai視覺識別系統AI視覺
- 全域性定位綜合利用視覺、藍芽、GPS等訊號解決相似場景的問題視覺藍芽
- 達摩院視覺AI課程重磅上線,多種AI應用場景精彩紛呈!視覺AI
- 常用資料結構之線索二叉樹資料結構二叉樹
- 資料結構之線索化二叉樹資料結構二叉樹
- 【資料結構】二叉樹的線索化!!資料結構二叉樹
- PyCharm關閉 強制換行視覺參考線PyCharm視覺
- Pytorch網路結構視覺化PyTorch視覺化
- 資料視覺化的知識總結視覺化
- 機器視覺學習筆記:臉性別識別視覺筆記
- 這些C4D概念場景,簡直就是一場視覺盛宴!視覺
- 騰訊廣告:廣告場景下有哪些視覺演算法應用?視覺演算法
- 怎樣將Gradle構建速度提升90%Gradle
- 如何利用GIS提升自然資源數智化能力
- 論 如何畫線索二叉樹[資料結構]二叉樹資料結構
- Python原生資料結構增強模組collectionsPython資料結構
- KGB知識圖譜的應用之路-增強大資料分析能力大資料
- 資料視覺化:圖片增強圖表的七種方法視覺化
- 身份證識別應用場景及功能特點
- 淺析人臉識別技術應用場景
- 語音識別技術有哪些應用場景?
- CTPN/CRNN的OCR自然場景文字識別理解(一)RNN
- 多模態人物識別技術及其在愛奇藝視訊場景中的應用