提升90%!利用結構線索增強視覺場景識別(VPR)能力

Vincent_Qin發表於2020-11-15

標題:提升90%!利用結構線索增強視覺地點識別(VPR)能力

標題:Augmenting Visual Place Recognition with Structural Cues

作者:Amadeus Oertel, Titus Cieslewski, Davide Scaramuzza

來源:IEEE Robotics and Automation Letters (RA-L), 2020.

主頁:http://rpg.ifi.uzh.ch/research_vo.html

編譯:realcat

歡迎個人轉發,其他機構或自媒體如需轉載,後臺留言申請授權。

摘要

【FIG-1】

在這項工作中,本文提出用結構線索來增強基於影像的地點識別能力。具體來說,這些結構線索是利用SfM的方式獲得的,這樣就不需要額外的感測器來進行位置識別。這是通過增強用於影像的位置識別的2D卷積神經網路(CNN)和3D CNN來實現的,其中3D CNN將從SfM點雲中獲得的體素網格作為輸入。本文評估了不同的方法來融合二維和三維特徵,並通過全域性平均池化簡單串聯獲得了最佳效能。與僅從一種輸入模態中提取的描述子(包括最先進的基於影像的描述子)相比,所得到的描述子表現出優越的識別效能。特別是在低描述子維度的情況下,我們的效能比最先進的描述子高達90%!

貢獻

  1. 本文首次提出學習型複合描述子,將外觀和結構都納入視覺場景識別任務;且效能比單一描述子有比較明顯的提升;
  2. 結構資訊的獲取並不依賴於額外的感測器,僅由視覺影像作為輸入即可;

演算法框架

【FIG-2】

上圖是本文提出的演算法框架,可以看出本文提出的網路由兩個子網路構成:基於外觀的特徵提取網路以及基於機構的特徵提取網路。網路的輸入是一張影像 I i I_i Ii以及對應的體素網格 G i G_i Gi,分別經過上述兩個子網路並經過全域性池化分別得到對應的描述子,緊接著將這兩個描述子 g A ( I i ) g_A(I_i) gA(Ii)以及 g S ( G i ) g_S(G_i) gS(Gi)串聯起來,最後通過兩個全連線層得到最終的全域性描述子,該描述子就是所謂的外觀+結構描述子。

上面描述中作為輸入的影像是顯而易見的,但體素是怎麼來的呢?作者提到,由於本演算法不依賴於除相機之外的其它感測器,本文實際中使用的是半稠密的雙目Direct Sparse Odometry (DSO)1進行位姿追蹤及建圖。

給定一個影像序列的三維重建模型,我們可以為每幀影像生成一個體素網格。一個點雲submap是從以相機姿勢為中心的矩形框中提取出來的畫面。每個submap是與世界系的z軸對準的,這可使用慣性測量單元(IMU)與對應攝像機姿勢的偏航方向來實現。在本文方法中,上述矩形框的大小需要根據其使用環境進行調整。一個submap包含DSO在位於矩形框邊界內的一組前 N N N個關鍵幀(以與該submap關聯的幀結束)上觀察到的所有點。下一步,submap需要被分解成規則的體素網格,本文采用的是二值佔據(binary occupancy)的方式進行離散化:一個voxel若有 3 D 3D 3D點則其被賦值為1,否則為0。

實驗結果

體素離散化方法

【TAB-2】

上表比較了不同體素離散化方法,其中 R E C A L L @ 1 RECALL@1 RECALL@1表示最近的召回幀是正確匹配的比例, d S d_S dS表示訓練網路設定的卷積深度,經比較二值佔據(binary occupancy)的方式進行離散化效能最優。

特徵融合方式

【TAB-3】

上表比較了不同特徵融合的方法:即比較將外觀全域性描述 g A ( I i ) g_A(I_i) gA(Ii)以及結構 g S ( G i ) g_S(G_i) gS(Gi)結合的方式,經比較直接串聯的方式最優。

與其它演算法對比

此處對比了目前主流的VPR演算法,包括SeqSLAM2,DenseVLAD3,NetVLAD4以及 Multi-Process Fusion5

【FIG-4】

上圖比較NetVLAD與本文提出的演算法在特徵維度 d i m f dim_f dimf變化時的召回率。當減少 d i m f dim_f dimf時,NetVLAD的效能下降得嚴重。而我們的複合描述子與NetVLAD在 d i m f dim_f dimf=64時相比,mAP的相對增益高達90.5%,召回率@1增益為23.6%。

【TAB-7】

上表展示了複合描述子的效能最優,視覺效果如下:

在這裡插入圖片描述

耗時統計

【TAB-4】

上表展示了在NVIDIA TITAN XP平臺下處理一張影像的耗時,本文演算法耗時最少。

Abstract

Abstract—In this paper, we propose to augment image-based place recognition with structural cues. Specifically, these structural cues are obtained using structure-from-motion, such that no additional sensors are needed for place recognition. This is achieved by augmenting the 2D convolutional neural network (CNN) typically used for image-based place recognition with a 3D CNN that takes as input a voxel grid derived from the structure-from-motion point cloud. We evaluate different methods for fusing the 2D and 3D features and obtain best performance with global average pooling and simple concatenation. On the Oxford RobotCar dataset, the resulting descriptor exhibits superior recognition performance compared to descriptors extracted from only one of the input modalities, including state-of-the-art image-based descriptors. Especially at low descriptor dimensionalities, we outperform state-of-the-art descriptors by up to 90%.

——END——

在這裡插入圖片描述
在這裡插入圖片描述

參考文獻


  1. Direct sparse odometry with stereo cameras, 2018 ↩︎

  2. SeqSLAM: Visual route-based navigation for sunny summer days and stormy winter nights, ICRA 2012 ↩︎

  3. 24/7place recognition by view synthesis, TPAMI 2018 ↩︎

  4. NetVLAD: CNN architecture for weakly supervised place recognition, CVPR 2016 ↩︎

  5. Multi-process fusion: Visual place recognition using multiple image processing methods, 2019 ↩︎

相關文章