OFT Orthographic Feature Transform for Monocular 3D Object Detection
OFT Orthographic Feature Transform for Monocular 3D Object Detection
時間:18.11
機構:University of Cambridge
TL;DR
當時純視覺自動駕駛方案效果上僅達到Lidar方案有10%的水平,本文claim部分差距源於perspective view看到的目標scale與外觀會隨著深度發生變化,本文提出正交特徵變換層(orthographic feature transform)解決該問題。
Method
整體網路架構參見上圖,主要創新的模組是OFT層(orthographic feature transform)。如下圖,OFT主要作用是建立一個3D voxel feature map(例如,80m×4m×80m空間下每0.5劃分一個柵格),柵格中每個位置的feature利用如下公式投影到影像特徵空間ROI,使用average pooling(實際上用積分圖實現)計算該柵格對應的特徵。
Q: 是否有類似於LSS的splat步驟? yes
獲取3D voxel feature map後,為了降低計算量,利用自動駕駛更關注目標的BEV平面位置資訊而非高度的特點,使用一個垂直方向的pooling將3D特徵splat成為2D特徵圖,稱為orthographic feature map。如下公式(1)所示,\(W(y)\)為pooling過程每個voxel對應的權重,為可學習引數。
Q:box如何迴歸?是否迴歸角度?
confidence score S, a position offset ∆pos, a dimension offset ∆dim(w, h, l) and an angle vector ∆ang(因為在BEV平面,所以預測僅y軸對應角度)
Q:是否有柵格特徵是否有多目特徵融合?否
根據作者在實驗中描述,應該都是Mono view直出,3D voxel空間未進行多目特徵融合。
Experiment
總結與發散
在bird view而非perspective view上提取特徵預測結果聽起來確實更加合理
相關連結
引用的第三方的連結