大疆、港科大聯手！雙目3D目標檢測實驗效果大放送 | CVPR 2019

AI科技大本營發表於2019-03-11

原文網址 : https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/88415176

640?wx_fmt=jpeg

作者 | heryms

責編 | Jane

CVPR 2019的文章出來了，今天聊聊雙目的 3D object detection。這是一篇來自 DJI （大疆）與港科大合作的文章《Stereo R-CNN based 3D Object Detection for Autonomous Driving》，作者分別是 Peiliang Li，陳曉智(DJI，MV3D的作者)和港科大的 Shaojie Shen 老師。

640?wx_fmt=jpeg

論文連結，文中稱程式碼將開源
https://arxiv.org/abs/1902.09738

1. Introduction

2018 年在 3D 檢測方面的文章層出不窮，也是各個公司無人駕駛或者機器人學部門關注的重點，包含了點雲，點雲影像融合，以及單目 3D 檢測，但是在雙目視覺方面的貢獻還是比較少，自從 3DOP 之後。

總體來說，影像的檢測距離、影像的 density 以及 context 資訊，在 3D檢測中是不可或缺的一部分，因此作者在這篇文章中挖掘了雙目視覺做 3D檢測的的潛力。

2.Network Structure

640?wx_fmt=jpeg

整個網路結構分為以下的幾個部分。

1). RPN部分，作者將左右目的影像通過stereoRPN產生相應的proposal。具體來說stereo RPN是在FPN的基礎上，將每個FPN的scale上的feature map的進行concat的結構。

2). Stereo Regression，在RPN之後，通過RoiAlign的操作，得到each FPN scale下的left and right Roi features，然後concat相應的特徵，經過fc層得到object class, stereo bounding boxes dimension還有viewpoint angle(下圖所示) 的值。這裡解釋一下viewpoint，根據Figure3.，假定物

640?wx_fmt=jpeg

3). keypoint的檢測。這裡採用的是類似於mask rcnn的結構進行關鍵點的預測。文章定義了4個3D semantic keypoint，即車輛底部的3D corner point，同時將這4個點投影到影像，得到4個perspective keypoint，這4個點在3D bbox regression起到一定的作用，我們在下一部分再介紹。

在keypoint檢測任務中，作者利用RoiAlign得到的14*14feature map，經過conv，deconv最後得到6 * 28 * 28的feature map，注意到只有keypoint的u座標會提供2D Box以外的資訊，因此，處於減少計算量的目的，作者aggregate每一列的feature，得到6 * 28的output，其中，前4個channel代表4個keypoint被投影到相應的u座標的概率，後面兩個channel代表是left or right boundary上的keypoint的概率。

3. 3D Box Estimation

通過網路迴歸得到的 2D box 的 dimension，viewpoint，還有 keypoint，我們可以通過一定的方式得到3D box的位置。定義 3D box 的狀態x = [x, y, z, θ]。

Figure 5，給出了一些稀疏的約束。包含了特徵點的對映過程。這裡也體現了keypoint的用處。

上述公式即為約束方程，因此可以通過高斯牛頓的方法直接求解。具體可以參考論文的引文17。這裡我們簡單證明一下第一個公式。注意，這裡的假設都是u，v座標都已經經過相機內參的歸一化了。

4. Dense 3D Box Alignment

這裡就回到shenshaojie老師比較熟悉的BA的過程了，由於part 3僅僅只是一個object level的深度，這裡文章利用最小化左右檢視的RGB的值，得到一個更加refine的過程。定義如下的誤差函式

求解可以利用G20或者ceres也可以完成。整個alignment過程其實相對於深度的直接預測是更加robust的，因為這種預測方法，避免了全域性的depth estimation中的一些invalid的pixel引起的ill problem的問題。

5. experiment

作者在實驗這塊達到了雙目視覺的state-of-the-art，同時對於各個module也做了很充足的實驗（這塊請檢視原論文）。

640?wx_fmt=jpeg

下面是圖a、b、c為處理結果示例，每幅影像內部上中下三部分，分別為左眼影像檢測結果、右眼影像檢測結果、鳥瞰檢視檢測結果。

640?wx_fmt=jpeg

圖a

640?wx_fmt=jpeg

圖b

640?wx_fmt=jpeg

圖c

6. Insight

最後談談文章給我的一些 insights，首先，整個文章將傳統的 detection 的任務，結合了 geometry constraint 優化的方式，做到了3D位置的估計，想法其實在不少文章sfm-learner之類的文章已經有體現過了，不過用在3Ddetection上面還是比較新穎，避免了做雙目匹配估計深度的過程。也屬於slam跟深度學習結合的一篇文章，感興趣的朋友可以繼續看看（下面連結）相關文章

arxiv.org/abs/1802.0552

談幾點我個人意義上的不足吧，首先耗時過程 0.28s 的 inference time，不過可能作者的重點也不在這個方面，特徵的利用上可以更加有效率，在實現上。其次，能不能採用deep3dbox的方式預測dimension，然後新增入優化項呢...總體來說，是一篇不錯的值得一讀的文章！

原文地址：
https://zhuanlan.zhihu.com/p/58077936

（本文為AI科技大本營轉載文章，轉載請微信作者）

近期 CVPR 2019 論文解讀推薦：

如果你也想分享自己的論文，歡迎投稿，可掃描下方二維碼與營長聯絡：

640?wx_fmt=png

推薦閱讀：

640?wx_fmt=png

❤點選“閱讀原文”，檢視歷史精彩文章。

CVPR2017-目標檢測相關
2020-04-06
CVPR2021 | 開放世界的目標檢測
2021-07-02
2019 年的目標檢測指南
2019-08-14
CVPR 2019 | 天秤座R-CNN：全面平衡的目標檢測器
2019-04-26
CNN
2D目標檢測綜述 2020 CVPR ECCV
2020-09-30
目標檢測
2018-04-24
做目標檢測，這一篇就夠了！2019最全目標檢測指南
2019-09-29
CVPR 2019 | PoolNet：基於池化技術的顯著性目標檢測
2019-05-27
從單幅影像到雙目立體視覺的3D目標檢測演算法
2019-08-01
視覺3D演算法
2018目標檢測
2018-08-27
九、目標檢測
2024-10-03
CVPR2019 | 史丹佛學者提出GIoU，目標檢測任務的新Loss
2019-03-10
萬字長文概述單目3D目標檢測演算法
2023-02-17
3D演算法
目標檢測入門系列手冊七：目標檢測的產品應用實踐【工業視覺篇】
2019-12-10
視覺
目標檢測之SSD
2018-12-18
目標檢測之RetinaNet
2018-12-19
NaN
目標檢測面面觀
2018-09-04
28-目標檢測
2024-08-27
目標檢測綜述
2020-12-13
深度學習“吃雞外掛”——目標檢測 SSD 實驗
2018-05-18
深度學習
深度學習之目標檢測與目標識別
2018-06-05
深度學習
目標檢測---教你利用yolov5訓練自己的目標檢測模型
2022-06-14
YOLO模型
使用 YOLO 進行實時目標檢測
2019-03-03
YOLO
使用Harr特徵的級聯分類器實現目標檢測
2022-04-12
特徵
3D目標檢測技術有哪些好用的模型？
2024-03-10
3D模型
CVPR 2018|Cascade R-CNN：向高精度目標檢測器邁進
2019-03-04
CNN
目標檢測：二維碼檢測方案
2022-03-26
目標檢測之YOLO系列
2018-12-18
YOLO
【目標檢測】Bounding Box Regression
2019-02-25
目標檢測發展方向
2018-08-09
SSD 目標檢測 Keras 版
2019-02-19
Keras
【目標檢測】R-CNN
2020-12-13
CNN
港中文開源影片動作分析庫MMAction，目標檢測庫演算法大更新
2019-06-20
Mac演算法
目標檢測 YOLO v3 驗證 COCO 模型
2019-03-04
YOLO模型
一個基於PyTorch的目標檢測工具箱，商湯聯合港中文開源mmdetection
2018-10-17
PyTorch
CVPR 2022資料集彙總｜包含目標檢測、多模態等方向
2022-04-18
港中文開源視訊動作分析庫MMAction，目標檢測庫演算法大更新
2019-06-20
Mac演算法
你要的2019最全目標檢測都在這裡啦！
2020-04-06

大疆、港科大聯手！雙目3D目標檢測實驗效果大放送 | CVPR 2019

CVPR 2019審稿滿分論文：中國博士提出融合CV與NLP的視覺語言導航新方法

CVPR2019 | 微軟、中科大開源基於深度高分辨表示學習的姿態估計演算法

相關文章