大疆、港科大聯手!雙目3D目標檢測實驗效果大放送 | CVPR 2019
作者 | heryms
責編 | Jane
CVPR 2019的文章出來了,今天聊聊雙目的 3D object detection。這是一篇來自 DJI (大疆)與港科大合作的文章《Stereo R-CNN based 3D Object Detection for Autonomous Driving》,作者分別是 Peiliang Li,陳曉智(DJI,MV3D的作者)和港科大的 Shaojie Shen 老師。
論文連結,文中稱程式碼將開源
https://arxiv.org/abs/1902.09738
1. Introduction
2018 年在 3D 檢測方面的文章層出不窮,也是各個公司無人駕駛或者機器人學部門關注的重點,包含了點雲,點雲影像融合,以及單目 3D 檢測,但是在雙目視覺方面的貢獻還是比較少,自從 3DOP 之後。
總體來說,影像的檢測距離、影像的 density 以及 context 資訊,在 3D檢測中是不可或缺的一部分,因此作者在這篇文章中挖掘了雙目視覺做 3D檢測的的潛力。
2.Network Structure
整個網路結構分為以下的幾個部分。
1). RPN部分,作者將左右目的影像通過stereoRPN產生相應的proposal。具體來說stereo RPN是在FPN的基礎上,將每個FPN的scale上的feature map的進行concat的結構。
2). Stereo Regression,在RPN之後,通過RoiAlign的操作,得到each FPN scale下的left and right Roi features,然後concat相應的特徵,經過fc層得到object class, stereo bounding boxes dimension還有viewpoint angle(下圖所示) 的值。這裡解釋一下viewpoint,根據Figure3.,假定物
3). keypoint的檢測。這裡採用的是類似於mask rcnn的結構進行關鍵點的預測。文章定義了4個3D semantic keypoint,即車輛底部的3D corner point,同時將這4個點投影到影像,得到4個perspective keypoint,這4個點在3D bbox regression起到一定的作用,我們在下一部分再介紹。
在keypoint檢測任務中,作者利用RoiAlign得到的14*14feature map,經過conv,deconv最後得到6 * 28 * 28的feature map,注意到只有keypoint的u座標會提供2D Box以外的資訊,因此,處於減少計算量的目的,作者aggregate每一列的feature,得到6 * 28的output,其中,前4個channel代表4個keypoint被投影到相應的u座標的概率,後面兩個channel代表是left or right boundary上的keypoint的概率。
3. 3D Box Estimation
通過網路迴歸得到的 2D box 的 dimension,viewpoint,還有 keypoint,我們可以通過一定的方式得到3D box的位置。定義 3D box 的狀態x = [x, y, z, θ]。
Figure 5,給出了一些稀疏的約束。包含了特徵點的對映過程。這裡也體現了keypoint的用處。
上述公式即為約束方程,因此可以通過高斯牛頓的方法直接求解。具體可以參考論文的引文17。這裡我們簡單證明一下第一個公式。注意,這裡的假設都是u,v座標都已經經過相機內參的歸一化了。
4. Dense 3D Box Alignment
這裡就回到shenshaojie老師比較熟悉的BA的過程了,由於part 3僅僅只是一個object level的深度,這裡文章利用最小化左右檢視的RGB的值,得到一個更加refine的過程。定義如下的誤差函式
求解可以利用G20或者ceres也可以完成。整個alignment過程其實相對於深度的直接預測是更加robust的,因為這種預測方法,避免了全域性的depth estimation中的一些invalid的pixel引起的ill problem的問題。
5. experiment
作者在實驗這塊達到了雙目視覺的state-of-the-art,同時對於各個module也做了很充足的實驗(這塊請檢視原論文)。
下面是圖a、b、c為處理結果示例,每幅影像內部上中下三部分,分別為左眼影像檢測結果、右眼影像檢測結果、鳥瞰檢視檢測結果。
圖a
圖b
圖c
6. Insight
最後談談文章給我的一些 insights,首先,整個文章將傳統的 detection 的任務,結合了 geometry constraint 優化的方式,做到了3D位置的估計,想法其實在不少文章sfm-learner之類的文章已經有體現過了,不過用在3Ddetection上面還是比較新穎,避免了做雙目匹配估計深度的過程。也屬於slam跟深度學習結合的一篇文章,感興趣的朋友可以繼續看看(下面連結)相關文章
arxiv.org/abs/1802.0552
談幾點我個人意義上的不足吧,首先耗時過程 0.28s 的 inference time,不過可能作者的重點也不在這個方面,特徵的利用上可以更加有效率,在實現上。其次,能不能採用deep3dbox的方式預測dimension,然後新增入優化項呢...總體來說,是一篇不錯的值得一讀的文章!
原文地址:
https://zhuanlan.zhihu.com/p/58077936
(本文為AI科技大本營轉載文章,轉載請微信作者)
近期 CVPR 2019 論文解讀推薦:
如果你也想分享自己的論文,歡迎投稿,可掃描下方二維碼與營長聯絡:
推薦閱讀:
❤點選“閱讀原文”,檢視歷史精彩文章。
相關文章
- CVPR2017-目標檢測相關
- CVPR2021 | 開放世界的目標檢測
- 2019 年的目標檢測指南
- CVPR 2019 | 天秤座R-CNN:全面平衡的目標檢測器CNN
- 目標檢測
- 2D目標檢測綜述 2020 CVPR ECCV
- 做目標檢測,這一篇就夠了!2019最全目標檢測指南
- CVPR 2019 | PoolNet:基於池化技術的顯著性目標檢測
- 從單幅影像到雙目立體視覺的3D目標檢測演算法視覺3D演算法
- 九、目標檢測
- 2018目標檢測
- CVPR2019 | 史丹佛學者提出GIoU,目標檢測任務的新Loss
- 萬字長文概述單目3D目標檢測演算法3D演算法
- 目標檢測入門系列手冊七:目標檢測的產品應用實踐【工業視覺篇】視覺
- 28-目標檢測
- 目標檢測綜述
- 目標檢測之SSD
- 目標檢測之RetinaNetNaN
- 目標檢測面面觀
- 深度學習“吃雞外掛”——目標檢測 SSD 實驗深度學習
- 深度學習之目標檢測與目標識別深度學習
- 目標檢測---教你利用yolov5訓練自己的目標檢測模型YOLO模型
- 使用 YOLO 進行實時目標檢測YOLO
- 使用Harr特徵的級聯分類器實現目標檢測特徵
- 目標檢測:二維碼檢測方案
- 3D目標檢測技術有哪些好用的模型?3D模型
- CVPR 2018|Cascade R-CNN:向高精度目標檢測器邁進CNN
- 【目標檢測】R-CNNCNN
- 目標檢測之YOLO系列YOLO
- 【目標檢測】Bounding Box Regression
- SSD 目標檢測 Keras 版Keras
- 目標檢測發展方向
- 港中文開源影片動作分析庫MMAction,目標檢測庫演算法大更新Mac演算法
- 目標檢測 YOLO v3 驗證 COCO 模型YOLO模型
- 一個基於PyTorch的目標檢測工具箱,商湯聯合港中文開源mmdetectionPyTorch
- 港中文開源視訊動作分析庫MMAction,目標檢測庫演算法大更新Mac演算法
- CVPR 2022資料集彙總|包含目標檢測、多模態等方向
- 你要的2019最全目標檢測都在這裡啦!