大疆、港科大聯手!雙目3D目標檢測實驗效果大放送 | CVPR 2019

AI科技大本營發表於2019-03-11

640?wx_fmt=jpeg


作者 | heryms

責編 | Jane


CVPR 2019的文章出來了,今天聊聊雙目的 3D object detection。這是一篇來自 DJI (大疆)與港科大合作的文章《Stereo R-CNN based 3D Object Detection for Autonomous Driving》,作者分別是 Peiliang Li,陳曉智(DJI,MV3D的作者)和港科大的 Shaojie Shen 老師。


640?wx_fmt=jpeg

論文連結,文中稱程式碼將開源

https://arxiv.org/abs/1902.09738


1. Introduction

2018 年在 3D 檢測方面的文章層出不窮,也是各個公司無人駕駛或者機器人學部門關注的重點,包含了點雲,點雲影像融合,以及單目 3D 檢測,但是在雙目視覺方面的貢獻還是比較少,自從 3DOP 之後。


總體來說,影像的檢測距離、影像的 density 以及 context 資訊,在 3D檢測中是不可或缺的一部分,因此作者在這篇文章中挖掘了雙目視覺做 3D檢測的的潛力。


2.Network Structure

640?wx_fmt=jpeg


整個網路結構分為以下的幾個部分。


1). RPN部分,作者將左右目的影像通過stereoRPN產生相應的proposal。具體來說stereo RPN是在FPN的基礎上,將每個FPN的scale上的feature map的進行concat的結構。


2). Stereo Regression,在RPN之後,通過RoiAlign的操作,得到each FPN scale下的left and right Roi features,然後concat相應的特徵,經過fc層得到object class, stereo bounding boxes dimension還有viewpoint angle(下圖所示) 的值。這裡解釋一下viewpoint,根據Figure3.,假定物

640?wx_fmt=jpeg



640?wx_fmt=jpeg



3). keypoint的檢測。這裡採用的是類似於mask rcnn的結構進行關鍵點的預測。文章定義了4個3D semantic keypoint,即車輛底部的3D corner point,同時將這4個點投影到影像,得到4個perspective keypoint,這4個點在3D bbox regression起到一定的作用,我們在下一部分再介紹。


在keypoint檢測任務中,作者利用RoiAlign得到的14*14feature map,經過conv,deconv最後得到6 * 28 * 28的feature map,注意到只有keypoint的u座標會提供2D Box以外的資訊,因此,處於減少計算量的目的,作者aggregate每一列的feature,得到6 * 28的output,其中,前4個channel代表4個keypoint被投影到相應的u座標的概率,後面兩個channel代表是left or right boundary上的keypoint的概率。


3. 3D Box Estimation


通過網路迴歸得到的 2D box 的 dimension,viewpoint,還有 keypoint,我們可以通過一定的方式得到3D box的位置。定義 3D box 的狀態x = [x, y, z, θ]。


640?wx_fmt=jpeg

Figure 5,給出了一些稀疏的約束。包含了特徵點的對映過程。這裡也體現了keypoint的用處。


640?wx_fmt=jpeg

上述公式即為約束方程,因此可以通過高斯牛頓的方法直接求解。具體可以參考論文的引文17。這裡我們簡單證明一下第一個公式。注意,這裡的假設都是u,v座標都已經經過相機內參的歸一化了。


640?wx_fmt=jpeg


4. Dense 3D Box Alignment

這裡就回到shenshaojie老師比較熟悉的BA的過程了,由於part 3僅僅只是一個object level的深度,這裡文章利用最小化左右檢視的RGB的值,得到一個更加refine的過程。定義如下的誤差函式


640?wx_fmt=png

求解可以利用G20或者ceres也可以完成。整個alignment過程其實相對於深度的直接預測是更加robust的,因為這種預測方法,避免了全域性的depth estimation中的一些invalid的pixel引起的ill problem的問題。

5. experiment

作者在實驗這塊達到了雙目視覺的state-of-the-art,同時對於各個module也做了很充足的實驗(這塊請檢視原論文)。


640?wx_fmt=jpeg


下面是圖a、b、c為處理結果示例,每幅影像內部上中下三部分,分別為左眼影像檢測結果、右眼影像檢測結果、鳥瞰檢視檢測結果。


640?wx_fmt=jpeg

圖a


640?wx_fmt=jpeg

圖b


640?wx_fmt=jpeg

圖c


6. Insight


最後談談文章給我的一些 insights,首先,整個文章將傳統的 detection 的任務,結合了 geometry constraint 優化的方式,做到了3D位置的估計,想法其實在不少文章sfm-learner之類的文章已經有體現過了,不過用在3Ddetection上面還是比較新穎,避免了做雙目匹配估計深度的過程。也屬於slam跟深度學習結合的一篇文章,感興趣的朋友可以繼續看看(下面連結)相關文章

arxiv.org/abs/1802.0552


談幾點我個人意義上的不足吧,首先耗時過程 0.28s 的 inference time,不過可能作者的重點也不在這個方面,特徵的利用上可以更加有效率,在實現上。其次,能不能採用deep3dbox的方式預測dimension,然後新增入優化項呢...總體來說,是一篇不錯的值得一讀的文章!


原文地址:

https://zhuanlan.zhihu.com/p/58077936


(本文為AI科技大本營轉載文章,轉載請微信作者)


近期 CVPR 2019 論文解讀推薦:


如果你也想分享自己的論文,歡迎投稿,可掃描下方二維碼與營長聯絡:


640?wx_fmt=png

推薦閱讀:


                         640?wx_fmt=png

點選“閱讀原文”,檢視歷史精彩文章。

相關文章