CVPR 2017論文解讀：用於單目影像車輛3D檢測的多工網路

机器之心發表於2017-07-25

昨日，CVPR 2017獲獎論文公佈，引起了業內極大的關注。但除了這些獲獎論文，還有眾多精彩的論文值得一讀。因此在大會期間，國內自動駕駛創業公司 Momenta 聯合機器之心推出CVPR 2017精彩論文解讀專欄，本文是此係列專欄的第一篇，作者為 Momenta 高階研發工程師賈思博。

論文：Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image

這篇文章主要處理單目影像中的車輛檢測問題。車輛檢測是一個經典的基於影像的目標檢測問題，也是智慧駕駛感知過程的核心問題之一。現有的多種目標檢測框架如 Faster RCNN、YOLO 等已經可以較好地處理一般的目標檢測問題，但是在應用於車輛檢測時還有兩個主要的痛點：（1）現有目標檢測演算法在平均準確率（AP）衡量下可以做到較高精度，但是目標包圍框的定位（Localization）精度不夠，後者對於車輛檢測進一步分析有重要作用；（2）目標檢測侷限在影像空間中，缺乏有效演算法預測車輛在真實 3D 空間中的位置和姿態。

針對以上問題，作者在這篇文章中提出了一種基於單目影像檢測車輛並預測 3D 資訊的框架。在文章中，對於一個 3D 車輛目標的描述，包括：車輛包圍立方體的位置座標，各個部件（如車輪、車燈等）的 3D 座標、可見性、地平面方向上的旋轉角，以及車輛自身 3D 尺寸。下圖是車輛建模的示意圖。論文通過預測車輛自身 3D 尺寸，從標註的 3D 模型庫中找到最相近的 3D 模型，進一步根據預測出的部件的 2D 座標與 3D 模型座標進行 PnP 匹配得到車輛的 3D 位置與姿態。

CVPR 2017論文解讀：用於單目影像車輛3D檢測的多工網路

論文使用的網路結構基於 Faster RCNN 框架。新的訓練方式最突出的特點有以下幾點：（1）網路不僅預測車輛包圍框，同時還預測車輛部件座標、部件可見性、車輛自身尺寸等豐富的資訊；（2）網路使用了級聯的結構（cascade）預測以上資訊，在共享底層特徵（feature map）的同時提供足夠的擬合能力預測多種資訊，並反覆迴歸包圍框，提高定位精度；（3）在網路推測（inference）時使用上述預測的資訊進行 2D/3D 匹配以得到車輛的 3D 姿態與位置資訊。訓練/推測過程的流程圖如下圖。此外，論文還提出了適合這一訓練框架的標註方法，只需要標註 3D 空間下車輛的 3D 包圍框，程式可以自動從 3D 模型庫中找到尺寸最相近的模型，並根據姿態資訊自動生成部件座標、部件可見性。這一標註方案對於 KITTI 這類帶有 3D 資訊的資料集來說是很方便的。

CVPR 2017論文解讀：用於單目影像車輛3D檢測的多工網路

文章使用了 103 個標準車輛 3D 模型，每個模型包含 36 個部件座標資訊。網路基礎結構使用了 GoogleNet 以及 VGG16，具體訓練引數詳見文章第 5 節。模型在 KITTI 的車輛檢測、角度迴歸、3D 定位任務中均達到了領先水平，驗證了這一方法的有效性。

Q&A

1.在多工網路中是如何平衡各個任務的 loss，以及如何利用部件可見性這一任務的？

A：除了部件座標外均使用經驗值 loss weight = 1，對於部件座標嘗試 loss weight = 3 時效果更佳。部件可見性主要用於輔助網路學習部件座標資訊，在 inference 中並沒有用到這一資訊。另外，在迴歸部件座標時，對於不可見的部件關鍵點沒有給 loss，對於可見的部件關鍵點給了 N_total／N_visible的 loss，即總的關鍵點個數比上可見的關鍵點個數，論文原文中沒有提到這一點。

2. 在分類不同車型時，為什麼迴歸 Template similarity 即車輛尺寸與每一個模型的尺寸比例，而不是直接回歸車輛尺寸？如果有不同車型具有同樣尺寸怎麼辦？

A：使用 Template similarity 是一個簡便的提供歸一化的方法，如果直接回歸尺寸，對於不同的車型 scale 相差較大，效果不好。Caltech 模型庫中確實有可能出現同樣尺寸的情形，但從訓練結果看並沒有造成明顯的問題。

3. 關於作者提出的「弱標註方法」，是如何標註車輛的 3D 框的？

A：KITTI 資料集中有車輛的 3D groundtruth，所以可以直接生成 3D 框資料，不需要額外標註。對於真實環境下的資料，作者正在嘗試解決，現在還沒有一個比較有效的方案。 CVPR 2017論文解讀：用於單目影像車輛3D檢測的多工網路

輪廓檢測論文解讀 | Richer Convolutional Features for Edge Detection | CVPR | 2017
2020-12-15
影像分割論文 | DRN膨脹殘差網路 | CVPR2017
2021-01-21
影像處理論文詳解 | Deformable Convolutional Networks | CVPR | 2017
2020-12-19
ORM
CVPR2017-目標檢測相關
2020-04-06
CVPR 2019|PoolNet:基於池化技術的顯著性檢測論文解讀
2019-05-27
AAAI 2019 論文解讀 | 基於區域分解整合的目標檢測
2019-03-04
AI
輪廓檢測論文解讀 | 整體巢狀邊緣檢測HED | CVPR | 2015
2020-12-08
巢狀
80篇CVPR 2020論文分方向整理：目標檢測/影像分割/姿態估計等
2020-03-23
基於GAN的字型風格遷移 | CVPR 2018論文解讀
2018-04-03
Backbone 網路-DenseNet 論文解讀
2022-12-14
SENet
Backbone 網路-ResNet 論文解讀
2023-02-22
一文讀懂目標檢測模型（附論文資源）
2018-05-27
模型
論文解讀 | 基於神經網路的知識推理
2018-03-08
神經網路
目標檢測相關論文
2020-04-05
萬字長文概述單目3D目標檢測演算法
2023-02-17
3D演算法
CVPR2017部分論文簡介
2018-05-28
阿里達摩院自動駕駛新突破，實現 3D 物體檢測精度與速度兼得 | CVPR 2020 論文解讀
2020-04-08
阿里自動駕駛3D
PTAV：實時高精度目標追蹤框架 | ICCV 2017論文解讀
2018-03-20
框架
從單幅影像到雙目立體視覺的3D目標檢測演算法
2019-08-01
視覺3D演算法
Nature論文解讀 | 基於深度學習和心臟影像預測生存概率
2019-02-26
深度學習
並行多工學習論文閱讀（五）：論文閱讀總結
2021-11-12
並行
帶你讀AI論文：基於Transformer的直線段檢測
2021-09-11
AIORM
商湯ICCV論文解讀：自然場景下文字檢測的幾何歸一化網路（GNNets）
2019-12-17
GNN
CVPR 2018 目標跟蹤相關論文
2018-08-03
Lane-Detection 近期車道線檢測論文閱讀總結
2020-10-09
《基於深度學習的目標檢測綜述》論文獲發表
2023-01-30
深度學習
跟我讀CVPR 2022論文：基於場景文字知識挖掘的細粒度影像識別演算法
2022-04-24
演算法
帶你讀AI論文丨LaneNet基於實體分割的端到端車道線檢測
2021-09-11
AI
CVPR2021 | 開放世界的目標檢測
2021-07-02
曠視科技Oral論文解讀：IoU-Net讓目標檢測用上定位置信度
2018-08-01
一階段目標檢測網路-RetinaNet 詳解
2022-12-23
NaN
二階段目標檢測網路-FPN 詳解
2022-12-16
CVPR 2022 | 美團技術團隊精選論文解讀
2022-06-24
CVPR 2019 | PoolNet：基於池化技術的顯著性目標檢測
2019-05-27
並行多工學習論文閱讀（一）：多工學習速覽
2021-10-29
並行
【CVPR2018】物體檢測中的結構推理網路
2018-07-29
二階段目標檢測網路-Faster RCNN 詳解
2022-12-15
ASTCNN
二階段目標檢測網路-Mask RCNN 詳解
2022-12-19
CNN
二階段目標檢測網路-Cascade RCNN 詳解
2022-12-20
CNN

CVPR 2017論文解讀：用於單目影像車輛3D檢測的多工網路

Q&A

相關文章