ECCV 2018 | CornerNet：目標檢測演算法新思路

極市平臺發表於2018-08-30

原文網址 : https://juejin.im/post/5b87ea7ef265da435b0b3fef

本文由極市部落格原創，作者陳泰紅。
複製程式碼

1目標檢測演算法概述

CornerNet（arxiv.org/abs/1808.01…）是密歇根大學Hei Law等人在發表ECCV2018的一篇論文，主要實現目標檢測。在開始介紹CornerNet論文之前，先複習一下目標檢測領域的主流演算法，因為作者提出的演算法和主流演算法很多不一樣。

深度方法主要分為one-stage(e.g. SSD, YOLO)和two-stage(e.g. RCNN系列)兩種。single-stage直接在圖片上經過計算生成detections。two-stage先提取proposal, 再基於proposal做二次修正。相對來說single-stage速度快, 精度低. 而two-stage精度高, 速度慢。

2012年，基於深度學習CNN網路的AlexNet在ILSVRC競賽的ImageNet上大放異彩, 2014年Ross Girshick利用CNN成功取代了HOG、DPM等特徵提取， ross等人把目標檢測分成了三個步驟，首先是對影象提取detection proposal，其實就是影象中一些可能是檢測物體的區域，然後使用cnn對這些proposal進行特徵提取，最後用svm對這些提取到的特徵進行分類，從而完成檢測的任務，這是 Two-stage object detectors鼻祖。

從RCNN、SPPNet到fast RCNN，再到Faster RCNN，目標檢測的三個步驟（區域選擇，特徵提取，分類迴歸）被統一到一個深度網路框架之內，大大提高了執行速度。FCN，FPN, RoI Align, Mask Branch等技術把Faster R-CNN往前極大的推進。之後又出現了FCN, IoU, NMS,ION,FPN, RoI Align和Mask Branch等技術淵源和YOLO, SSD, AttratioNet, G-CNN, R-FCN, Mask R-CNN， Mask ^X R-CNN等的進化關係！

圖 1 Faster RCNN演算法框架

one-stage檢測演算法，其不需要region proposal階段，直接產生物體的類別概率和位置座標值，經過單次檢測即可直接得到最終的檢測結果，因此有著更快的檢測速度，比較典型的演算法如YOLO，SSD，Retina-Net。YOLO 使用了分治思想，將輸入圖片分為 SxS 的網格，不同網格用效能優良的分類器去分類。SSD 將 YOLO 和 Anchor 思想融合起來，並創新使用 Feature Pyramid 結構。YOLO, YOLO-v2, YOLO-v3， SSD、DSSD等實時模型的推出，讓目標檢測變得更快。

2.Motivation

CornerNet認為Two-stage目標檢測最明顯的缺點是 Region Proposal 階段需要提取的anchor boxes。(1)、提取的anchor boxes數量較多，比如DSSD使用40k， RetinaNet使用100k，anchor boxes眾多造成anchor boxes征服樣本均衡。(2)、anchor boxes需要調整很多超引數，比如anchor boxes數量、尺寸、比率，影響模型的訓練和推斷速率。

論文提出one-stage的檢測方法，捨棄傳統的 anchor boxes思路，提出CornerNet模型預測目標邊界框的左上角和右下角一對頂點，即使用單一卷積模型生成熱點圖和連線向量：所有目標的左上角和所有目標的右下角熱點圖，每個頂點的連線向量(embedding vector)。

圖 2 CornerNet框架

作者的思路其實來源於一篇多人姿態估計的論文[1]。基於CNN的2D多人姿態估計方法，通常有2個思路（Bottom-Up Approaches和Top-Down Approaches）：

（1）Top-Down framework，就是先進行行人檢測，得到邊界框，然後在每一個邊界框中檢測人體關鍵點，連線成每個人的姿態，缺點是受人體檢測框影響較大，代表演算法有RMPE。

（2）Bottom-Up framework，就是先對整個圖片進行每個人體關鍵點部件的檢測，再將檢測到的人體部位拼接成每個人的姿態，代表方法就是openpose。

論文的第一個創新是講目標檢測上升到方法論，基於多人姿態估計的Bottom-Up思想，首先同時預測定位框的頂點對（左上角和右下角）熱點圖和embedding vector，根據embedding vector對頂點進行分組。

論文第二個創新是提出了corner pooling用於定位頂點。自然界的大部分目標是沒有邊界框也不會有矩形的頂點，依top-left corner pooling 為例，對每個channel，分別提取特徵圖的水平和垂直方向的最大值，然後求和。

圖 3 corner pooling計算方式

論文認為corner pooling之所以有效，是因為（1）目標定位框的中心難以確定，和邊界框的4條邊相關，但是每個頂點只與邊界框的兩條邊相關，所以corner 更容易提取。（2）頂點更有效提供離散的邊界空間，實用O(wh)頂點可以表示O(w2h2) anchor boxes。

論文的第三個創新是模型基於hourglass架構，使用focal loss[5]的變體訓練神經網路。

論文提出的CornerNet在MS COCO測試驗證，達到42.1% AP，完勝所有的one-stage目標檢測方法，同時在git公佈基於PyTorch原始碼：

github.com/umich-vl/Co…

3.Architecture

3.1 Overview

圖 4CornerNet模型架構

如圖 4所示，CornerNet模型架構包含三部分，Hourglass[7] Network,Bottom-right corners&Top-left Corners Heatmaps和Prediction Module。

Hourglass Network是人體姿態估計的典型架構，論文堆疊兩個Hourglass Network生成Top-left和Bottom-right corners，每一個corners都包括corners Pooling，以及對應的Heatmaps, Embeddings vector和offsets。embedding vector使相同目標的兩個頂點（左上角和右下角）距離最短， offsets用於調整生成更加緊密的邊界定位框。

3.2Detecting Corners

論文模型生成的heatmaps包含C channels（C是目標的類別，沒有background channel），每個channel是二進位制掩膜，表示相應類別的頂點位置。

對於每個頂點，只有一個ground-truth，其他位置都是負樣本。在訓練過程，模型減少負樣本，在每個ground-truth頂點設定半徑r區域內都是正樣本，這是因為落在半徑r區域內的頂點依然可以生成有效的邊界定位框，論文中設定IoU=0.7。

p_cij表示類別為c，座標是（i,j）的預測熱點圖，y_cij表示相應位置的ground-truth，論文提出變體Focal loss表示檢測目標的損失函式：

由於下采樣，模型生成的熱點圖相比輸入影象解析度低。論文提出偏移的損失函式，用於微調corner和ground-truth偏移。

3.3Grouping Corners

輸入影象會有多個目標，相應生成多個目標的左上角和右下角頂點。對頂點進行分組，論文引入[1] Associative Embedding的思想，模型在訓練階段為每個corner預測相應的embedding vector，通過embedding vector使同一目標的頂點對距離最短，既模型可以通過embedding vector為每個頂點分組。

模型訓練L_pull損失函式使同一目標的頂點進行分組， L_push損失函式用於分離不同目標的頂點。

3.4Hourglass Network

Hourglass Network同時包含了bottom-up（from high resolutions to low resolutions)和top-down (from low resolutions to high resolutions)。而且，整個網路有多個bottom-up和top-down過程。這樣設計的目的是在各個尺度下抓取資訊。針對目標檢測任務，論文調整了Hourglass一些策略。

4.Experiments

論文的訓練損失函式包含了第三部分介紹的4個損失函式，α, β 和γ用於調整相應損失函式的權重：

模型訓練過程中使用10個Titan X (PASCAL) GPUs，詳細的訓練引數可參考原論文。模型的推斷時間是244ms/ image (Titan XPASCAL GPU)。

CornerNet相比其它one-stage目標檢測演算法，MS COCO資料集測試AP有明顯提高，雖然效能接近於Two-stage檢測演算法，但是推斷時間無明顯優勢。

Table 4MS COCO test-dev資料集效能對比

5.Discussion

個人觀點：CornerNet創新來自於多人姿態估計的Bottom-Up思路，預測corner的heatmps,根據Embeddings vector對corner進行分組，其主幹網路也來自於姿態估計的Hourglass Network。模型的原始碼在github已經公佈，可以放心大膽的研究測試。

CV的很多工之間是相通的，CVPR2018 best paper [8]也印證這一觀點，在不同的子領域尋找相似性，遷移不同領域的演算法，是CV行業一個趨勢。

多人姿態估計的Hourglass Network演算法也不斷改進中，其實論文模型的推斷速率受限於Hourglass Network的特徵提取，有志青年也可以沿著這個思路取得更好的效能。

以上僅為個人閱讀論文後的理解、總結和思考。觀點難免偏差，望讀者以懷疑批判態度閱讀，歡迎交流指正。

6.參考文獻

Newell, A., Huang, Z., Deng, J.: Associative embedding: End-to-end learning for joint detection and grouping. In: Advances in Neural Information Processing Systems. pp. 2274{2284 (2017)
Hei Law, Jia Deng :CornerNet: Detecting Objects as Paired Keypoints.ECCV2018
Girshick, R.: Fast r-cnn. arXiv preprint arXiv:1504.08083 (2015)
Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 580{587 (2014)
Lin, T.Y., Goyal, P., Girshick, R., He, K., Doll´ar, P.: Focal loss for dense object detection. arXiv preprint arXiv:1708.02002 (2017)
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C.:SSD: Single shot multibox detector. In: European conference on computer vision.pp. 21{37. Springer (2016)
Newell, A., Yang, K., Deng, J.: Stacked hourglass networks for human pose estimation. In: European Conference on Computer Vision. pp. 483{499. Springer (2016)
Amir R. Zamir , Alexander Sax Taskonomy: Disentangling Task Transfer Learning.CVPR2018

本文為極市平臺原創文章，更多技術分享和專案需求合作請關注極市平臺微訊號（extrememart）

2018目標檢測
2018-08-27
2D目標檢測綜述 2020 CVPR ECCV
2020-09-30
目標檢測演算法學習
2019-03-16
演算法
目標檢測
2018-04-24
目標檢測演算法盤點（最全）
2018-04-27
演算法
CornerNet-Lite，基於關鍵點的實時且精度高的目標檢測演算法已開源
2019-08-21
演算法
九、目標檢測
2024-10-03
深度剖析目標檢測演算法YOLOV4
2020-12-10
演算法YOLO
目標檢測之SSD
2018-12-18
目標檢測之RetinaNet
2018-12-19
NaN
目標檢測面面觀
2018-09-04
28-目標檢測
2024-08-27
目標檢測綜述
2020-12-13
目標檢測：二維碼檢測方案
2022-03-26
【目標檢測】Fast R-CNN演算法實現
2023-09-20
ASTCNN演算法
目標檢測---教你利用yolov5訓練自己的目標檢測模型
2022-06-14
YOLO模型
目標檢測之YOLO系列
2018-12-18
YOLO
【目標檢測】Bounding Box Regression
2019-02-25
目標檢測發展方向
2018-08-09
SSD 目標檢測 Keras 版
2019-02-19
Keras
【目標檢測】R-CNN
2020-12-13
CNN
百度飛槳PaddleDetection威力再顯，助力獲得兩項ECCV目標檢測冠軍
2020-09-04
萬字長文概述單目3D目標檢測演算法
2023-02-17
3D演算法
做目標檢測，這一篇就夠了！2019最全目標檢測指南
2019-09-29
深度學習之目標檢測與目標識別
2018-06-05
深度學習
Object Detection(目標檢測神文)
2018-11-02
Object
目標檢測（Object Detection）總覽
2018-08-08
Object
2019 年的目標檢測指南
2019-08-14
目標檢測相關論文
2020-04-05
目標檢測：Segmentation is All You Need ？
2019-05-07
Segmentation
深度學習之目標檢測
2019-02-20
深度學習
目標檢測（一）：LeNet-5
2021-12-07
目標檢測資料集分析
2022-04-19
基於混合高斯模型的運動目標檢測演算法
2018-07-21
模型演算法
【計算機視覺前沿研究熱點頂會】ECCV 2024中目標檢測有關的論文
2024-09-04
計算機視覺
CVPR 2018|Cascade R-CNN：向高精度目標檢測器邁進
2019-03-04
CNN
[AI開發]目標檢測之素材標註
2019-08-02
AI
PIoU Loss：傾斜目標檢測專用損失函式，公開超難傾斜目標資料集Retail50K | ECCV 2020 Spotlight
2020-09-09
函式AI