CVPR2019 | 史丹佛學者提出GIoU,目標檢測任務的新Loss

AI科技大本營發表於2019-03-10

640?wx_fmt=jpeg


作者 | Slumbers,畢業於中山大學,深度學習工程師,主要方向是目標檢測,語義分割,GAN

責編 | Jane


本文是對 CVPR2019 論文《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》的解讀,通過對 Loss 的修改提升檢測任務的效果,覺得思路很棒。



640?wx_fmt=jpeg


該文作者來自史丹佛大學與澳大利亞阿德萊德大學。


IoU是檢測任務中最常用的指標,由於IoU是比值的概念,對目標物體的scale是不敏感的。然而檢測任務中的BBox的迴歸損失(MSE loss, l1-smooth loss等)優化和IoU優化不是完全等價的(見下圖)。


而且 Ln 範數對物體的scale也比較敏感。這篇論文提出可以直接把IoU設為迴歸的loss。然而有個問題是IoU無法直接優化沒有重疊的部分。為了解決這個問題這篇paper提出了GIoU的思想~


640?wx_fmt=jpeg


IoU與L2範數的優化不是等效的。要將IoU設計為損失,主要需要解決兩個問題:


  1. 預測值和Ground truth沒有重疊的話,IoU始終為0且無法優化

  2. IoU無法辨別不同方式的對齊,比如方向不一致等。


640?wx_fmt=jpeg

IoU 無法代表 overlap 的方式


GIoU

所以論文中提出的新 GIoU 是怎麼設計的呢:


假如現在有兩個任意性質 A,B,我們找到一個最小的封閉形狀C,讓C可以把A,B包含在內,然後我們計算C中沒有覆蓋A和B的面積佔C總面積的比值,然後用A與B的IoU減去這個比值:

640?wx_fmt=jpeg


GIoU有如下性質:

  • 與IoU類似,GIoU也可以作為一個距離,loss可以用 (下面的公式)來計算


640?wx_fmt=jpeg


同原始 IoU 類似,GIoU 對物體的大小不敏感。GIoU 總是小於等於 IoU,對於 IoU,有


640?wx_fmt=jpeg


 GIoU 則是


640?wx_fmt=jpeg


 在兩個形狀完全重合時,有


640?wx_fmt=jpeg


由於 GIoU 引入了包含 A,B 兩個形狀的 C,所以當 A,B 不重合時,依然可以進行優化。


總之就是保留了IoU的原始性質同時弱化了它的缺點。於是論文認為可以將其作為IoU的替代。

 

GIoU 作為 BBox 迴歸的損失


具體一點,如何計算損失呢?我們以 2D detecation 為例:

假設我們現在有預測的 Bbox 和 groud truth 的 Bbox 的座標,分別記為:


640?wx_fmt=jpeg


注意我們規定對於預測的 BBox 來說,有


640?wx_fmt=jpeg


 主要是為了方便之後點的對應關係。


640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg


作者做了一系列的實驗(針對分割任務和分類任務有一定 loss 的調整設計,不過論文中沒有詳細給出)結果是 IoU loss 可以輕微提升使用 MSE 作為 loss 的表現,而 GIoU 的提升幅度更大,這個結論在 YOLO 演算法和 faster R-CNN 系列上都是成立的:


640?wx_fmt=jpeg

PASCAL VOC 2007上的提升with Yolo


640?wx_fmt=jpeg

MS COCO的提升with Yolo


640?wx_fmt=jpeg

PASCAL VOC 2007 with faster-RCNN


更多內容大家可以參考專案主頁:

https://giou.stanford.edu/

程式碼實現:

https://github.com/generalized-iou

原文連結:

https://zhuanlan.zhihu.com/p/57992040


--【本文完】--


近期 CVPR 2019 論文解讀推薦:

首發 | 曠視14篇CVPR 2019論文,都有哪些亮點?

騰訊58篇論文入選CVPR 2019,兩年增長超200%

CVPR 2019審稿滿分論文:中國博士提出融合CV與NLP的視覺語言導航新方法

CVPR 2019 | 驚豔的SiamMask:開源快速同時進行目標跟蹤與分割演算法

CVPR2019 | 微軟、中科大開源基於深度高分辨表示學習的姿態估計演算法


如果你也想分享自己的論文,歡迎投稿,可掃描下方二維碼與營長聯絡:

640?wx_fmt=png


(本文為AI科技大本營轉載文章,轉載請微信作者)


推薦閱讀:

                         640?wx_fmt=png

點選“閱讀原文”,檢視歷史精彩文章。

相關文章