曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

機器之心發表於2018-08-01

目標檢測涉及到目標分類和目標定位,但很多基於 CNN 的目標檢測方法都存在分類置信度和定位置信度不匹配的問題。針對這一問題,一種稱之為 IoU-Net 的目標檢測新方法被提出,在基準方法的基礎上實現了顯著的提升。該論文已被將於當地時間 9 月 8-14 日在德國慕尼黑舉辦的 ECCV 2018 接收為口頭報告。此外,該論文的三位並列一作是在曠視科技實習期間完成並提交的這篇論文。

論文:Acquisition of Localization Confidence for Accurate Object Detection

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

  • 論文地址:https://arxiv.org/abs/1807.11590

  • 程式碼地址:https://github.com/vacancy/PreciseRoIPooling

摘要:現代基於 CNN 的目標檢測器依靠邊界框迴歸和非極大抑制(NMS)來定位目標,其對類別標籤的預測概率可以天然反映每個框的分類置信度,然而對框的定位置信度卻缺失了。這使得原本定位準確的邊界框會在迭代迴歸的過程中偏離目標,又或甚至在 NMS 過程中受到抑制。研究者在本文中提出 IoU-Net,可學習預測每個檢測得到的邊界框和與之匹配的目標之間的 IoU 作為該框的定位置信度。利用這種定位置信度,檢測器能確保定位更準確的邊界框在 NMS 過程中被保留下來,從而改進了 NMS 過程。此外,將預測得到的 IoU 作為優化目標,一種基於優化的邊界框修正方法也同時被提出。研究者在 MS-COCO 資料集上進行了大量實驗,結果證明了 IoU-Net 的有效性,並且還表明其能夠輕鬆地整合並提高包括 Faster R-CNN、FPN、Cascade R-CNN 等多種當前最佳的目標檢測器。

1 引言

目標檢測是很多下游視覺應用的前提基礎,比如例項分割 [19,20]、人體骨架繪製 [27]、人臉識別 [26] 和高階目標推理 [30]。它結合了目標分類和目標定位兩個任務。現代大多數目標檢測器的框架是 two-stage [9,8,22,16,10],其中目標檢測被定義為一個多工學習問題:1)區分前景物體框與背景併為它們分配適當的類別標籤;2)迴歸一組係數使得最大化檢測框和目標框之間的交併比(IoU)或其它指標。最後,通過一個 NMS 過程移除冗餘的邊界框(對同一目標的重複檢測)。

在這樣的檢測流程中,分類和定位被用不同的方法解決。具體來說,給定一個提議框(proposal),每個類別標籤的概率可自然而然地用作該提議的「分類置信度」,而邊界框迴歸模組卻只是預測了針對該提議框的變換系數,以擬合目標物體的位置。換而言之,在這個流程缺失了「定位置信度」。

定位置信度的缺失帶來了兩個缺點。(1)首先,在抑制重複檢測時,由於定位置信度的缺失,分類分數通常被用作給檢測框排名的指標。在圖 1(a) 中,研究者展示了一組案例,其中有更高分類置信度的檢測框卻與其對應的目標物體有更小的重疊。就像 Gresham 著名的「劣幣驅逐良幣」理論一樣,分類置信度和定位準確度之間的不匹配可能會導致定位更準確的邊界框在 NMS 過程中反而被更不準確的邊界框抑制了。(2)其次,缺乏定位置信度使得被廣泛使用的邊界框迴歸方法缺少可解釋性或可預測性。舉個例子,之前的研究 [3] 報告了迭代式邊界框迴歸的非單調性。也就是說,如果多次應用邊界框迴歸,可能有損輸入邊界框的定位效果(見圖 1(b))。

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

 圖 1:由缺乏定位置信度所造成的兩個缺點的圖示。這些示例選自 MS-COCO minival [17]。(a)分類置信度和定位準確度不對齊的示例。黃框表示真實目標框,紅框和綠框都是 FPN [16] 所得到的檢測結果。定位置信度是由研究者提出的 IoU-Net 計算得到的。使用分類置信度作為排名指標,會導致定位更準確的邊界框(綠框)在傳統的 NMS 流程被錯誤地刪去。2.1 節提供了定量分析。(b)在迭代式邊界框迴歸中非單調定位的示例。2.2 節提供了定量分析。

研究者在這篇論文中引入了 IoU-Net,其能預測檢測到的邊界框和它們對應的真實目標框之間的 IoU,使得該網路能像其分類模組一樣,對檢測框的定位精確程度有所掌握。這種簡單的預測 IoU 值能為研究者提供前述問題的新解決方案:

1.IoU 是定位準確度的一個天然標準。研究者可以使用預測得到的 IoU 替代分類置信度作為 NMS 中的排名依據。這種技術被稱為 IoU 引導式 NMS(IoU-guided NMS),可消除由誤導性的分類置信度所造成的抑制錯誤。

2. 研究者提出了一種基於優化的邊界框修正流程,可與傳統的基於迴歸的邊界框修正方法分庭抗禮。在推理期間,預測得到的 IoU 可用作優化目標,也可作為定位置信度的可解釋性指示量。研究者提出的精準 RoI 池化層(Precise RoI Pooling layer)讓研究者可通過梯度上升求解 IoU 優化。研究者表明,相比於基於迴歸的方法,基於優化的邊界框修正方法在實驗中能實現定位準確度的單調提升。這種方法完全相容並可整合進各種不同的基於 CNN 的檢測器 [16,3,10]。

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

邊界框修正示例:上行是傳統方法的結果,下行是本文提出方法的結果。

2 深入目標定位

2.1 分類準確度和定位準確度不匹配

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

圖 2:邊界框與其對應目標框的 IoU 與分類/定位置信度之間的關係。對那些與目標框的 IoU 高於 0.5 的檢測框,其 Pearson 相關係數為 (a) 0.217 和 (b) 0.617。(a)分類置信度表示了一個邊界框的類別,但不能被解讀成定位準確度。(b)為了解決這個問題,研究者提出了 IoU-Net 來預測每個檢測到的邊界框的定位置信度,即其與對應的目標框的 IoU。

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

圖 3:經過 NMS 之後得到的正例邊界框的數量,根據它們與對應的目標框之間的 IoU 分組。在傳統 NMS 中(藍色條形圖),定位準確的邊界框中有很大一部分會被錯誤抑制,這是由分類置信度和定位準確度之間的不匹配造成的,而 IoU 引導式 NMS(黃色條形圖)則能保留定位更準確的邊界框。

2.2 非單調邊界框迴歸

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

圖 4:基於優化的與基於迴歸的 BBox 優化。(a)在 FPN 中比較。當迭代式地應用迴歸時,檢測結果的 AP(平均精度)首先會提升,但會在之後的迭代中快速降低。(b)在 Cascade R-CNN 中比較。迭代 0、1、2 表示 Cascade R-CNN 中的第 1、2、3 個迴歸階段。在多輪迴歸之後,AP 稍有下降,而基於優化的方法則進一步將 AP 提高了 0.8%。

3 IoU-Net

為了定量地分析 IoU 預測的有效性,研究者首先在 3.1 節提出了用於訓練 IoU 預測器的方法。在 3.2 和 3.3 節,研究者分別展示瞭如何將 IoU 預測器用於 NMS 和邊界框修正的方法。最後在 3.4 節,研究者將 IoU 預測器整合進了 FPN [16] 等現有的目標檢測器中。

3.1 學習預測 IoU

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

圖 5:研究者提出的 IoU-Net 的完整架構,詳見 3.4 節。輸入影象首先輸入一個 FPN 骨幹網路。然後 IoU 預測器讀取這個 FPN 骨幹網路的輸出特徵。研究者用 PrRoI 池化層替代了 RoI 池化層,詳見 3.3 節。這個 IoU 預測器與 R-CNN 分支有相似的結果。虛線框內的模組能構成一個單獨的 IoU-Net。

3.2 IoU 引導式 NMS

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

演算法 1:IoU 引導式 NMS。在這個演算法中,分類置信度和定位置信度是解開的(disentangled)。研究者使用定位置信度(預測得到的 IoU)來給所有被檢測到的邊界框排名,然後基於一個類似聚類的規則來更新分類置信度。

3.3 將邊界框修正當作是一個優化過程

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

演算法 2:基於優化的邊界框修正

精準 RoI 池化(Precise RoI Pooling

研究者引入了精準 RoI 池化(簡寫成:PrRoI 池化)來助力研究者的邊界框修正。其沒有任何座標量化,而且在邊界框座標上有連續梯度。給定 RoI/PrRoI 池化前的特徵圖 F(比如,來自 ResNet-50 中的 Conv4),設 wi,j 是該特徵圖上一個離散位置 (i,j) 處的特徵。使用雙線性插值,這個離散的特徵圖可以被視為在任意連續座標 (x,y) 處都是連續的:

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

其中, 曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度 是插值係數。然後將 RoI 的一個 bin 表示為 曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度,其中 (x_1,y_1) 和 (x_2,y_2) 分別是左上角和右下角的連續座標。給定 bin 和特徵圖 F,研究者通過計算一個二階積分來執行池化(比如平均池化):

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

為更便於理解,研究者在圖 6 中視覺化了 RoI 池化、RoI Align [10] 和研究者的 PrRoI 池化:在傳統的 RoI 池化中,連續座標首先需要被量化(quantization),以計算該 bin 中啟用的和;為了消除量化誤差,在 RoI Align 中,會取樣該 bin 中 N=4 個連續點,表示成 (a_i,b_i),而池化就是在這些取樣的點上執行的。RoI Align 中的 N 是預定義的,而且不能根據 bin 的大小進行調整;與此不同,研究者提出的 PrRoI 池化是直接基於連續特徵圖計算二階積分。

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

圖 6:RoI 池化、RoI Align 和 PrRoI 池化的圖示

3.4 聯合訓練

這種 IoU 預測器可整合到標準的 FPN 流程中,以進行端到端的訓練和推理。為了清楚說明,研究者將用於影象特徵提取的 CNN 架構稱為骨幹(backbone),將應用於各個 RoI 的模組稱為頭(head)。

如圖 5 所示,這個 IoU-Net 使用了 ResNet-FPN [16] 作為骨幹網路,其架構是自上而下的,可構建特徵金字塔(feature pyramid)。FPN 能根據 RoI 的特徵的比例從這個特徵金字塔的不同層級提取這些 RoI 的特徵。其中原來的 RoI 池化層被換成了精準 RoI 池化層。至於該網路的頭,這個 IoU 預測器根據來自骨幹網路的同一視覺特徵而與 R-CNN 分支(包括分類和邊界框迴歸)並行工作。

研究者根據在 ImageNet [25] 上預訓練的 ResNet 模型初始化了權重。所有新的層都使用了標準差為 0.01 或 0.001 的零均值高斯分佈進行初始化。研究者使用了平滑 L1 損失來訓練 IoU 預測器。IoU 預測器的訓練資料是在一個訓練批中的影象中單獨生成的,詳見 3.1 節。IoU 標籤進行了歸一化,因此其值分佈在 [-1,1]。

輸入影象的大小進行了調節,短邊長度為 800 畫素,長邊長度最大為 1200 畫素。分類和迴歸分支取來自 RPN 的每張影象 512 RoI。研究者使用了 16 的批大小進行訓練。網路為 16 萬次迭代進行了優化,學習率設定為 0.01,並在 12 萬次迭代後減小 10 倍。研究者還為前 1 萬次迭代設定了 0.004 的學習率以進行預熱。研究者使用了 1e-4 的權重衰減和 0.9 的 momentum.

在推理過程中,研究者首先對初始座標應用邊界框迴歸。為了加快推理速度,研究者首先在所有檢測到的邊界框上應用 IoU 引導式 NMS。然後,使用基於優化的演算法進一步改進 100 個有最高分類置信度的邊界框。研究者設定步長為 λ=0.5,早停閾值為 Ω1=0.001,定位衰減容限 Ω2=−0.01,迭代次數 T=5。

4 實驗

研究者在有 80 個類別的 MS-COCO 檢測資料集 [17] 上進行了實驗。遵照 [1,16],研究者在 8 萬張訓練影象和 3.5 萬張驗證影象的並集(trainval35k)上訓練了模型,並在包含 5000 張驗證影象的集合(minival)上評估了模型。為驗證該方法,在 4.1 節和 4.2 節,研究者與目標檢測器分開而訓練了一個獨立的 IoU-Net(沒有 R-CNN 模組)。IoU-Net 助力的 IoU 引導式 NMS 和基於優化的邊界框修正被應用在了檢測結果上。

4.1 IoU 引導式 NMS

表 1 總結了不同 NMS 方法的表現。儘管 Soft-NMS 能保留更多邊界框(其中沒有真正的「抑制」),但 IoU 引導式 NMS 還能通過改善檢測到的邊界框的定位來提升結果。因此,在高 IoU 指標(比如 AP_90)上,IoU 引導式 NMS 顯著優於基準方法。

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

表 1:IoU 引導式 NMS 與其它 NMS 方法的比較。通過保留定位準確的邊界框,IoU 引導式 NMS 在具有高匹配 IoU 閾值的 AP(比如 AP_90)上的表現顯著更優。

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

圖 7:在匹配檢測到的邊界框與真實目標框的不同 IoU 閾值下,不同 NMS 方法的召回率曲線。研究者提供了 No-NMS(不抑制邊界框)作為召回率曲線的上限。研究者提出的 IoU-NMS 有更高的召回率,並且在高 IoU 閾值(比如 0.8)下能有效收窄與上限的差距。

4.2 基於優化的邊界框修正

研究者提出的基於優化的邊界框修正與大多數基於 CNN 的目標檢測器 [16,3,10] 都相容,如表 2 所示。將這種邊界框修正方法應用在原來的使用單獨 IoU-Net 的流程之後還能通過更準確地定位目標而進一步提升表現。即使是對有三級邊界框迴歸運算的 Cascade R-CNN,這種改進方法能進一步將 AP_90 提升 2.8%,將整體 AP 提升 0.8%。

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

表 2:基於優化的邊界框修正能進一步提升多種基於 CNN 的目標檢測器的表現。

4.3 聯合優化

IoU-Net 可與目標檢測框架一起並行地端到端優化。研究者發現,將 IoU 預測器新增到網路中有助於網路學習更具判別性的特徵,這能分別將 ResNet50-FPN 和 ResNet101-FPN 的整體 AP 提升 0.6% 和 0.4%。IoU 引導式 NMS 和邊界框修正還能進一步提升表現。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP,相比而言基準為 38.5%,提升了 2.1%。表 4 給出了推理速度,表明 IoU-Net 可在計算成本承受範圍之內實現檢測水平的提升。

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

表 3:在 MS-COCO 上的最終實驗結果。IoU-Net 表示嵌入 IoU 預測器的 ResNet-FPN。在這個 FPN 基準上,研究者實現了約 2% 的 AP 提升。

曠視科技Oral論文解讀:IoU-Net讓目標檢測用上定位置信度

表 4:多種目標檢測器在單個 TITAN X GPU 上得到的推理速度。這些模型都有一樣的骨幹網路 ResNet50-FPN。輸入解析度為 1200x800。所有超引數設定相同。

5 總結

本文提出一種用於準確目標定位的全新網路架構 IoU-Net。通過學習預測與對應真實目標的 IoU,IoU-Net 可檢測到的邊界框的「定位置信度」,實現一種 IoU 引導式 NMS 流程,從而防止定位更準確的邊界框被抑制。IoU-Net 很直觀,可輕鬆整合到多種不同的檢測模型中,大幅提升定位準確度。MS-COCO 實驗結果表明了該方法的有效性和實際應用潛力。

從學術研究的角度,本文指出現代檢測流程中存在分類置信度和定位置信度不匹配的問題。更進一步,研究者將邊界框修正問題重定義為一個全新的優化問題,並提出優於基於迴歸方法的解決方案。研究者希望這些新視角可以啟迪未來的目標檢測工作。

相關文章