CVPR 2017論文解讀：特徵金字塔網路FPN

机器之心發表於2017-07-25

近日，CVPR 2017獲獎論文公佈，引起了業內極大的關注。但除了這些獲獎論文，還有眾多精彩的論文值得一讀。因此在大會期間，國內自動駕駛創業公司 Momenta 聯合機器之心推出 CVPR 2017 精彩論文解讀專欄，本文是此係列專欄的第二篇，作者為 Momenta 高階研發工程師李俊。

論文：Feature Pyramid Networks for Object Detection

論文地址：https://arxiv.org/abs/1612.03144

這裡介紹的文章是來自 Facebook 的特徵金字塔網路 Feature Pyramid Networks(FPN)。FPN 主要解決的是物體檢測中的多尺度問題，通過簡單的網路連線改變，在基本不增加原有模型計算量情況下，大幅度提升了小物體檢測的效能。我們將從論文背景，論文思想，結果與結論幾方面探討此論文。

在物體檢測裡面，有限計算量情況下，網路的深度（對應到感受野）與 stride 通常是一對矛盾的東西，常用的網路結構對應的 stride 一般會比較大（如 32），而影象中的小物體甚至會小於 stride 的大小，造成的結果就是小物體的檢測效能急劇下降。傳統解決這個問題的思路包括：（1）多尺度訓練和測試，又稱影象金字塔，如圖 1(a) 所示。目前幾乎所有在 ImageNet 和 COCO 檢測任務上取得好成績的方法都使用了影象金字塔方法。然而這樣的方法由於很高的時間及計算量消耗，難以在實際中應用。（2）特徵分層，即每層分別預測對應的 scale 解析度的檢測結果。如圖 1(c) 所示。SSD 檢測框架採用了類似的思想。這樣的方法問題在於直接強行讓不同層學習同樣的語義資訊。而對於卷積神經網路而言，不同深度對應著不同層次的語義特徵，淺層網路解析度高，學的更多是細節特徵，深層網路解析度低，學的更多是語義特徵。

CVPR 2017論文解讀：特徵金字塔網路FPN

圖1

因而，目前多尺度的物體檢測主要面臨的挑戰為：

如何學習具有強語義資訊的多尺度特徵表示？
如何設計通用的特徵表示來解決物體檢測中的多個子問題？如 object proposal, box localization, instance segmentation.
如何高效計算多尺度的特徵表示？

本文針對這些問題，提出了特徵金字塔網路 FPN，如圖 1(d) 所示，網路直接在原來的單網路上做修改，每個解析度的 feature map 引入後一解析度縮放兩倍的 feature map 做 element-wise 相加的操作。通過這樣的連線，每一層預測所用的 feature map 都融合了不同解析度、不同語義強度的特徵，融合的不同解析度的 feature map 分別做對應解析度大小的物體檢測。這樣保證了每一層都有合適的解析度以及強語義特徵。同時，由於此方法只是在原網路基礎上加上了額外的跨層連線，在實際應用中幾乎不增加額外的時間和計算量。作者接下來實驗了將 FPN 應用在 Faster RCNN 上的效能，在 COCO 上達到了 state-of-the-art 的單模型精度。

具體而言，FPN 分別在 RPN 和 Fast RCNN 兩步中起到作用。其中 RPN 和 Fast RCNN 分別關注的是召回率和正檢率，在這裡對比的指標分別為 Average Recall(AR) 和 Average Precision(AP)。分別對比了不同尺度物體檢測情況，小中大物體分別用 s,m,l 表示。

在 RPN 中，區別於原論文直接在最後的 feature map 上設定不同尺度和比例的 anchor，本文的尺度資訊對應於相應的 feature map（分別設定面積為 32^2, 64^2, 128^2, 256^2, 512^2），比例用類似於原來的方式設定 {1:2, 1:1,, 2:1} 三種。與 RPN 一樣，FPN 每層 feature map 加入 3*3 的卷積及兩個相鄰的 1*1 卷積分別做分類和迴歸的預測。在 RPN 中，實驗對比了 FPN 不同層 feature map 卷積引數共享與否，發現共享仍然能達到很好效能，說明特徵金字塔使得不同層學到了相同層次的語義特徵。RPN 網路的實驗結果為：

CVPR 2017論文解讀：特徵金字塔網路FPN

這裡 FPN 對比原來取自 conv4 和 conv5 的 RPN 網路 (a)(b)，召回率得到了大幅度提升，尤其在中物體和小物體上 (c)。另外，作者做了變數對比實驗，比如只保留橫向連線 (d)，即特徵分層網路，效能僅與原 RPN 差不多，原因就在於不同層之間的語義特徵差距較大。另外，試驗了砍掉橫向連線，只保留自上而下放大 feature map 做預測結果 (e)，以及只用最終得到的 feature map 層 (f)，均比完整的 FPN 網路小物體檢測 AR 低 10 個點左右。說明金字塔特徵表示與橫向連線都起了很大作用。

實驗 Fast RCNN 時，需要固定 FPN+RPN 提取的 proposal 結果。在 Fast RCNN 裡，FPN 主要應用於選擇提取哪一層的 feature map 來做 ROI pooling。假設特徵金字塔結果對應到影象金字塔結果。定義不同 feature map 集合為 {P2, P3, P4, P5}，對於輸入網路的原圖上 w*h 的 ROI，選擇的 feature map 為 Pk，其中（224 為 ImageNet 輸入影象大小）：

CVPR 2017論文解讀：特徵金字塔網路FPN