論文學習13“Feature Pyramid Networks for Object Detection”

本文是Facebook AI實驗室17年物體檢測的新作，CVPR17年的文章，本文打破了何凱明他們自己之前Faster RCNN等系列作品的記錄，本文的突出貢獻是特徵化金字塔網路。

特徵金字塔很久之前已經出現，但是由於網路耗時太久所以一直未被應用。下圖是4種特徵利用方式。（a）影象金字塔，即將影象轉化成成不同的尺寸，然後不同尺寸的影象生成對應的特徵。這種方法就是傳統的影象金字塔網路，他的缺點在於增加了時間成本。有些演算法會在測試時候採用影象金字塔。（b）SPP net，Fast RCNN，Faster RCNN是採用這種方式，即將網路進行卷積僅採用網路最後一層的特徵。（c）SSD（Single Shot Detector）採用這種多尺度特徵融合的方式，沒有上取樣過程，即從網路不同層抽取不同尺度的特徵做預測，這種方式不會增加額外的計算量。

作者認為SSD演算法中沒有用到足夠低層的特徵，而足夠低層的特徵對於檢測小物體是很有幫助的。

（d）是本文作者採用的方式，頂層特徵通過上取樣和低層特徵做融合，而且每層都做獨立預測。

在16年的ECCV裡有一種類似於上圖d的結構，運用了特徵金字塔和反摺積結構，其結構如下圖上部分，可以看出來與本文的區別的本文采取了獨立預測，每一層都獨立預測出結果。這也是本文的創新點。

本文模型的基本架構是Res-nets，結構可以分成兩部分，自上而下和自下而上。

自下而上是指的正向的卷積網路，2倍步長。自上而下指上取樣過程，2倍步長上取樣。最後用橫向連線將自下而上和自上而下的網路連線起來，如下圖所示，採用卷積網路每一階段最後一層網路，在Res-nets中就是每個階段最後的殘差塊，C2、C3、C4、C5，但是不含conv1，因為佔用記憶體大，經過一個1*1的卷積層與自上而下的反摺積網路結合，然後經過一個3*3的卷積輸出每一層的預測結果。

本文所採用的結構比較簡單，作者也嘗試了複雜的結構，效果有提升，但這不是文章的重點。

應用。

本文所提出來的特徵金字塔網路是一個通用的架構，所以應用也很廣泛，比如說用於RPN。本文將FPN接面合RPN生成建議框，原始的RPN，比如fast rcnn裡的是單尺度的特徵圖生成anchor，而現在內嵌FPN，就可以將不同尺度的特徵圖生成對應的1:2、1:1、2:1大小的anchor，所以針對P2，P3，P4，P5，P6一共5個不同畫素值的特徵圖可以生成15個anchor。

另外一個應用是用於fast rcnn，這裡針對的是ROI池化層。Fast rcnn網路本身ROI Pooling層的輸入是固定大小的特徵，而這裡將使用不同特徵層作為ROI pooling層的輸入，大尺度ROI就用較深的金字塔層，小尺度就用較淺的特徵金字塔輸入，而怎麼定義是用深層金字塔特徵還是淺層特徵，作者定義了一個函式，用於判別。

上式中，224是ImageNet的標準輸入，k0是基準值，設定為5，代表P5層的輸出（原圖大小就用P5層），w和h是ROI區域的長和寬，假設ROI是112 * 112的大小，那麼k = k0-1 = 5-1 = 4，意味著該ROI應該使用P4的特徵層。k值應該會做取整處理，防止結果不是整數。

實驗。

區域建議與RPN實驗。本實驗在8個GPU同步的SGD進行，IOU值大於0.7為正樣本，小於0.3為負樣本。下表為實驗結果，為了進行對比，採用FPN的RPN與未採用的網路採取相同的超引數。可以看出單獨使用conv4並沒有提升，但內嵌FPN的網路提升了8個百分點。為了驗證自下而上和自上而下結構的作用，作者進行了沒有自上而下結構的實驗，結果如（d）。針對橫向連線，（e）是沒有進行橫向連線的消融結果。為了驗證金字塔特徵結構的重要性，作者只採用P2層進行實驗，結果如（f）所示。

Fast rcnn檢測實驗。在coco資料集上進行，實驗結果如下表所示，對應實驗與RPN實驗一致。

下表是Faster R-CNN上實驗的結果。

對於coco資料集比賽各獲獎團隊模型進行比較，如下表所示。

本文提出了一個簡單而有效的FPN框架，可以嵌入到已有的模型中，其亮點在於每一層都進行融合，預測。FPN框架後也被應用到目標檢測，何凱明所提出的Mask RCNN網路就是在Fater RCNN上增加了FPN，效果顯著。但FPN和Mask RCNN的程式碼都未公開。

論文學習13“Feature Pyramid Networks for Object Detection”

相關文章