論文學習13“Feature Pyramid Networks for Object Detection”

weixin_34075551發表於2018-03-05

本文是Facebook AI實驗室17年物體檢測的新作,CVPR17年的文章,本文打破了何凱明他們自己之前Faster RCNN等系列作品的記錄,本文的突出貢獻是特徵化金字塔網路。

特徵金字塔很久之前已經出現,但是由於網路耗時太久所以一直未被應用。下圖是4種特徵利用方式。(a)影象金字塔,即將影象轉化成成不同的尺寸,然後不同尺寸的影象生成對應的特徵。這種方法就是傳統的影象金字塔網路,他的缺點在於增加了時間成本。有些演算法會在測試時候採用影象金字塔。 (b)SPP net,Fast RCNN,Faster RCNN是採用這種方式,即將網路進行卷積僅採用網路最後一層的特徵。(c)SSD(Single Shot Detector)採用這種多尺度特徵融合的方式,沒有上取樣過程,即從網路不同層抽取不同尺度的特徵做預測,這種方式不會增加額外的計算量。

作者認為SSD演算法中沒有用到足夠低層的特徵,而足夠低層的特徵對於檢測小物體是很有幫助的。

(d)是本文作者採用的方式,頂層特徵通過上取樣和低層特徵做融合,而且每層都做獨立預測。

8771353-2c8c56435d9d9581.png

在16年的ECCV裡有一種類似於上圖d的結構,運用了特徵金字塔和反摺積結構,其結構如下圖上部分,可以看出來與本文的區別的本文采取了獨立預測,每一層都獨立預測出結果。這也是本文的創新點。

8771353-a9fb39f855a9c1f8.png

本文模型的基本架構是Res-nets,結構可以分成兩部分,自上而下和自下而上。

自下而上是指的正向的卷積網路,2倍步長。自上而下指上取樣過程,2倍步長上取樣。最後用橫向連線將自下而上和自上而下的網路連線起來,如下圖所示,採用卷積網路每一階段最後一層網路,在Res-nets中就是每個階段最後的殘差塊,C2、C3、C4、C5,但是不含conv1,因為佔用記憶體大,經過一個1*1的卷積層與自上而下的反摺積網路結合,然後經過一個3*3的卷積輸出每一層的預測結果。

8771353-ab9e1808d86273c3.png

本文所採用的結構比較簡單,作者也嘗試了複雜的結構,效果有提升,但這不是文章的重點。

應用。

本文所提出來的特徵金字塔網路是一個通用的架構,所以應用也很廣泛,比如說用於RPN。本文將FPN接面合RPN生成建議框,原始的RPN,比如fast rcnn裡的是單尺度的特徵圖生成anchor,而現在內嵌FPN,就可以將不同尺度的特徵圖生成對應的1:2、1:1、2:1大小的anchor,所以針對P2,P3,P4,P5,P6一共5個不同畫素值的特徵圖可以生成15個anchor。

另外一個應用是用於fast rcnn,這裡針對的是ROI池化層。Fast rcnn網路本身ROI Pooling層的輸入是固定大小的特徵,而這裡將使用不同特徵層作為ROI pooling層的輸入,大尺度ROI就用較深的金字塔層,小尺度就用較淺的特徵金字塔輸入,而怎麼定義是用深層金字塔特徵還是淺層特徵,作者定義了一個函式,用於判別。

8771353-53168a8b7becf84f.png

上式中,224是ImageNet的標準輸入,k0是基準值,設定為5,代表P5層的輸出(原圖大小就用P5層),w和h是ROI區域的長和寬,假設ROI是112 * 112的大小,那麼k = k0-1 = 5-1 = 4,意味著該ROI應該使用P4的特徵層。k值應該會做取整處理,防止結果不是整數。

實驗。

區域建議與RPN實驗。本實驗在8個GPU同步的SGD進行,IOU值大於0.7為正樣本,小於0.3為負樣本。下表為實驗結果,為了進行對比,採用FPN的RPN與未採用的網路採取相同的超引數。可以看出單獨使用conv4並沒有提升,但內嵌FPN的網路提升了8個百分點。為了驗證自下而上和自上而下結構的作用,作者進行了沒有自上而下結構的實驗,結果如(d)。針對橫向連線,(e)是沒有進行橫向連線的消融結果。為了驗證金字塔特徵結構的重要性,作者只採用P2層進行實驗,結果如(f)所示。

8771353-4632ddd7cabed3de.png

Fast rcnn檢測實驗。在coco資料集上進行,實驗結果如下表所示,對應實驗與RPN實驗一致。

8771353-78a67c4135f3883c.png

下表是Faster R-CNN上實驗的結果。

8771353-11c66783ceef11af.png

對於coco資料集比賽各獲獎團隊模型進行比較,如下表所示。

8771353-a331542484731e6e.png

本文提出了一個簡單而有效的FPN框架,可以嵌入到已有的模型中,其亮點在於每一層都進行融合,預測。FPN框架後也被應用到目標檢測,何凱明所提出的Mask RCNN網路就是在Fater RCNN上增加了FPN,效果顯著。但FPN和Mask RCNN的程式碼都未公開。

相關文章