FSAF：嵌入anchor-free分支來指導acnhor-based演算法訓練 | CVPR2019

曉飛的演算法工程筆記發表於2022-03-01

原文網址 : https://www.cnblogs.com/VincentLee/p/15949740.html

FSAF深入地分析FPN層在訓練時的選擇問題，以超簡單的anchor-free分支形式嵌入原網路，幾乎對速度沒有影響，可更準確的選擇最優的FPN層，帶來不錯的精度提升

來源：曉飛的演算法工程筆記公眾號

論文: Feature Selective Anchor-Free Module for Single-Shot Object Detection

論文地址：https://arxiv.org/abs/1903.00621
論文程式碼：https://github.com/zccstig/mmdetection/tree/fsaf

Introduction

目標檢測的首要問題就是尺寸變化，許多演算法使用FPN以及anchor box來解決此問題。在正樣本判斷上面，一般先根據目標的尺寸決定預測用的FPN層，越大的目標則使用更高的FPN層，然後根據目標與anchor box的IoU進一步判斷，但這樣的設計會帶來兩個限制：拍腦袋式的特徵選擇以及基於IoU的anchor取樣。

如圖2所示，60x60選擇中間的anchor，而50x50以及40x40的則選擇最小的anchor，anchor的選擇都是人們根據經驗制定的規則，這在某些場景下可能不是最優的選擇。

為了解決上述的問題，論文提出了簡單且高效的特徵選擇方法FSAF(feature selective anchor-free)，能夠在每輪訓練中選擇最優的層進行優化。如圖3所示，FSAF為FPN每層新增anchor-free分支，包含分類與迴歸，在訓練時，根據anchor-free分支的預測結果選擇最合適的FPN層用於訓練，最終的網路輸出可同時綜合FSAF的anchor-free分支結果以及原網路的預測結果。

Network Architecture

FSAF的網路結果非常簡單，如圖4所示。在原有的網路結構上，FSAF為FPN每層引入兩個額外的卷積層，分別用於預測anchor-free的分類以及迴歸結果。這樣，在共用特徵的情況下，anchor-free和anchor-based的方法可進行聯合預測。

Ground-truth and Loss

對於目標$b=[x,y,w,h]$，在訓練時可對映到任意的FPN層$P_l$，對映區域為$b^l_p=[xl_p, y^l_p, w^l_p, h^{l_p]$。一般而言，$b}l_p=b/2^{l$。定義有效邊界$b}l_e=[x^l_e, y^l_e, w^l_e, h^{l_e]$和忽略邊界$b}l_i=[x^l_i, y^l_i, w^l_i, h^l_i]$，可用於定義特徵圖中的正樣本區域、忽略區域以及負樣本區域。有效邊界和忽略邊界均與對映結果成等比關係，比例分別為$\epsilon_e=0.2$和$\epsilon_i=0.5$，最終的分類損失為所有正負樣本的損失值之和除以正樣本點數。

Classification Output

分類結果包含$K$維，目標主要設定對應維度，樣本定義分以下3種情況：

有效邊界內的區域為正樣本點。
忽略邊界到有效邊界的區域不參與訓練。
忽略邊界對映到相鄰的特徵金字塔層中，對映的邊界內的區域不參與訓練
其餘區域為負樣本點。

分類的訓練採用focal loss，$\alpha=0.25$，$\gamma=2.0$，完整的分類損失取所有正負區域的損失值之和除以有效區域點數。

Box Regression Output

迴歸結果輸出為分類無關的4個偏移值維度，僅迴歸有效區域內的點。對於有效區域位置$(i,j)$，將對映目標表示為$d^l_{i,j}=[dl_{t_{i,j}}, d^l_{l_{i,j}}, d^l_{b_{i,j}}, d^{l_{r_{i,j}}]$，分別為當前位置到$b}l_p$的邊界的距離，對應的該位置上的4維向量為$d^l_{i,j}/S$，$S=4.0$為歸一化常量。迴歸的訓練採用IoU損失，完整的anchor-free分支的損失取所有有效區域的損失值的均值。