【目標檢測】Bounding Box Regression

通訊程式猿發表於2019-02-25

Bounding Box是目標檢測中一個重要概念。常見格式是邊界框左上角座標、右下角座標,即[xmin,ymin,xmax,ymax];或者邊界框中心座標,寬高,即[x_center,y_center,w,h]。

Bounding Box Regression的作用

以下圖為例,紅色框表示Ground Truth, 藍色框為網路輸出的候選區域框Region Proposal。藍色框被分類器識別為person,但因框定位不準(IoU<閾值), 則也是檢測失敗。 Bounding Box Regression的目的就是對藍色框微調,使得經過微調後的視窗跟真實邊界框更接近[1]。

 

如何進行Bounding Box Regression

以四維向量(x,y,w,h) 表示的Bounding Box為例, 即視窗的中心點座標[x,y]和寬高[w,h]。P=[P_x,P_y,P_w,P_h]表示原始的Region Proposal,  G=[G_x,G_y,G_w,G_h]表示Ground Truth,Bounding Box Regression的目標是尋找一種函式關係使得輸入原始的視窗 P 經過對映得到一個跟真實視窗G更接近的迴歸視窗\hat{G} = [\hat{G}_x,\hat{G}_y,\hat{G}_w,\hat{G}_h]。[2]

P通過線性變換得到\hat{G},對x,y做平移,對w,h做縮放。

邊框迴歸就是學習這四個變換d_x(P),d_y(P),d_w(P),d_h(P)。RCNN中,對P經過pool5的特徵層學習一個線性變換,引數為w_*。最後網路輸出d_*(P)=w^T_* \phi_5(P)。該回歸任務的target t_* 如下:

 

 

 

參考資料:

[1]邊框迴歸(Bounding Box Regression)詳解

[2]Rich feature hierarchies for accurate oject detection and semantic segmentation

相關文章