Siamese RPN 訓練網路結構解析

weixin_41874599發表於2018-11-07

最近在做目標追蹤領域相關論文閱讀,以下是對論文的閱讀與總結

上圖為SiameseRPN的訓練框架:左邊是用於提取特徵的孿生網路;中間是區域推薦網路,包含分類分支和迴歸分支。 這裡採用成對的相關操作來得到最後的輸出。關於輸出的各個通道的細節在右邊具體展示:在分類分支,輸出的特徵圖包含2k個通道,分別表示k個錨點的前景背景的分數;在迴歸分支,輸出的特徵圖包含4k個通道,分別表示k個錨點的座標偏移的預測。圖中*表示相關操作。

1.Siamese網路 在孿生網路中,本文采用了一個沒有填充的全卷積結構。用於提取影像特徵的孿生網路分成兩個分支。接收模板幀的小圖為模板分支,接收當前幀的影像為檢測分支。兩支網路只有輸入不同,權重引數完全相同。所以網路兩支可以隱式的編碼相同的變化,非常適合於跟蹤任務。 

2.-- RPN 在Siamese FC中,網路只需要根據相關操作的結果得到響應圖,進行預測目標所在的位置。而為了引入區域推薦網路進行精準的位置的預測,網路必須做出比較大的改動。根據檢測中區域推薦網路的經驗,如果有個k錨點,那麼網路需要為分類分支輸出通道數為2k的特徵圖,為迴歸分支輸出通道數為4k的特徵圖。因此在進行相關操作操作之前,演算法需要提升通道數。圖中間部分從上到下的第1,3個卷積就是提升維度用的卷積。同時為了網路的深度對齊,第2,4個卷積也會被應用,不過通道數沒有變。之後便以上述相關操作的描述方式進行相關操作。

3.-- 訓練資料的構成 在訓練階段,Siamese結構所需要的樣本對是從ILSVRC和Youtube-BB中以一個隨機間隔選出來的。模板和檢測幀的影像來自於同一個視訊中的同一個物體的兩幀。採用一定間隔內的圖片對作為樣本,在幀間隔比較遠的時候學習目標的變換。但過遠的間隔可能使得目標變換過於大,網路可能學習這種變化會比較困難,甚至可能帶來負面的作用。所以在實驗過程中採用小於100幀的間隔的圖片對作為樣本,而不是從視訊中任意挑選兩幀作為圖片對。 

分類輸出分支:

迴歸輸出分支:

 

迴歸損失:

 

總的損失:

相關文章