DeepID-Net——形變約束池化層(物件檢測)

人工智慧頻道發表於2018-10-09

在本文中,簡要回顧了DeepID-Net,介紹了一種基於形變部件的卷積神經網路(CNN)。採用一個新的形變約束池化層(def-pooling)模擬具有幾何約束和懲罰的物件部分的變形。

這意味著,除了直接檢測整個物件外,檢測可以幫助檢測整個物件的物件部分也是至關重要的。它是ILSVRC 2014中的第一個用於物件檢測任務的文章。它已在2015年發表在CVPR [1]和2017年TPAMI [2]論文中,共引用了約300篇文章(SH Tsang @ Medium)。

DeepID-Net

黑色的步驟實際上是R-CNN中存在的原有東西。實際上紅色的步驟沒有出現在R-CNN中。

我將在上圖中提及每一個步驟,並在文章結尾處給出結果。

步驟

(1)選擇性搜尋

(2)邊界框拒絕

(3)使用物件級註釋進行預訓練

(4)形變約束池化層(Def-Pooling Layer)

(5)場景建模

(6)模型平均

(7)邊界框迴歸

1.選擇性搜尋

DeepID-Net——形變約束池化層(物件檢測)

選擇性搜尋

(1)首先,顏色相似性、紋理相似性、區域大小和區域填充被用作非基於物件的分割。因此,我們獲得了許多小的分割區域,如圖的左下角所示。

(2)然後,使用自下而上的方法將小的分割區域合併在一起,以形成更大的分段區域。

(3)因此,如影像所示,生成大約2K個區域提議(邊界框候選)。

2. 邊界框拒絕

R-CNN用於拒絕最有可能是背景的邊界框。

3.使用物件級註釋進行預訓練

DeepID-Net——形變約束池化層(物件檢測)

物件級註釋(左),影像級註釋(右)

通常,預訓練是基於影像層次的註釋。當物件在影像中太小時,其效果不好,因為物件應占據由選擇性搜尋建立的邊框內的大區域。

因此,預訓練是在物件級註釋上進行的。深度學習模型可以是任何模型,例如ZFNet、VGGNet和GoogLeNet。

4. 形變約束池化層(Def-Pooling Layer)

DeepID-Net——形變約束池化層(物件檢測)

整體架構的更多細節

比如我們使用ZFNet,在conv5之後,輸出將通過原始FC層fc6和fc7,以及一組轉換和建議的形變約束池化層(Def-Pooling Layer)。  

DeepID-Net——形變約束池化層(物件檢測)


形變約束池層(Def-Pooling Layers),每個光圈中心具有高啟用值  

DeepID-Net——形變約束池化層(物件檢測)

形變約束(Def-Pooling)方程式

對於形變約束路徑,conv5的輸出經過卷積層,然後經過形變約束層,然後有一個最大池化層(max pooling layer)。

簡而言之,ac乘以dc和n的總和是上圖中的5×5變形懲罰。懲罰是將物件部分放置在假定錨位置的懲罰。

形變約束池層(Def-Pooling Layers)學習具有不同大小和語義含義的物件部分的變形。

通過訓練這個形變約束池層(Def-Pooling Layers),如果待檢測物件的物件部分靠近它們的錨點,則在形變約束池層(Def-Pooling Layers)之後將給出高的啟用值。這個輸出將連線到200個類別分數以改進。

5.場景建模

在ILSVRC中的物件檢測任務中,只有200個類別。ILSVRC還有一項分類競爭任務,用於對1000個類別物件進行分類和本地化。與物件檢測任務相比,內容更加多樣化。因此,通過分類網路獲得的1000個類分數用於細化200級分數。

6.模型平均

使用多個模型來提高精度,並對所有模型的結果進行平均。自LeNet、AlexNet等以來一直使用這種技術。

7.邊界框迴歸

邊界框迴歸僅用於微調已在R-CNN中使用的邊界框位置。

結果



增量結果 ·具有選擇性搜尋的R-CNN(步驟1):29.9%mAP(平均預測)

·邊界框拒絕(步驟2):30.9% ·從AlexNet更改為ZFNet(步驟3):31.8% ·從ZFNet改為VGGNet(步驟3):36.6% ·從VGGNet更改為GoogLeNet(步驟3):37.8% · +物件級註釋進行預訓練(步驟3):40.4% ·來自[Ref 60]的更多邊界框建議+邊緣:42.7% ·+ Def-Pooling Layers(步驟4)):44.9% ·VGGNet建議的+多尺度訓練:47.3% ·+場景建模(步驟5):47.8% ·+邊界框迴歸(步驟7):48.2% ·+模型平均(步驟6):50.7%!

與多模型多裁剪(multi-crop)的GoogLeNet相比,DeepID-Net的mAP高出6.1%。但是,正如我們所看到的,一些貢獻實際上來自其他論文。然而,有兩個最新的想法是物件級註釋和形變約束池層(Def-Pooling Layers)的預訓練。

參考文章   [2015年CVPR] [DeepID-Net] DeepID-Net:用於物件檢測的可變形深度卷積神經網路

https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ouyang_DeepID-Net_Deformable_Deep_2015_CVPR_paper.pdf [2017 TPAMI] [DeepID-Net] DeepID-Net:用於物件檢測的可變形深度卷積神經網路 https://ieeexplore.ieee.org/document/7298854


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545819/viewspace-2215636/,如需轉載,請註明出處,否則將追究法律責任。

相關文章