為了有效地利用這一更強的形變建模能力,研究員們提出了一種利用更精細的驅動力量來引導網路學習的方法,具體來說,考慮到 R-CNN 框架在進行候選框特徵提取時能排除無關背景的干擾,在網路訓練過程中透過額外引入要求網路特徵模仿 R-CNN 特徵的損失函式,使得所學習到的形變更專注在前景物體上。透過引入以上更強的建模能力和更優的訓練策略,新一代可變形卷積網路在多個主流的識別任務上取得了相比於第一代可變形卷積網路好得多的效能。
以 ResNet-50 基本網路為例,DCNv2 在物體檢測的最主要資料集 COCO 上相比於 DCNv1 能帶來近 5 個點(mAP)的提升,在 ImageNet 分類上能帶來 1.7 個點(top-1 準確率)的提升。在更好的基本網路 ResNeXt-101 上,DCNv2 相比於 DCNv1 在 COCO 物體檢測和 ImageNet 分類上依舊能分別帶來 3.6 個點以及 1.0 個點的提升。在其它多種識別任務上,DCNv2 也取得了廣泛的顯著效果。
尺度、姿態、視角的變化和區域性形變所導致的幾何多樣性一直是困擾物體識別和檢測的一大難題,為了解決這一難題,MSRA 視覺計算組曾在 17 年提出第一代可變形卷積網路(Deformable ConvNets v1,下稱 DCNv1),其包括兩個基本模組,可變形卷積層(Deformable Convolution)和可變形興趣區域池化層(Deformable RoI Pooling)。透過引入這兩個模組,卷積神經網路獲得了自動適應物體形態變化的特徵表達能力,從而大大提升物體檢測和分割的精度。
為了理解 DCN,在 DCN 原始的文章裡作者們透過在 Pascal VOC 資料集上視覺化學習到的卷積取樣點和池化位置的分佈,發現它們會主要聚集到前景物體區域。然而,研究者們再次仔細地檢查這些分佈後發現取樣點或池化區域往往並不是完全聚集到前景物體區域的,它們常常出現在無關的背景區域,這一現象在更具挑戰性的 COCO 更為普遍,甚至常常無法觀察到顯著的聚集效應。這些現象暗示第一代可變形卷積網路依舊有提升的空間,也激發了研究員們去進一步深入地研究這一問題。
在新一代可變形卷積網路研究過程中,研究員們採用了更好更豐富的工具來深入研究可變形卷積層以及可變形池化層的形變建模能力,具體來說,包括有效感受野(Effective Receptive Field)、有效取樣點(Effective Sampling/Bin Locations)和有界誤差下的顯著性區域等。這些工具能有效地分析網路的空間支援區域(spatial support),利用它們對第一代可變形卷積網路進行全面診斷,DCNv1 存在的問題被進一步驗證,也進一步堅定了研究員們去嘗試提出更好的可變形卷積網路,即第二代可變形卷積網路(稱為 DCNv2)。
這一新的可變形卷積網路主要做了兩個方面的改進,包括對網路本身的改進,使其具備更強的形變建模能力,以及一個更好的訓練策略來釋放這一更強形變建模能力的潛力。
對網路本身的改進使其具備更強的形變建模能力主要包括兩點,一是在網路中增加可變形卷積層的使用,和 DCNv1 中僅將其應用到 conv5 的 3 層 3x3 卷積相比,DCNv2 將可變形卷積層應用到 conv3,conv4 和 conv5 的所有 3x3 卷積層。透過引入更多可變形卷積層,DCNv2 能控制更廣泛層級特徵的取樣點,從而使網路整體上具備更精細地學習空間支援區域的能力,這一更強的能力也被前述各種視覺化工具所驗證(詳見圖 1 和圖 2)。二是在可變形卷積層和可變形興趣池化層中引入了幅度調製機制,其讓網路學習到每一個取樣點偏移量的同時也學習到這一取樣點的幅度,從而使得網路在具備學習空間形變能力的同時也具備了區分取樣點重要性的能力。
此外,為了更好地挖掘這一更強形變建模能力的潛力,DCNv2 進一步提出了一種更有效的訓練機制。受到神經網路中知識蒸餾(Knowledge Distillation)等相關工作的啟發,提出了利用 R-CNN 網路作為教師網路(Teacher Network)來更好地指導 DCNv2 中形變引數學習的方法。由於 R-CNN 在裁剪過的影像區域上進行特徵提取,其特徵不會受到感興趣區域外的無關資訊的影響,透過讓 DCNv2 的物體特徵模仿 R-CNN 網路提取的對應物體特徵,DCNv2 學習到的空間支援區域能更好地聚焦到物體前景區域,從而獲得更好的識別和檢測效果。
注意到上述改進並沒有影響第一代可變形卷積網路的一些優點,新一代可變形卷積網路依舊保持保持了輕量級以及可以很容易地融入到現有網路架構中地特點。研究員們將 DCNv2 廣泛地應用到各種識別任務中,特別是重要的物體檢測和例項分割問題上,在重要基線(baseline)系統 Faster R-CNN 和 Mask R-CNN 和最主要公開資料集 COCO 上,DCNv2 相比於 DCNv1 取得了顯著的精度提升。在其他多種識別任務(包括 ImageNet 影像分類)上 DCNv2 也取得了廣泛的效能提升。
圖 1. 常規卷積網路(Regular ConvNets)、DCN v1 和 DCN v2 中基礎網路 Stage5 最後一層卷積輸出影像特徵的空間支援(Spatial Support)視覺化效果。常規卷積網路的基準方法是以 ResNet-50 作為基本網路的 Faster R-CNN。在每個子圖中,自上而下的每一行分別為有效取樣點(Effective Sampling Locations)、有效感受野(Effective Receptive Field)和有界誤差下的顯著性區域(Error-bounded Saliency Regions)的視覺化效果。由於圖(c)中的有效取樣點和圖(b)中的類似,因此圖(c)中的有效取樣點視覺化結果被省略。被視覺化的節點(綠點所示)在每張子圖中自左到右分別位於小物體(左),大物體(中)和背景(右)上。
圖 2. 在檢測網路 2fc Node 上的空間支援(Spatial Support)視覺化結果。與圖 1 相似,視覺化的網路包括常規卷積網路(Regular ConvNets)、DCN v1 和 DCN v2,常規卷積網路的基準方法是以 ResNet-50 作為基本網路的 Faster R-CNN。在每個子圖中,自上而下的每一行分別為有效取樣點(Effective Bin Locations)、有效感受野(Effective Receptive Field)和有界誤差下的顯著性區域(Error-bounded Saliency Regions)的視覺化效果。(c)--(e)中的有效取樣點視覺化被省略。輸入的感興趣區域(綠框所示)在每張子圖中自左到右分別位於小物體(左),大物體(中)和背景(右)上。
圖 3. 引入 R-CNN 特徵模仿機制後的網路訓練示意圖。
表 1. 採用不同配置增強可變形建模能力的對比實驗,輸入圖片的短邊均為 1000 畫素(論文中的預設值)。配置(setting)一欄中的「(m)dconv」和「(m)dpool」分別代表(引入幅度調製機制的)可變形卷積層和(引入幅度調製機制的)可變形興趣區域池化層;「dconv@c3~c5」則代表將可變形卷積層應用在基礎網路的 stage3~stage5 上,其他配置同理。實驗結果均在 COCO 2017 驗證集(Validation Set)上得到。
表 2. 採用不同配置增強可變形建模能力的對比試驗,輸入圖片的短邊均為 800 畫素。實驗結果均在 COCO 2017 驗證集(Validation Set)上得到。
表 3. 基於不同 R-CNN 特徵模仿策略的對比實驗。模仿區域(regions to mimic)一欄中的「FG」和「BG」分別代表要模仿的是前景(foreground)區域還是背景(background)區域。實驗結果均在 COCO 2017 驗證集(Validation Set)上得到。
表 4. 使用不同基礎網路的常規卷積網路(Regular ConvNets)、DCN v1 和 DCN v2 的對比實驗結果。實驗結果均在 COCO 2017 測試集(Test-Dev Set)上得到。
圖 4. 常規卷積網路(基於 ResNet-50/ResNet-101 的 Faster R-CNN)和 DCN v2 在 COCO 2017 測試集(Test-Dev Set)上的 APbbox 得分隨影像解析度的變化曲線。
圖 5. 常規卷積網路(Regular ConvNets)和 DCN v2 中基礎網路 Stage5 最後一層卷積輸出特徵圖對應的空間支援(Spatial Support)視覺化圖。在每個子圖中,自左向右輸入影像的短邊長度分別為 400、800 和 1400 畫素,自上而下分別為有效感受野(Effective Receptive Field)和有界誤差下的顯著性區域(Error-bounded Saliency Regions)。
表 5. 不同解析度輸入圖片下的對比實驗。實驗結果均在 COCO 2017 測試集(Test-Dev Set)上得到。
表 6. 常規卷積網路(Regular ConvNets)、DCN v1 和 DCN v2 在 ImageNet 影像分類任務上的準確率。
表 7. 在不同的資料集和任務上微調(finetune)在 ImageNet 上預訓練的 DCN v2 模型,使用的基礎網路為 ResNet-101。
論文連結:https://arxiv.org/abs/1811.11168?from=timeline&isappinstalled=0