Tied Block Convolution: Leaner and Better CNNs with Shared Thinner Filters(論文翻譯)

安靜到無聲發表於2020-10-22

摘要

卷積是卷積神經網路(CNN)的主要組成部分。我們觀察到,隨著通道數隨深度的增加,優化的CNN通常具有高度相關的濾波器,從而降低了特徵表達能力。我們提出了捆綁塊卷積(TBC),它在相同大小的通道塊上共享相同的更加thin的濾波器,並用一個濾波器產生多個響應。TBC的概念還可以擴充套件到分組卷積和全連線層,並可以應用於各種骨幹網路和注意力模組。

我們在分類、檢測、例項分割和注意力方面的廣泛實驗表明,TBC比標準卷積和分組卷積有顯著的全面的提升。我們提出的TiedSE注意模組甚至可以使用比SE模組少64倍的引數來實現類似的效能。特別地,在存在遮擋的情況下,標準的CNN往往不能準確地聚集資訊,從而導致多個冗餘的部分目標提議。通過跨通道共享濾波器,TBC降低了相關性,並且可以有效地處理高度重疊的例項。在遮擋率為80%的情況下,TBC將MS-COCO上目標檢測的平均精度提高了6%。我們的程式碼將會發布。

介紹

卷積是卷積神經網路(CNN)的主要組成部分,在影像分類,目標檢測、影像分割和姿態識別上獲得了廣泛的成功。然而,標準卷積在計算、儲存和儲存訪問方面仍然很昂貴。更重要的是,優化後的CNN通常會開發出高度相關的濾波器。

在標準卷積(SC)中,我們可以利用導向反向傳播模式在一組ImageNet影像上的餘弦相似度平均值來評估成對濾波器的相似性。圖1顯示,隨著地層深度的增加,濾波器的相關性也會增加。也就是說,隨著層數的增加,濾波器變得更加相似,從而降低了特徵表徵能力。
在這裡插入圖片描述
圖1:(a)從VGG16的第2層到第12層隨機選擇的64個濾波器的相關矩陣。在用於ImageNet分類的VGG16的深度層 d d d,我們基於兩個濾波器的引導反向傳播模式來計算它們之間的相似度在一組影像上進行平均。隨著層的加深,找到一組彼此相似度較高的濾波器變得越來越容易。(B)VGG16各層成對濾波相似性的歸一化直方圖。隨著通道數量隨著深度從64增加到128到256,曲線向右移動並變得更窄,即,更多的過濾器變得相似。受此激勵,能否通過重用相似濾波器消除卷積層的冗餘?

一些論文研究瞭如何優化一個冗餘較少的CNN結構,通常通過探索跨空間和通道維度的依賴性。在SC中,雖然每個濾波器在空間上具有有限的大小,但它可以擴充套件到輸入特徵的完整集合,而在組卷積(GC)中,濾波器只與輸入特徵的子集卷積。因此,如果有 B B B組輸入特徵,每個GC層通過將每個過濾器的大小減少B倍來將引數數量減少B倍。深度卷積(DW)是GC的極端情況,其中每個組僅包含一個通道,從而最大限度地減少引數數量。
在這裡插入圖片描述
圖2:卷積運算。為了生成兩個activation map(activation map 是一個filter滑動卷積後得到的一層輸出(depth 維度上的一層slice), 多個filter得到的activation map 在 depth 維度上拼起來稱作 feature map)。標準卷積需要兩個全尺寸濾波器,而組卷積需要兩個半尺寸濾波器,然而,我們的組合塊卷積卷積只需要一個半尺寸濾波器,也就是說引數被減少了4倍。TBC的思想也可以應用於全連線和分組卷積層。

雖然GC和DW在減小模型大小方面很有效,但它們不會研究濾波器之間的相關性,並且它們的孤立表示無法捕獲跨通道關係。不像GC和DW中通過減小每個過濾器的大小來消除冗餘,通過探索每個濾波器的潛力,我們探索了消除冗餘的另一種方法。已知直接減少過濾器的數量會降低模型容量(指神經網路模型能擬合複雜函式的能力)。然而,由於標準的卷積濾波器變得相似(如圖1),我們可以通過在不同特徵組重用它們來減少濾波器的有效數量。於是我們提出了一種簡單的替代方法,稱為捆綁塊卷積(TBC):我們將C個輸入特徵通道分割成B個相等的組合塊,並使用僅在 C / B C/B C/B通道上定義的單個塊濾波器來產生B響應。圖2顯示了Standard Convolution濾波器跨越整個C通道,然而在B = 2時,我們的TBC只跨越 C / 2 C/2 C/2個通道,但它也產生了2個濾波器響應。TBC只是組之間共享的Group Convolution,當 B = 1 B=1 B=1時,TBC被簡化為SC。將這一概念推廣到全連線層和組卷積層,可以直接得到捆綁塊組卷積(TGC)和捆綁塊全連通層(TFC)。

我們的TBC更有效地利用每個過濾器、儲存訪問和樣本。

  • B = 2 B=2 B=2時,TBC使用一個半尺寸的thin filter的到了相同數量的響應,在模型減少4倍的條件下,產生了標準卷積相同尺寸的輸出。
  • 由於對B個組合塊都應用了相同的thin filter,因此TBC通過利用GPU並行處理具有更高效的儲存訪問。
  • 由於每個thin filter都在B倍以上的樣本上進行訓練,因此學習也變得更有效。
  • 由於每組TBC濾波器應用於所有輸入通道,TBC可以跨通道聚合全域性資訊,並更好地對跨通道依賴關係進行建模。

雖然TBC在理論上似乎是一個有吸引力的概念,但我們能否在實踐中證明其相對於標準卷積或組卷積的優勢,將關鍵取決於神經網路結構。我們能否在實踐中證明其相對於SC或GC的優勢,將關鍵取決於神經網路結構。我們將TBC/TGC/TFC應用於各種骨幹網路,包括ResNet、ResNeXt,SENet和ResNeST,並提出了它們的Tied版本:TiedResNet、TiedResNeXt、TiedSENet和TiedResNeST。在分類、檢測、分割和注意力機制方面進行了廣泛的實驗,結果表明,與標準卷積、分組卷積和全連線層相比,TBC/TGC/TFC的整體效能有顯著提高。例如,圖6顯示TiedResNet在更精簡的模型下始終以大幅度的優於ResNet,ResNeXt和HRNetV2(Wang等人,2019)。在多個不同框架、任務和資料集中也獲得了類似的效能提升和模型壓縮。

最後,學習到的濾波器冗餘不僅降低了擬合複雜函式的能力,而且也會使CNN無法捕獲多樣性,從而導致效能降低。在MS-COCO上進行目標檢測時,標準的CNN往往不能準確定位目標區域,也不能從前景中聚合有用的資訊。因此,存在多個重疊的部分物件提議,從而阻止從提案池中出現單個完整物件提議。TiedResNet可以更好地處理高重疊例項,當遮擋比為 0.8 0.8% 0.8時,平均精確度(AP)提高 6 6% 6,IOU=0.75時平均精確度(AP)提高 8.3 8.3% 8.3

相關工作

主幹網路:AlexNet (Krizhevsky,Sutskever和Hinton 2012)是CNN在ILSVRC競賽中第一個獲得顯著準確性的成功例項。然而,較大的卷積核和完全連線層大大增加了模型的大小。對於較小卷積核網路,如GoogLeNet,VGGNet只需要少12倍的引數就能超越(Krizhevsky,Sutskever和Hinton 2012;Zeiler and Fergus 2014)。但是,較深的網路會出現梯度消失等問題,隨後可通過ResNet中的殘差連線去解決。所以模型的深度不再是問題,研究人員已開始探索如何更有效地使用引數。在模型複雜度相當的情況下,ResNeXt在許多主要任務上效能優於ResNet,主要是因為使用了更加高效的分組卷積。通過精心的架構設計,HRNetV2在多項主要任務上實現了優越的效能。與使用分組卷積或標準卷積的這些工作相比,我們的TBC進一步利用了每種thin濾波器的全部潛力。我們將在後續章節提供與這些網路的比較。

分組卷積:2012年論文AlexNet提出了分組卷積(GC)來消除濾波器冗餘。由於每個分組卷積GC濾波器只與其組中的特徵卷積,具有相同的通道數,因此該機制可以將每層中的引數數減少B倍,其中B是組數。當組的數量與輸入特徵層的數量相同時,分組卷積(GP)就和深度卷積(DW)相同。分組卷積(GC)和深度卷積(DW)都通過減少每個過濾器的大小來大大減少模型冗餘。然而,他們從不探究(學習)濾波器之間的相關性。

由於分組卷積(GC)和深度卷積(DW)中的每個過濾器只響應部分輸入特徵圖,因此合併跨通道維度的全域性資訊的能力在GC中受損,在DW中完全丟失。相比之下,我們的TBC濾波器在所有輸入通道之間共享,並且可以聚合長期依賴關係。這個機制還帶來了另一個好處,對B個組合塊都應用了相同的thin濾波器,因此TBC可以充分利用GPU強大的平行計算能力。

注意力模組:(Hu、沈和Sun 2018)引入Squeeze-and-Excitatio 模組,以自適應地重新校準通道級特徵響應。(曹等2019)將SE和一個non-local moudel統一為一個全域性上下文塊(GCB)。雖然SE和GCB相對來說比較輕量,但SE (GCB)還是佔模型尺寸大小的10% (25%)。捆綁塊組卷積(TGC)和捆綁塊全連通層(TFC)可以整合到各種注意力模組中,並顯著減少引數數量:SE為2.53M vs 0.04M,GCB為10M vs 2.5M。

Tied Block 卷積網路設計

我們首先對TBC和TGC進行分析,以指導我們的網路設計。我們還設計出了TFC,並將其應用於注意力模組。

TBC 規則

輸入特徵定義為 X ∈ R c i × h i × w i X \in \mathbb{R}^{c_{i} \times h_{i} \times w_{i}} XRci×hi×wi,輸出特徵定義為 X ~ ∈ R c o × h o × w o \tilde{X} \in \mathbb{R}^{c_{o} \times h_{o} \times w_{o}} X~Rco×ho×wo,其中 c c c h h h w w w分別是通道數、特徵圖的高度和寬度。卷積核大小為 k × k k×k k×k,為了清楚起見,忽略偏差項。

標準卷積:被定義 ∗ * ,可以表示為: X ~ = X ∗ W \tilde{X}=X * W X~=XW其中 W ∈ R c o × c i × k × k W \in \mathbb{R}^{c_{o} \times c_{i} \times k \times k} WRco×ci×k×k為標準卷積核,SC的引數如下: c o × c i × k × k c_{o} \times c_{i} \times k \times k co×ci×k×k

分組卷積:首先將輸入特徵 X X X分成 G G G個等大小的組 X 1 , … , X G X_{1}, \ldots, X_{G} X1,,XG,其尺寸的大小為 c i / G × h i × w i c_{i} / G \times h_{i} \times w_{i} ci/G×hi×wi。每個組共享相同的卷積濾波器 W g W_g Wg,則GC的輸出計算為
X ~ = X 1 ∗ W 1 ⊕ X 2 ∗ W 2 ⊕ ⋯ ⊕ X G ∗ W G \tilde{X}=X_{1} * W_{1} \oplus X_{2} * W_{2} \oplus \cdots \oplus X_{G} * W_{G} X~=X1W1X2W2XGWG其中 ⊕ ⊕ 是沿通道維度的級聯操作, W g W_g Wg是組 g g g的卷積濾波器,其中 g ∈ { 1 , … , G } , W g ∈ R c o G × c i G × k × k g \in\{1, \ldots, G\}, W_{g} \in \mathbb{R}^{\frac{c_{o}}{G} \times \frac{c_{i}}{G} \times k \times k} g{1,,G},WgRGco×Gci×k×k,GC的引數量為 G × c o G × c i G × k × k G \times \frac{c_{o}}{G} \times \frac{c_{i}}{G} \times k \times k G×Gco×Gci×k×k

Tied Block Convolution:通過使用以下公式在不同特徵組之間重用濾波器,減少濾波器的有效數量: X ~ = X 1 ∗ W ′ ⊕ X 2 ∗ W ′ ⊕ ⋯ ⊕ X B ∗ W ′ \tilde{X}=X_{1} * W^{\prime} \oplus X_{2} * W^{\prime} \oplus \cdots \oplus X_{B} * W^{\prime} X~=X1WX2WXBW其中 W ′ ∈ R c o B × c i B × k × k W^{\prime} \in \mathbb{R} \frac{c_{o}}{B} \times \frac{c_{i}}{B} \times k \times k WRBco×Bci×k×k是所有組之間的共享TBS濾波器。引數的數量是 c o B × c i B × k × k \frac{c_{o}}{B} \times \frac{c_{i}}{B} \times k \times k Bco×Bci×k×kTBC vs. GC. 雖然TBC是組間共享濾波器的錢GC,但它與GC的實際結果有幾個主要區別(假設B = G)。

  • TBC的引數比GC少B倍。
  • TBC在GPU利用率上只有一個碎片,而GC有G個碎片,大大降低了並行度。圖3顯示處理時間隨著GC中的組數線性增加,而我們的TBC保持幾乎相同的處理時間。
  • TBC可以更好地對跨通道依賴關係進行建模。因為每組GC過濾器在通道的子集上進行卷積,因此GC很難跨通道聚合全域性資訊。但是,每組TBC濾波器都應用於所有輸入通道,可以更好地模擬交叉通道道相關性。
  • 基於TBC的TiedResNet在物體檢測和例項分割任務上大大超過了GC整合的ResNeXt。TiedResNet-S模型降維2倍甚至優於ResNeXt,表明TiedResNet更有效地利用了模型引數。
    在這裡插入圖片描述
    圖3:使用RTX 2080Ti 處理每個特徵圖1000次迭代所需的時間成本。當組數增加時,GC幾乎線性地增加時間成本。相反,當使用較大的B時,TBC保持類似的時間成本。測試不同塊數B的GC和TBC,通過改變總濾波器數來固定這些值的總FLOP。當 B = 1 B=1 B=1時,GC和TBC等於SC。輸入特徵圖的大小為56×56×2048。

Tied Block Group Convolution (TGC):結合TBC的思想也可以直接應用於組卷積,公式如下: X ~ = ( X 11 ∗ W 1 ′ ⊕ ⋯ ⊕ X 1 B ∗ W 1 ′ ) ⊕ ⋯ ⊕ ( X G 1 ∗ W G ′ ⊕ ⋯ ⊕ X G B ∗ W G ′ ) \begin{aligned} \tilde{X}=&\left(X_{11} * W_{1}^{\prime} \oplus \cdots \oplus X_{1 B} * W_{1}^{\prime}\right) \oplus \cdots \oplus \\ &\left(X_{G 1} * W_{G}^{\prime} \oplus \cdots \oplus X_{G B} * W_{G}^{\prime}\right) \end{aligned} X~=(X11W1X1BW1)(XG1WGXGBWG)其中 W g ′ ∈ R c o B G × c i B G × k × k , X g b ∈ R c i B G × h i × w i W_{g}^{\prime} \in \mathbb{R}^{\frac{c_{o}}{B G} \times \frac{c_{i}}{B G} \times k \times k}, X_{g b} \in \mathbb{R}^{\frac{c_{i}}{B G} \times h_{i} \times w_{i}} WgRBGco×BGci×k×k,XgbRBGci×hi×wi是分割的特徵圖, g ∈ [ 1 , G ] g \in[1, G] g[1,G] b ∈ [ 1 , B ] b \in[1, B] b[1,B]

Tied Block Fully Connected Layer (TFC) :卷積是全連線(FC)層的特例,正如全連線層(FC)是卷積的特例一樣。我們將相同的tied block filtering思想應用於FC。TTFC)共享相等的輸入通道塊之間的FC連線。與TBC一樣,TFC可以減少 B 2 B^2 B2倍的引數和B倍的計算量。

TBC/TGC in Bottleneck Modules

ResNet/ResNeXt/ResNeST的瓶頸層具有1×1和3×3卷積濾波器。我們以不同的方式應用TBC/TGC,如圖4所示。對於ResNet和ResNeXt中的3×3,我們將所有過濾器分成組;每個組都有自己的TBC/TGC設定。對於ResNet和ResNeXt中的3×3卷積,我們將所有器波器分組;每個組都有自己的TBC/TGC設定。此選擇允許不同級別的共享,並受網路視覺化工作的推動:濾波器在不同的層扮演不同的角色,有些是獨特的概念檢測器。對於瓶頸層入口和出口的1×1卷積,我們用B = 2的TBC替換條目1以允許過濾器共享,同時保持出口卷積以跨通道聚集資訊。 由於ResNeST用k個基數代替3×3卷積為多徑和拆分注意模組,3×3卷積在整體模型複雜度中所佔的比例較小。 因此,與1×1卷積一樣,我們只將所有3×3卷積替換為B=2的TBC。進一步增加B只會略微減少模型引數,但會大大降低效能。
TiedResNet-50(TiedResNeXt-50)的預設設定是4個拆分,基本寬度為32(64) ,即4S×32W(4S×64W),TiedResNet-S(TiedResNeXt-50s)預設設定為4S×18W(4S×36W)。 我們的TiedBottleNeck在ImageNet-1K上的TOP-1準確率方面達到了1%以上的效能提升。然而,失去跨通道整合可能會削弱該模型。為了把它加回去,我們引入了一個混頻器,它融合了多個分路器的輸出。引入混合器可將效能再提高0.5%。混頻器的輸入可以是分割輸出的級聯或元素和。表6顯示了按元素求和具有更好的權衡。

注意模組中的TBC和TFC

我們將TBC和TFC應用於關注模組,如SE(Hu、Shenin和Sun 2018)和GCB(CaO等人)。2019年),只需將SC和FC替換為它們的平局塊對應項(圖5)。這兩種設計都在不降低效能的情況下顯著減少了引數數量。

Experimental Results

我們在目標識別、目標檢測、例項分割和注意力等主要基準上對TBC、TGC和TFC進行了廣泛的測試。

ImageNet分類

實現。我們遵循標準的實踐,通過隨機裁剪大小為224×224畫素來進行資料增強。我們使用SGD在8個GPU上以0.9的動量和256個的小批量訓練網路。學習速率最初設定為0.1,然後每30個週期衰減10倍,總共100個週期。
在這裡插入圖片描述
表1:ImageNet-1k上的識別準確率和模型大小比較。TBC/TFC/TGC的融合可以使各種骨幹網路獲得一致的效能提升。TiedResNet-S甚至大大超過了目前的SOTA修剪方法Taylor-FO-BN-ResNet50和移動架構GhostNet(大型模型版本)。基線是從Pytorch model zoo複製的,我們TBC版本在8個2080Ti GPU上訓練了100個epoch,以便進行公平的比較,除非另有說明。 † † 表示:用更大的epoch、標籤平滑、餘弦學習率調整和更多的資料擴充來訓練; ‡ ‡ 表示:使用釋出的程式碼、標準資料擴充和100個訓練epoch重新實現結果。

效能提升。表1比較了多個模型在ImageNet-1k驗證集的識別精度。在表1中,TiedResNet50-S在TOP-1精度方面擊敗了ResNet50,與其相比只有60%的Flops和54%的引數,TiedResNet101-S亦是如此。這些結果證明了TBC更有效地利用了引數。在模型複雜度相近的情況下,TiedResNet50和TiedResNet101在引數減少10%的情況下,可分別超越基準1.5%和1.4%以上。TiedResNeXt和TiedSENet也有類似的趨勢。為了進一步證明TBC的有效性,我們將其與現有的SOTA模型ResNeST進行了整合。TiedResNeST-50-S只需59%的引數和82%的計算代價,在ImageNet-1k上獲得了比ResNeST-50-S更好的效能。

目標檢測與例項分割

MS-Coco包括80個物件類別,118K/5K/208K影像分別用於訓練(TRAIN-2017)、驗證(VAL-2017)和測試(TEST-2017)。評估IOU閾值的平均精度(AP),範圍為0.5到0.95,間隔為0.05。報告了不同質量(AP50和AP75)和不同尺度(APS、APM和APL)的檢測效能。報告了不同質量(AP50和AP75)和不同尺度(APS、APM和APL)的檢測效能。所有模型都在2017 Split資料集上訓練,並在VAL-2017上報告結果。

實現:我們在PyTorch實現中使用基準主幹和我們的TiedResNet模型檢測器。在不改變縱橫比的情況下,影像的長邊和短邊的大小分別調整到最大值1333和800。由於1×學習進度表(LS)的不完善,我們只報告基線和我們的模型的2×LS的結果。

結果:我們與ResNeXt和ResNet在多個最先進的框架上進行了全面的比較,包括單階段檢測器,RetinaNet和兩階段檢測器, Mask R-CNN,結果如圖6所示。由於(陳等2019)重新實驗的結果通常比原始論文中的更好,因此我們報告重新實驗的結果以進行公平的比較。
在這裡插入圖片描述
圖6:MSCOCO Val-2017的目標檢測和例項分割任務中,主幹網路引數數量與其平均精度之比。對於單階段探測器RetinaNet和兩階段探測器Cascade R-CNN和Mask R-CNN,TiedResNet以更少的引數持續優於ResNet、ResNeXt和HRNetV2,詳細結果見附錄。

目標檢測:如圖6所示,使用TiedResNet作為骨幹,單階段檢測器RestinaNet和兩階段檢測器Cascade R-CNN和Mask R-CNN在BOX AP方面持續優於基線2%到2.5%。RetinaNet上的TiedResNet101甚至大大超過了引數量更多的ResNeXt101-64×4d。詳細比較各種框架和Pascal VOC(Everingham et al.。2015)在附錄材料中。

例項分割:使用輕量級TiedResNet-S和同等大小的TiedResNet主幹,我們觀察到 A P m a s k AP^{mask} APmask的值分別增加了1.1%和2.1%。不管基線檢測器有多強,我們總是觀察到AP的上升,這證實了TBC的有效性。

高度遮擋的例項:由於遮擋要求網路在準確檢測目標區域的同時區分不同的例項,因此在遮擋較大的影像上的效能體現了網路的定位能力。每幅影像的遮擋比R為: r =  total overlap area   total instance area  r=\frac{\text { total overlap area }}{\text { total instance area }} r= total instance area  total overlap area 平均IOU為0.5到0.95的AP和IOU=0.75時的 A P 75 AP^{75} AP75分別作為標準評價指標和限制性評價指標。圖7(a)和圖7(b)顯示ResNet受遮擋的影響很大, A P 75 AP^{75} AP75 r = 0.8 r=0.8 r=0.8時下降了超過 6 6% 6,而我們的TiedResNet只略微下降了0.7%,超過了基準8.3%。同樣,隨著遮擋率的增大,AP的改善從2.8%增加到5.9%。MS-COCO中的這些定量結果表明,TiedResNet具有很強的處理高度重疊例項的能力,特別是在受限的評估指標上。圖7©顯示TiedResNet具有更少的假陽性提議和更好的分割質量。
在這裡插入圖片描述
圖7:我們評估了TiedResNet和ResNet在不同遮擋比 r r r下的MS-COCO目標檢測任務上的效能。報告了AP(a)和IoU = 0.75(b)時的AP。當r=0.8時,TiedResNet在 A P 75 AP^{75} AP75增加了8.3%,在AP增加了5.9%,在處理高度重疊的例項時更加有效。TiedResNet的誤報提議要少得多,並且具有明顯更好的例項分割質量。我們使用Mask R-CNN作為檢測器。

為什麼單階段檢測器增益較大?圖A.1顯示TiedResNet比ResNet/ResNeXt更好地定位目標區域,這對於沒有提議迴歸層的單階段檢測器特別有利。
在城市景觀上的效能。由於城市景觀是一個很小的資料集,因此更深的網路通常會過擬合。因此,對於城市景觀資料集,我們只部署了50層骨幹網的實驗。表2顯示,TiedResNet50可以達到2.1%的 A P M A S K AP^{MASK} APMASK提升。

輕量級注意力

圖5顯示了我們的輕量級注意力模組。當B=1時,SE模組可以看作我們的TiedSE的特例;同樣,當B=1時,GCB就是TiedGCB。

TiedSE的結果:對於基準模型和我們的模型,表3中的所有實驗都使用16的縮減率。研究了TFC層的幾種超引數設定。由於我們重新實驗的基準模型結果比(Hu、沈和Sun 2018)論文中的結果更好,因此我們報告我們的結果以進行公平比較。雖然SE引數較少,但仍需要10%的整體模型引數。表3顯示,在B=8的情況下,減少64倍的引數後,TiedSE仍可獲得相當的效能。TiedSE不僅在SEResNet上,而且在移動架構EfficientNet(Tan和Le 2019)上,在不犧牲效能的情況下顯著降低了引數。
在這裡插入圖片描述
表3:注意模組SE/TiedSE在ImageNet-1k上不同骨幹網的#params及識別準確率比較。研究了不同超引數B下的效能。在SEResNet50(EfficientNet-B0)上,僅使用1.6%(6.4%)的引數,TiedSE的效能優於SE。 ‡ ‡ 表示我們重新實驗的結果。

TiedGCB檢測結果:全域性上下文塊(GCB)(CaO等人。2019)通過全域性上下文建模和遠端依賴來增強分割和檢測預測。GCB與TBC相結合可以在不降低效能的前提下顯著減少引數個數。表4顯示,TiedGCB在 A P M a s k AP^{Mask} APMask A P b b o x AP^{bbox} APbbox中分別獲得了1.8%和1.4%的增益,引數減少了16倍.雖然分組卷積可以將引數減少2倍,但由於每個GC濾波器只看到特徵的子集,因此對跨通道相關性建模的能力也降低了,損失了 A P M a s k AP^{Mask} APMask和$AP^{bbox}$0.4%。在這裡插入圖片描述
表4:注意力模組GCB/TiedGCB#個引數的比較(CaO等人。2019),以及它們在MSCOCO Val-2017的目標檢測和例項分割任務上的效能。本文研究了不同B的影響。並對GCB與群卷積的結果進行了比較。

消融實驗

分組數目的影響:正如在(Zeiler和Fergus 2014; Bau等人2017; Xu等人2015)中所研究的那樣,對應於各種視覺概念(例如顏色、紋理、物件、部件、場景、邊緣和材料)的神經元/濾波器的比例隨可解釋性的不同級別而不同。將不同的功能濾波器分組在一起以實現不同級別的共享可能是有用的。在表5中,我們將 3 × 3 3×3 3×3卷積層中的所有通道分割為 s s s個組。在 4 s × 32 w 4s×32w 4s×32w設定中,對於4個 3 × 3 3×3 3×3TBC層,每個分割的基寬為 w w w,B分別為1、2、4、8。表5還說明了將輸入特徵圖分割成若干塊的必要性,當只有2塊分割時,top 1的精度將下降0.4%。
在這裡插入圖片描述
表5:對分割數量和每個分割塊的基寬的消融研究。列出了ImageNet-1k的準確度(%)。

TiedBottleneck中的Mixer module:由於我們將輸入特徵圖分割成幾個部分,因此忽略了這些部分之間的相互依賴關係。為了跟蹤相互依賴關係,使用mixer來聚合交叉分割資訊。 表6研究了幾種融合方法。使用級聯可以達到最好的精度,但它引入的引數要多得多。因此,我們選擇元素和作為融合函式,作為精度和模型大小之間的折衷。
在這裡插入圖片描述
表6:Mixer module融合方法的消融研究。

濾波器相似性:我們使用ImageNet預先訓練好的ResNet50和TiedResNet50-S來比較不同層的餘弦濾波器相似度。濾波器的引導反向傳播模式之間的成對餘弦相似性(Springenberg等人. 2014)在1000個ImageNet Val Split中的平均值被用來生成這些直方圖。如圖9所示,x軸是餘弦相似度,y軸是概率密度。與VGG(Simonyan和Zisserman 2014)相比,ResNet(He et al.。2016)的冗餘較少,而我們的TiedResNet的相似性最低,因此消除了整個深度層的大部分冗餘,這驗證了我們的假設和動機。

在這裡插入圖片描述
圖9:成對濾波器相似性直方圖

Grad-CAM視覺化
為了提供不同主幹網路之間的定性比較,我們使用來自ImageNet的影像來應用gradCAM (Selvaraju等人,2017)。Grad-CAM利用流入CNN最後一個卷積層的梯度資訊來理解每個神經元。生成的定點陣圖突出了影像中用於預測概念的重要區域,並反映了網路利用目標物件區域中的資訊的能力。圖A.1顯示TiedResNet比ResNet和ResNetX更適合聚焦目標物件,表明效能提升來自對無關雜波的準確關注和降噪。
在這裡插入圖片描述
圖8:第1行影像的ResNet50、ResNeXt50和TiedResNet50之間的Grad-CAM視覺化比較。Grad-CAM(Selvaraju等人。2017)是為最後的卷積輸出計算的。

此屬性對於物件檢測和例項分割非常有用,因為這些任務要求網路更精確地關注目標區域及其聚集特性。對目標區域的不正確關注也會導致大量的假陽性提議。

總結

我們提出了捆綁塊卷積(TBC),它在相同的通道塊上共享相同的thin濾波器,並用一個濾波器產生多個響應。TBC的概念還可以擴充套件到組卷積和全連線層,並可以應用於各種骨幹網路和注意模組,並對基線進行持續的效能改進。基於TBC的TiedResNet也超過了基線,具有更高的引數使用效率和更好的檢測嚴重遮擋下的目標的能力。

附:

餘弦相似度是對兩個向量相似度的描述,表現為兩個向量的夾角的餘弦值。當方向相同時(排程為0),餘弦值為1,標識強相關;當相互垂直時(線上性代數裡,兩個維度垂直意味著他們相互獨立),餘弦值為0,標識他們無關。

相關文章