ACNet: 特別的想法，騰訊提出結合注意力卷積的二叉神經樹進行細粒度分類 | CVPR 2020

曉飛的演算法工程筆記發表於2020-04-26

原文網址 : https://www.cnblogs.com/VincentLee/p/12780637.html

論文提出了結合注意力卷積的二叉神經樹進行弱監督的細粒度分類，在樹結構的邊上結合了注意力卷積操作，在每個節點使用路由函式來定義從根節點到葉子節點的計算路徑，結合所有葉子節點的預測值進行最終的預測，論文的創意和效果來看都十分不錯

來源：曉飛的演算法工程筆記公眾號

論文: Attention Convolutional Binary Neural Tree for Fine-Grained Visual Categorization

論文地址：https://arxiv.org/abs/1909.11378

Introduction

細粒度分類(Fine-Grained Visual Categorization, FGVC)是圖片分類的一個分支，由於類別間的相似性非常大，一般人比較難區分，所以是個很有研究意義的領域。受神經樹研究的啟發，論文設計了結合注意力卷積的二叉神經樹結構(attention convolutional binary neural tree architecture, ACNet)用於弱監督的細粒度分類，論文的主要貢獻如下：

提出結合注意力卷積的二叉神經樹結構ACNet用於細粒度分類，在樹結構的邊上結合了注意力卷積操作，在每個節點使用路由函式從而定義從根節點到葉子節點的計算路徑，類似於神經網路。這樣的結構讓演算法有類似於神經網路的表達能力，以及能夠從粗到細的層級進行特徵學習，不同的分支專注於不同的區域性區域，最後結合所有葉子節點的預測值進行最終的預測
新增attention transformer模組來加強網路獲取關鍵特徵進行準確分類
在三個資料集CUB-200-2011、Stanford Cars和Aircraft上達到了SOTA

Attention Convolutional Binary Neural Tree

ACNet包含4個模組，分別是主幹網路(backbone network)、分支路由(branch routing)、attention transformer和標籤預測(label prediction)，如圖2所示。將ACNet定義為$(\mathbb{T},\mathbb{O})$，$\mathbb{T}$為樹狀拓撲結構，$\mathbb{O}$為樹邊的操作集。論文使用滿二叉樹$\mathbb{T}={\mathcal{V},\mathcal{E}}$，$\mathcal{V}={v_1,...,v_n }$為節點，$\mathcal{E}={e_1,...,e_k }$為邊，對於樹深$h$，共$n=2^{h-1$節點，$k=2}h-2$邊。每個節點為路由模組，決定下一個計算節點，邊採用attention transformer進行操作。另外，滿二叉樹$\mathbb{T}$採用了非對稱結構，例如左邊使用兩個transformer模組，右邊使用一個transformer模組，這樣有利於提取不同尺寸的特徵

Architecture

Backbone network module

由於細粒度類別的關鍵特徵都是高度區域性的，需要使用相對較小的感受域來提取特徵，因此主幹網路使用截斷的VGG-16網路，輸入改為$448\times 448$

Branch routing module

分支路由用來決定子節點的選擇，結構如圖2b所示，$k$-th層的$i$-th路由模組$\mathcal{R}_i^k(\cdot)$由$1\times 1$卷積和global context block組成

global context block的大概結構如上圖a所示，來自GCNet的論文中。在context modeling和fusion步驟使用了simplified NL block，在transform步驟使用了SE block，這個模組能夠很好地結合上下文資訊來提取特徵，最後使用global average pooling、element-wise square-root、L2正則化以及sigmoid啟用的全連線層輸出標量$[0,1]$
假設分支路由模組$R_i^k(x_j)$輸出樣本$x_j\in X$到右邊節點的概率為$\phi_i^k(x_j)\in [0,1]$，則輸出到左邊節點的概率為$1 - \phi_i^k(x_j)$，概率越大的節點對最終結果的影響越大

Attention transformer

Attention transformer模組用於加強網路獲取關鍵特徵的能力，在$3\times 3$卷積後面插入結構如圖2c所示的attention模組，該模組的旁路輸出一個大小為$\mathbb{R}^{C\times 1\times 1}$的channel attention map對輸入特徵進行加權

Label prediction

對於ACNet的每個葉子節點，用標籤預測模組$\mathcal{P}i$來預測目標$x_j$的類別，$r_i^k(x_j)$為目標$x_j$從根節點到k層第i個節點的累計概率，預測模組由$1\times 1$卷積層、max pooling層、L2歸一化層、全連線層和softmax層組成，通過求和所有的葉子節點的預測結果和路徑累計概率的乘積得到最終的預測$\mathcal{C}(x_j)={\sum}{i=1}^{2{h-1}}\mathcal{P}_i(x_j)r_i^h(x_j)$