將大核卷積分三步,清華胡事民、南開程明明團隊全新視覺骨幹VAN,超越SOTA ViT和CNN

機器之心發表於2022-02-27
作為基礎特徵提取器,視覺骨幹(vision backbone)是計算機視覺領域的基礎研究課題。得益於卓越的特徵提取效能,CNN 成為過去十年中不可或缺的研究課題。在 AlexNet 重新開啟深度學習十年之後,透過使用更深的網路、更高效的架構、更強的多尺度能力,社群已取得多項突破以獲得更強大的視覺骨幹和注意力機制。由於平移不變性和共享滑動視窗策略,CNN 對於具有任意大小輸入的各種視覺任務是有效的。更先進的視覺骨幹網路通常會在各種任務中帶來顯著效能提升,包括影像分類、物件檢測、語義分割和姿勢估計。

同時,選擇性注意力是處理視覺中複雜搜尋組合的重要機制。注意力機制可以看作是基於輸入特徵的自適應選擇過程。自從提出完全注意力網路以來,自注意力模型(即 Transformer)迅速成為了 NLP 領域的主導架構。近年來,Dosovitskiy 等人提出 ViT,它將 transformer 骨幹引入計算機視覺,並在影像分類任務上優於 CNN。得益於強大的建模能力,基於 transformer 的視覺骨幹迅速佔領了各種任務的排行榜,包括物件檢測和語義分割等。

儘管自注意力機制最初是為 NLP 任務而設計的,但近來已經席捲了計算機視覺領域。然而,影像的 2D 特性為在計算機視覺中應用自注意力帶來了三個挑戰:

  • 將影像視為一維序列會忽略它們的二維結構;

  • 二次複雜度對於高解析度影像來說太昂貴了;

  • 只捕捉空間適應性而忽略通道適應性。


近日,來自清華大學胡事民團隊和南開大學程明明團隊提出了一種新型大核注意力(large kernel attention,LKA)模組,在避免上述問題的同時實現了自注意力中的自適應和長距離相關性。該研究還進一步提出了一種基於 LKA 的新型神經網路,命名為視覺注意力網路(VAN)。在影像分類、目標檢測、語義分割、例項分割等廣泛的實驗中,VAN 的效能優於 SOTA 視覺 transformer 和卷積神經網路。

圖片

  • 論文地址:https://arxiv.org/abs/2202.09741

  • 專案地址:https://github.com/Visual-Attention-Network


圖片

圖 1:VAN 與其他模型在 ImageNet-1K 驗證集上的 Top-1 準確率結果比較。

論文一作為清華大學計算機系博士生國孟昊,主要研究方向為計算機視覺、計算機圖形學、深度學習。他也是計圖的開發者之一,曾在國際會議 / 期刊 ICLR/IPMI/CVMJ 上發表論文。

胡事民,清華大學電腦科學與技術系教授,主要從事計算機圖形學、智慧資訊處理和系統軟體等方面的研究。研製並開源了第一個我國高校自主的深度學習框架——計圖(Jittor),計圖是一個完全動態編譯(Just-in-time),基於元運算元融合和統一計算圖的深度學習框架。計圖支援 30 多種的骨幹網路,並且開源了多個模型庫:對抗生成網路、影像語義分割、檢測與例項分割、點雲分類、可微渲染等。

程明明,南開大學教授,計算機系主任,他的主要研究方向是計算機視覺和計算機圖形學,他發表的論文谷歌引用 2 萬餘次,單篇最高引用 4000 餘次。

方法

大核注意力

注意力機制可以看作是一個自適應選擇的過程,它可以根據輸入特徵選擇鑑別特徵並自動忽略噪聲響應。注意力機制的關鍵步驟是生成注意力圖,指出不同點的重要性。因此需要了解各點之間的關係。

有兩種眾所周知的方法可以在不同點之間建立關係。第一種是採用自注意力機制來捕獲長距離依賴。第二種是使用大核卷積來建立相關性併產生注意力圖,這種方式還是有明顯的弊端的,大核卷積帶來了大量的計算開銷和引數。

為了克服上述缺點並利用自注意力和大核卷積的優點,該研究提出分解大核卷積操作來捕獲長距離關係。如下圖 2 所示,大核卷積可以分為三個部分:空間區域性卷積(depth-wise 卷積)、空間長距離卷積(depth-wise 空洞卷積)和通道卷積(1×1 卷積)。

圖片


下表 1 給出了 LKA 結合卷積和自注意力的優點。

圖片


視覺注意力網路(VAN)

 VAN 具有簡單的層次結構,包括四個階段,並逐步降低輸出空間解析度,即 H/4 × W/4 、H/8 × W/8 、H/16 × W/16 和 H /32 × W/32 。其中,H 和 W 代表輸入影像的高度和寬度。隨著解析度的降低,輸出通道的數量也在增加。輸出通道 C_i 的變化如下表 2 所示。

圖片

如下圖 3 (d) 所示,該研究首先對輸入進行下采樣,並使用步幅數來控制下采樣率。

圖片

實驗

該研究透過定量和定性實驗來證明 VAN 的有效性。其中,在 ImageNet-1K 影像分類資料集、COCO 目標檢測資料集和 ADE20K 語義分割資料集上進行了定量實驗,並在 ImageNet 驗證集上使用 Grad-CAM 來視覺化類啟用對映(CAM)。

該研究首先用消融實驗證明 LKA 的每個組成部分都是至關重要的。為了快速獲得實驗結果,該研究選擇 VAN-Tiny 作為基線模型,實驗結果如下表 4 所示。

圖片

透過以上分析,研究者發現 LKA 可以利用區域性資訊,捕捉長距離依賴,在通道和空間維度上都具有適應性。此外,實驗結果證明 LKA 的所有組成部分都有助於完成識別任務。雖然標準卷積可以充分利用區域性語境資訊,但它忽略了長距離依賴和適應性。而自注意力雖然可以捕獲長距離依賴,且在空間維度上具有適應性,但它忽略了區域性資訊和在通道維度上的適應性。

研究者還將 VAN 與現有方法進行了比較,包括 MLP、CNN 和 ViT,結果如下表 5 所示。在相似的引數和計算成本下,VAN 優於常見的 CNN(ResNet、ResNeXt、ConvNeXt 等)、ViT(DeiT、PVT 和 Swin-Transformer 等)和 MLP(MLP -Mixer、ResMLP、gMLP 等)。

圖片

視覺化類啟用對映(CAM)是一種視覺化鑑別區域(注意力圖)的流行工具。該研究採用 Grad-CAM 來視覺化 ImageNet 驗證集上由 VAN-Base 模型生成的注意力。下圖 4 的結果表明,VAN-Base 可以清晰地聚焦在目標物件上,視覺化直觀地證明了 VAN 的有效性。

圖片


如下表 6 和表 7 所示,在目標檢測和例項分割任務上,該研究發現在 RetinaNet 1x 和 Mask R-CNN 1x 設定下,VAN 以較大的優勢超越了基於 CNN 的方法 ResNet 和基於 transformer 的方法 PVT。

圖片

圖片

此外,如下表 8 所示,相比於 SOTA 方法 Swin Transformer 和 ConvNeXt,VAN 實現了更優的效能。

圖片

下表9給出了語義分割任務的結果,基於 VAN 的方法優於基於 CNN 的方法(ResNet、ResNeXt),優於基於transformer的方法(PVT、PoolFormer、PVTv2)。

圖片



相關文章