ICCV2021 | 重新思考視覺transformers的空間維度

CV技術指南（公眾號）發表於2021-08-07

原文網址 : https://www.cnblogs.com/wxkang/p/15112365.html

視覺ORM

論文：Rethinking Spatial Dimensions of Vision Transformers

程式碼：https://github.com/naver-ai/pit

獲取：在CV技術指南後臺回覆“0006”

點個關注，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

前言：

由於基於transformers的架構在計算機視覺建模方面具有創新性，因此對有效架構的設計約定的研究還較少。從 CNN 的成功設計原則出發，我們研究了空間維度轉換的作用及其對基於transformers的架構的有效性。

我們特別關注CNNs的降維原理；隨著深度的增加，傳統的 CNN 會增加通道維度並減少空間維度。我們憑經驗表明，這種空間降維也有利於transformers架構，並在原始 ViT 模型上提出了一種新型的基於池化的視覺transformers (Pooling-based Vision Transformer--PiT)。

我們表明 PiT 實現了針對 ViT 的改進模型能力和泛化效能。在廣泛的實驗中，我們進一步表明 PiT 在影像分類、目標檢測和魯棒性評估等多項任務上優於baseline。

出發點

1. CNN 限制了空間互動，ViT 允許影像中的所有位置通過transformers層互動。

2. 雖然ViT 是一種創新架構，並且已經證明了其強大的影像識別能力，但它沿用了NLP中的 Transformer 架構，沒有任何變化。

3. CNN 的一些基本設計原則在過去十年中已被證明在計算機視覺領域有效，但並未得到充分反映。

因此，我們重新審視了 CNN 架構的設計原則，並研究了它們在應用於 ViT 架構時的功效。

創新思路

CNN 以大空間尺寸和小通道尺寸的特徵開始，並逐漸增加通道尺寸，同時減小空間尺寸。由於稱為空間池化的層，這種維度轉換是必不可少的。現代 CNN 架構，包括 AlexNet、ResNet和 EfficientNet，都遵循這一設計原則。

池化層與每一層的感受野大小密切相關。一些研究表明，池化層有助於網路的表現力和泛化效能。然而，與 CNN 不同的是，ViT 不使用池化層，而是在所有層中使用相同大小的空間。

首先，我們驗證了 CNN 上池化層的優勢。我們的實驗表明，池化層證明了 ResNet 的模型能力和泛化效能。為了將池化層的優勢擴充套件到 ViT，我們提出了一種基於池化的視覺transformers (PiT)。

PiT 是一種與池化層相結合的轉換器架構。它可以像在 ResNet 中一樣減少 ViT 結構中的空間大小。我們還研究了 PiT 與 ViT 相比的優勢，並確認池化層也提高了 ViT 的效能。

最後，為了分析 ViT 中池化層的效果，我們測量了 ViT 的空間互動比，類似於卷積架構的感受野大小。我們展示了池化層具有控制自注意力層中發生的空間互動大小的作用，這類似於卷積架構的感受野控制。

Methods

網路架構維度配置的示意圖

我們將 ResNet50 、Vision Transformer (ViT) 和基於池化的 Vision Transformer (PiT) 視覺化；(a) ResNet50 從輸入到輸出逐漸下采樣特徵；(b) ViT 不使用池化層，因此所有層都保持特徵維度；(c) PiT 涉及將層彙集到 ViT 中。