無需新型token mixer就能SOTA:MetaFormer視覺基線模型開源,重新整理ImageNet記錄

機器之心發表於2022-12-01

來自新加坡國立大學和 Sea AI Lab 的研究者開源了四種 MetaFormer 基線模型,透過使用最基本或者最常見的 token mixer,探索了 MetaFormer 的下限、通用性和潛力。值得注意的是,所提模型之一 CAFormer 基於 ImageNet 常規有監督訓練(無額外資料和蒸餾),在 224x224 解析度上取得 85.5% 的新紀錄,相比之前的 SOTA 模型減少了 55% 的引數量和 45% 的計算量。此外,該團隊所提出的啟用函式StarReLU比常用的GELU減少了71%的計算量,但取得了更好的效能。

圖片

  • 論文地址:https://arxiv.org/abs/2210.13452

  • 程式碼地址:https://github.com/sail-sg/metaformer 

*This work was partially performed when W. Yu was a research intern at Sea AI Lab.

去年,該團隊的一篇論文《MetaFormer Is Actually What You Need for Vision》引起研究社群關注。該論文針對 Transformer 模型 “Attention is all you need” 的觀點提出了不同看法,即 MetaForemr 猜想 “MetaFormer Is Actually What You Need”。該論文透過把 attention 模組抽象成 token mixer,從而將 Transformer 抽象成通用架構 MetaFormer。為了驗證 MetaFormer 猜想,作者把 token mixer 設定為極為簡單的池化運算元,發現所得模型 PoolFormer 效能居然超過了 ViT/MIL-like/ResNet 等模型,實驗結果很好地驗證了 MetaFormer 猜想。


圖片

圖源:該團隊去年的論文《MetaFormer Is Actually What You Need for Vision》(CVPR 2022 Oral)

最近,該團隊再次進一步探究通用架構 MetaFormer 的各種性質:他們在 MetaFormer 框架下,透過使用最基本或者最常見的 token mixer,引入了幾種 MetaFormer 基線模型,並總結了他們的觀察。

1.MetaFormer 確保可靠的效能下限。

為了探索模型的效能下限,作者將 token mixer 設定為恆等對映。實驗發現,這個名為 IdentityFormer 的簡陋模型,在 ImageNet 上竟然能取得超過 80% 的準確率

2. MetaFormer 使用任意 token mixer 也能工作。 

為了探索 MetaFormer 對於 token mixer 的通用性,作者使用全域性隨機矩陣(隨機初始化後固定住)來混合 token。具體地,對於四階段模型,作者將後兩階段的 token mixer 設定為隨機混合,而前兩階段的 token mixer 仍然保持為恆等對映,以避免引入過多計算量和固定引數。所派生的 RandFormer 模型被證明是有效的,準確率相比 IdentityFormer 提高了 1.0%,為 81.4%。這一結果證明 MetaFormer 對於 token mixer 有很好的通用性。因此,當引入新奇的 token mixer 時,請放心 MetaFormer 的效能。

無需新型token mixer就能SOTA:MetaFormer視覺基線模型開源,重新整理ImageNet記錄

圖 1:MetaFormer 基線模型和其他最先進模型在 ImageNet  224x224 解析度上的效能。 該論文所提模型的具體架構展示在後續的圖 2 中。(a) IdentityFormer/RandFormer 取得超過 80%/81% 的準確率,表明 MetaFormer 具有可靠的效能下限,並且使用任意 token mixer 都能很好地工作。圖中 ResNet-50 的準確率來自論文《ResNet strikes back》。(b) 使用經典可分離卷積做為 token mixer 的 ConvFormer (可視為純 CNN)大幅優於 ConvNeXt,而使用可分離卷積和原始 self-attention 作為 token mixer 的 CAFormer 在常規有監督訓練下(無額外資料和蒸餾),在 ImageNet 224x224 解析度上創造了 85.5% 準確率的新記錄。


圖片

圖 2:(a-d)IdentityFormer、RandFormer、ConvFormer 和 CAFormer 的總體框架。與 ResNet 類似,模型採用四階段架構,階段 i 具有特徵維度為 Di 的 Li 個 block。每個下采樣模組由一層卷積實現。第一個下采樣的 kernel 大小為 7,stride 為 4,而後三個下采樣的 kernel 大小為 3,stride 為 2。(e-h) IdentityFormer、RandForemr、ConvFormer 和 Transformer block 的架構,它們的 token mixer 分別為恆等對映,隨機混合,可分離卷積和原始 self-attention。

3. MetaFormer 輕鬆地提供 SOTA 效能。無需設計新的 token mixer,僅需裝備五年前的 “老式” 運算元,所衍生的 MetaFormer 具體模型就實現了 SOTA。

ConvFormer 大幅優於 ConvNeXt。透過簡單地將 token mixer 設定為可分離卷積,所衍生的純卷積模型 ConvFormer 效能大幅優於 ConvNeXt。

CAFormer 重新整理 ImageNet 記錄。透過將四階段模型的前兩個階段的 token mixer 設定為可分離卷積,後兩個階段設定為原始的 self-attention,所衍生模型 CAFormer 在 ImageNet 無額外資料常規有監督訓練下,在 224x224 解析度上創造 85.5% 準確率的新紀錄。


圖片

圖 3:各種先進模型(圖中 Swin 都成了墊底)在 ImageNet 224x224 上準確率、計算量和模型規模的比較。□、△和○分別代表 CNN 類,attention 類和混合類模型。在各個維度的計算量和模型規模下,ConvFormer 均優於同類 CNN 模型;CAFormer 明顯優於其他各類模型。值得注意的是 CAFormer 取得新的準確率記錄 85.5%,不僅超過之前 MViTv2 取得的 85.3% 的記錄,還比 MViTv2 減少了 55% 的引數量和 45% 的計算量。

4. 新型啟用函式 StarReLU 超越 GELU。此外,作者還提出了新型啟用函式 StarReLU 用以取代常用的 GELU 啟用函式。該函式為平方 ReLU 的變體,為消除分佈偏移而設計。StarReLU 每個神經元僅需 4 FLOPs,相比 GELU (14 FLOPs)減少了 71% 的計算量,卻取得更好的效能。ConvFormer-S18 模型在 ImageNet 資料集上,使用 StarReLU 相比 GELU 準確率提升 0.3%,相比 ReLU 提升了 0.9%。

圖片

其中 s 和 b 為所有通道共享的標量,可設為固定值或者可學引數

以上作者透過將 token mixer 設定為最基本或者最常見的運算元(恆等對映、隨機混合、可分離卷積和原始 self-attenton)來進一步探索 MetaFormer 架構的下限、通用性和潛力。所提各種 MetaFormer 模型可作為視覺領域可靠的基線。相信當引入更先進 token mixer 或者訓練策略時,MetaFormer 類模型會打破記錄,取得新的 SOTA。

相關文章