Restormer Efficient Transformer for High-Resolution Image Restoration——2022CVPR

helloWorldhelloWorld發表於2024-05-22

大佬連結:Restormer: Efficient Transformer for High-Resolution Image Restoration - 知乎 (zhihu.com)

一. Motivation

1.CNN感受野有限,因此無法對長距離畫素相關性進行建模;卷積濾波器在推理時具有靜態權重,因此不能靈活地適應輸入內容
2. Transformer模型緩解了CNN的缺點(有限的感受野和對輸入內容的不適應性),但是self-attention在捕捉遠距離畫素互動方面非常有效,但其計算複雜度隨著空間解析度的增加而呈二次方增長,因此無法應用於高解析度影像

二. Contribution

1. 提出MDTA,將Self-attention應用於通道維度而不是空間維度,計算特徵通道之間的交叉協方差 ,以從(key-query projected)輸入特徵獲得注意力圖

2. 提出GDFN增加門控機制,控制哪些互補特徵應該向前流動,並允許網路層次結構中的後續層專門關注更精細的影像屬性,從而獲得高質量的輸出

三.Network

MDTA:

Gated-Dconv Feed-Forward Network(GDFN):

在本文中,作者進行了兩個改進:
(1)gating mechanism——門控機制
被表示為線性變換層的兩條平行路徑的元素級乘積,其中一條透過 GELU非線性啟用
(2)depth-wise convolutions
在這裡依然使用了 depth-wise convolution,以對空間相鄰畫素位置的資訊進行編碼,這有助於學習區域性影像結構以進行有效恢復

相關文章