Transformer 再添一員,比 Swin 更強的 DiNAT

Zilliz發表於2023-01-25

出品人:Towhee 技術團隊 張晨、顧夢佳

在視覺領域,除了常規 Transformer 的持續發展,分層的 Transformer 結構也因為其效能和易整合性獲得了極大的關注。DiNA 注意力機制是 Neighborhood Attention(NA)的擴充,更加自然、靈活、高效。它可以捕獲更多的全域性上下文並以指數方式擴充套件感受域,而無需額外成本。DiNA Transformer 是基於兩種注意力的新型分層視覺模型。相比 NAT、Swin 和 ConvNeXt 等強基線模型,DiNAT 變體帶來了顯著的改進。使用了 DiNA 的大型模型速度更快,在公開資料集 COCO 的目標檢測中領先 Swin 模型 1.5% box AP,在例項分割中超過 1.3% mask AP。

圖片

An illustration of DiNAT’s architecture.

分層結構的 Transformer 模型通常採用區域性注意機制,例如滑動視窗 NA 或 Swin Transformer 的Shifted Window Self Attention。雖然該策略有效地降低了自注意力的二次複雜度,但區域性注意力削弱了自注意力的兩個最理想的特性:遠端相互依賴建模和全域性感受野。因此 DiNAT 首先將輸入下采樣到原始空間解析度的四分之一,並透過 4 級 DiNA Transformer 編碼器傳送它們。特徵圖被下采樣到其空間大小的一半,並在級別之間的通道中加倍。DiNAT 層與大多數 Transformer 相似,模型會每隔一層在區域性 NA 和稀疏全域性 DiNA 之間切換。

相關資料:

程式碼地址:https://github.com/SHI-Labs/N...
論文連結:Dilated Neighborhood Attention Transformer
更多資料:Dilated Neighborhood Attention Transformer

相關文章