儘管深度神經網路在視覺識別任務上已經取得了巨大成功,但其在對抗攻擊和資料域偏移下的脆弱性一直被詬病。針對該問題,大量在對抗樣本和域偏移下的識別魯棒性研究被提出,這些研究通常從更強的資料增強、模型正則、訓練策略、更優的網路結構設計方面提升深度模型的魯棒性。其中,大多數魯棒性研究將 CNN 結構作為前提假設,所提出的魯棒訓練方案也僅適用於 CNN 結構。 近年來,Dosovitskiy 等人提出 ViT 模型,它將 transformer 結構引入計算機視覺,並在影像分類任務上優於 CNN。得益於其強大的建模能力,基於 transformer 的視覺結構迅速佔領了各種任務的排行榜,包括目標檢測和語義分割等。隨著 ViT 開始撼動 CNN 模型的統治地位,針對新型 ViT 模型的魯棒訓練方法需要被提出。 目前已有研究開始對比 ViT 和 CNN 之間的魯棒性,並透過實驗得出 ViT 在通用擾動上的識別能力強於 CNN,然而該研究僅僅得出經驗性的初步結論,缺乏對 ViT 模型每個元件和設計單元的具體分析。另一方面,大量 ViT 變體,例如 Swin、PVT 等相繼提出。所有 ViT 的變體均只考慮模型在正常樣本上的識別表現,缺乏在對抗和通用擾動下的魯棒性探討。 在近日被 CPVR 2022 接收的論文《Towards Robust Vision Transformer》中,阿里巴巴人工智慧治理與可持續發展研究中心 (AAIG) 的研究者首次對 ViT 模型的組成部分和設計單元進行拆解,並單獨對 ViT 中不同模組的不同設計方法進行魯棒性探究。透過綜合研究結論,他們提出了一種更為魯棒的新型 ViT 模型 RVT,並在多個視覺分類的魯棒性和泛化性基準上優於 SOTA ViT 和卷積神經網路。