無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022

機器之心發表於2022-03-11
儘管深度神經網路在視覺識別任務上已經取得了巨大成功,但其在對抗攻擊和資料域偏移下的脆弱性一直被詬病。針對該問題,大量在對抗樣本和域偏移下的識別魯棒性研究被提出,這些研究通常從更強的資料增強、模型正則、訓練策略、更優的網路結構設計方面提升深度模型的魯棒性。其中,大多數魯棒性研究將 CNN 結構作為前提假設,所提出的魯棒訓練方案也僅適用於 CNN 結構。

近年來,Dosovitskiy 等人提出 ViT 模型,它將 transformer 結構引入計算機視覺,並在影像分類任務上優於 CNN。得益於其強大的建模能力,基於 transformer 的視覺結構迅速佔領了各種任務的排行榜,包括目標檢測和語義分割等。隨著 ViT 開始撼動 CNN 模型的統治地位,針對新型 ViT 模型的魯棒訓練方法需要被提出。

目前已有研究開始對比 ViT 和 CNN 之間的魯棒性,並透過實驗得出 ViT 在通用擾動上的識別能力強於 CNN,然而該研究僅僅得出經驗性的初步結論,缺乏對 ViT 模型每個元件和設計單元的具體分析。另一方面,大量 ViT 變體,例如 Swin、PVT 等相繼提出。所有 ViT 的變體均只考慮模型在正常樣本上的識別表現,缺乏在對抗和通用擾動下的魯棒性探討。

在近日被 CPVR 2022 接收的論文《Towards Robust Vision Transformer》中,阿里巴巴人工智慧治理與可持續發展研究中心 (AAIG) 的研究者首次對 ViT 模型的組成部分和設計單元進行拆解,並單獨對 ViT 中不同模組的不同設計方法進行魯棒性探究。透過綜合研究結論,他們提出了一種更為魯棒的新型 ViT 模型 RVT,並在多個視覺分類的魯棒性和泛化性基準上優於 SOTA ViT 和卷積神經網路。

無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022

  • 論文地址:https://arxiv.org/abs/2105.07926

  • 專案地址:https://github.com/alibaba/easyrobust/tree/main/RVT


方法介紹

下圖左為 RVT 模型的整體架構,圖右為 RVT 與不同 ViT 變體的比較。

無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022

ViT 模型各模組的魯棒性探究

研究者採用 DeiT-T 作為基準模型,採用 ImageNet 驗證集和 FGSM 攻擊演算法下的準確率分別作為正常以及魯棒識別能力指標。下表 1 給出了不同位置嵌入的影響,位置嵌入對於形狀特徵的提取起到了關鍵作用,而不同位置嵌入方式並未發現顯著差異

無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022

下表 2 分別展示了影像塊特徵提取方式、自注意力範圍、以及不同前饋層和分類層形式的影響。實驗經驗性地發現使用卷積提取影像塊特徵,並採用全域性自注意力和用於分類的 CLS token,通常使得 ViT 具備更好的魯棒性。

無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022

下表 3 研究了當 ViT 採用類似 CNN 中階段性下采樣的設計,是否會影響魯棒性。當自注意力在大尺寸特徵圖上計算時,會引起計算量顯著增加,並大幅損害模型魯棒性,反之大尺度的自注意力層具備更好的魯棒性。

無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022

自注意力通常採用多頭的形式以增強表徵能力。由下表 4 看出,多頭注意力同時也增強了魯棒性,但當注意力頭持續增加至冗餘,模型表現不升反降,因此為選擇 ViT 選擇合適的注意力頭數是至關重要的。

無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022

根據以上發現,研究者提出了更加魯棒的新型 ViT 模型 RVT,相比原始 ViT 模型,RVT 具備魯棒性的同時,正常場景下識別能力更強,計算也更加高效

位置相關的自注意力縮放

位置相關的自注意力縮放將點積注意力中縮放操作修改為更通用的版本,即點積注意力中,每一對 query-key 的點積會被可學習的位置重要性矩陣縮放,取代原始的常數無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022,d 為特徵維數。使用位置相關的自注意縮放可有效提升模型的魯棒性。

如下圖所示,在對抗樣本輸入下,ViT 的自注意力圖出現噪聲並啟用一些不相關區域,使用位置相關的自注意力縮放後,該噪聲被有效抑制,並只有對分類有幫助的相關位置被啟用,間接提升了魯棒性。

無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022


基於影像塊的資料增強

傳統的資料增強透過提高訓練資料多樣性防止模型過擬合。相比 CNN,ViT 需要更大量訓練資料以收斂至最優,資料增強的作用因此尤為明顯。與 CNN 不同的是,ViT 將輸入影像切分為影像塊單獨提取特徵後,再送入注意力層。

傳統資料增強對所有影像塊使用相同增強方式,為針對 ViT 模型進一步提升訓練資料多樣性,本文提出對切分的影像塊採用不同隨機資料增強,即對於切分後的各個影像塊,再獨立做隨機裁剪縮放,隨機水平翻轉,新增隨機高斯噪聲等簡單影像變換。

與 MixUp、AugMix、RandAugment 類似,基於資料塊的資料增強也有助於 ViT 模型的魯棒性。透過對單個影像塊做簡單隨機變換,等同於在影像塊嵌入上新增有意義的干擾,在該干擾下的訓練有助於模型抵抗未知干擾,進而提升對抗攻擊下的識別率。

實驗結果

研究者設計了三個規模的 RVT 模型用於實驗:RVT-T、RVT-S 和 RVT-B。將採用位置相關的自注意力縮放和基於影像塊的資料增強兩項改進的 RVT 模型標註為 RVT*。評測資料集包含 ImageNet-1K 中的驗證集合、兩個白盒攻擊演算法 FGSM 與 PGD、自然對抗樣本集合 ImageNet-A、模擬影像損壞樣本集合 ImageNet-C、黑白剪貼畫影像樣本集合 ImageNet-Sketch、人工創作非自然影像樣本集合 ImageNet-R。

實驗對比結果如表 5所示,RVT 在三個規模上均優於 CNN 和其他的 ViT 變體模型。對抗魯棒性上,提出的 RVT-Ti 及 RVT-S 模型在 FGSM 上均獲得了 10% 以上的提升。RVT-S * 在 ImageNet-C 上獲得 49.4 的 mCE,該結果優於大部分通用魯棒訓練方法。RVT-B * 在 ImageNet-A、ImageNet-R、ImageNet-Sketch 上分別取得 28.5%、48.7%、36.0% 的準確率,超越了目前的 SOTA,充分驗證了 RVT 應對測試資料域偏移的能力。

無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022


另外,除了應用於 RVT 模型之外,該研究提出的位置相關的自注意力縮放和基於影像塊的資料增強還可廣泛應用於其他 ViT 模型。

為驗證其效果,研究者採用 DeiT-Ti、ConViT-Ti、PiT-Ti 三個基礎模型,並分別在訓練過程中使用位置相關的自注意力縮放和基於影像塊的資料增強,結果顯示三個基礎模型均獲得了顯著提升,結果如下表 8 所示。

無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022


研究者還採用 t-SNE 技術對 RVT 模型提取特徵進行降維及視覺化,由下圖 4 可看出,在正常分類樣本和噪聲樣本上,RVT-S 的特徵均更加緊湊,類內樣本點靠近類簇,類間樣本相距較遠。該形態使得表徵更具判別性,更難以被攻破。

無懼對抗和擾動、增強泛化,阿里安全打造更魯棒的ViT模型,論文入選CVPR 2022


關於作者

論文一作為阿里巴巴人工智慧治理與可持續發展研究中心演算法工程師毛瀟鋒,主要研究方向為計算機視覺,對抗機器學習等,曾在AAAI/CVPR/MM/TIP上發表論文。

薛暉,阿里巴巴人工智慧治理與可持續發展研究中心(AAIG)主任,帶領團隊在計算機視覺、自然語言處理、資料探勘與網路安全等領域的國際頂級會議和期刊上發表論文100多篇,多次在國際國內知名賽事中取得冠軍,獲授權國內國際專利60餘項,申請中專利達到200多項。

相關文章