【簡介】
本文提出了一種新的取樣策略——輸出多樣化取樣,替代對抗攻擊方法中常用的隨機取樣,使得目標模型的輸出儘可能多樣化,以此提高白盒攻擊和黑盒攻擊的有效性。實驗表明,該種取樣策略可以顯著提升對抗攻擊方法的效能。
論文地址:
https://arxiv.org/abs/2003.06878
論文程式碼:
https://github.com/ermongroup/ODS
【引言】
神經網路在影像分類任務上取得了很大的成功,但是它們卻很容易被對抗樣本攻擊——人眼不可察的微小擾動就能讓其分類錯誤。因此,設計強有力的攻擊方法對評估模型的魯棒性和防禦能力至關重要。目前大部分攻擊方法都要依賴於隨機取樣,也就是給輸入圖片加入隨機噪聲。在白盒攻擊中,隨機取樣被用於尋找對抗樣本的初始化過程;在黑盒攻擊中,隨機取樣被用來探索生成對抗樣本的更新方向。在這些攻擊中,都是在模型的輸入空間(畫素空間)進行隨機取樣以實現儘可能大的多樣性,從而提高對抗的成功率。但是對於複雜的非線性深度神經網路模型,輸入空間樣本的多樣性並不能代表輸出空間樣本結果的多樣性,如下圖左側所示,黑色實心點表示原始輸入樣本,黑色空心圓圈表示取樣得到的擾動,藍色虛線箭頭表示隨機取樣,我們可以看到,當把隨機擾動新增到原始樣本上,在輸出空間,其對應的輸出值距離原始樣本的輸出值非常接近,也就是說輸入空間隨機取樣的多樣性並不能直接導致輸出空間結果的多樣性。因此,本文作者提出一種新的取樣策略——輸出多樣化取樣(ODS),目的在於讓樣本的輸出儘可能多樣化。如下圖左側紅色實線箭頭所示,輸入空間的取樣結果,對映到輸出空間,也能具有很大的多樣性。而下圖右側類似,只不過是應用到黑盒攻擊中,通過讓代理模型的輸出儘可能多樣化來實現目標模型(被攻擊的模型)輸出的多樣化。
【模型介紹】
1、輸出多樣化取樣(ODS)
2、利用ODS增強白盒攻擊
在白盒攻擊中,我們利用ODS來初始化尋找對抗樣本的優化過程(被稱為ODI)的起始點,具體公式為:
3、利用ODS增強黑盒攻擊
具體演算法流程如下表所示:
對於原始輸入圖片,在黑盒攻擊生成對抗樣本的優化過程中,每次迭代都朝著的方向,從而讓模型的輸出儘可能多樣化。
【實驗結果】
1、白盒攻擊實驗
在這裡,針對兩種經典的白盒攻擊方法PGD攻擊和 C&W攻擊,作者比較了利用ODI初始化和普通的隨機初始化(naive)的對抗攻擊效能,如下表所示。
我們可以看到,在兩種攻擊方法PGD和C&W中,採用ODI策略的方法比普通的隨機取樣在多個模型上都能取得更低的準確率,也就是具有更強的攻擊效力。此外,相比於基於MNIST資料集訓練的模型,ODI方法在基於CIFAR-10和ImageNet資料集訓練的模型上顯示出了更大的優勢(ODI的結果和naïve的結果差距更大)。作者猜測這可能是受到模型非線性程度的影響。由於基於CIFAR-10和ImageNet的模型具有更強的非線性,因此輸入空間和輸出空間兩者的多樣性之間的差距更大,而ODI由於使得樣本輸出足夠多樣化,故而有效增強了對抗攻擊的效能。
作者進一步比較了結合ODI策略的PGD攻擊方法(ODI-PGD)與其他對抗攻擊方法的效能,如下表所示:
這裡tuned ODI-PGD是指引數經過微調後的ODI-PGD。可以看到,tuned ODI-PGD具有最好的效能,而在基於CIFAR-10的模型上,一般的ODI-PGD的效能也能超過tuned PGD, 同時還具有更小的計算開銷。
2、黑盒攻擊實驗
在這裡,作者主要評估了利用ODS策略的黑盒攻擊方法和其他攻擊方法在生成對抗樣本的過程中查詢次數的多少。
如上表所示,作者比較了結合ODS的黑盒攻擊方法(SimBA-ODS)和原始的黑盒攻擊方法(SimBA-DCT),可以發現SimBA-ODS大大減少了查詢次數,同時具有更小的擾動距離,也就是更加接近正常樣本。
此外,作者還比較了查詢次數和攻擊成功率的關係,以及查詢次數和擾動大小的關係。
如上圖所示,可以發現結合ODS的方法(SimBA-ODS)比一般方法(Square)能在較少的查詢次數時就達到很高的攻擊成功率,從而可以大大減少計算時間開銷。
如上圖所示,在有目標攻擊和無目標攻擊中,結合ODS的攻擊方法(Boundary-ODS)在3000多次查詢後就能達到其他方法10000次查詢才達到的對抗擾動水平。