ODS：輸出多樣化取樣，有效增強白盒和黑盒攻擊的效能

【簡介】

本文提出了一種新的取樣策略——輸出多樣化取樣，替代對抗攻擊方法中常用的隨機取樣，使得目標模型的輸出儘可能多樣化，以此提高白盒攻擊和黑盒攻擊的有效性。實驗表明，該種取樣策略可以顯著提升對抗攻擊方法的效能。

論文地址：

https://arxiv.org/abs/2003.06878

論文程式碼：

【引言】

神經網路在影像分類任務上取得了很大的成功，但是它們卻很容易被對抗樣本攻擊——人眼不可察的微小擾動就能讓其分類錯誤。因此，設計強有力的攻擊方法對評估模型的魯棒性和防禦能力至關重要。目前大部分攻擊方法都要依賴於隨機取樣，也就是給輸入圖片加入隨機噪聲。在白盒攻擊中，隨機取樣被用於尋找對抗樣本的初始化過程；在黑盒攻擊中，隨機取樣被用來探索生成對抗樣本的更新方向。在這些攻擊中，都是在模型的輸入空間（畫素空間）進行隨機取樣以實現儘可能大的多樣性，從而提高對抗的成功率。但是對於複雜的非線性深度神經網路模型，輸入空間樣本的多樣性並不能代表輸出空間樣本結果的多樣性，如下圖左側所示，黑色實心點表示原始輸入樣本，黑色空心圓圈表示取樣得到的擾動，藍色虛線箭頭表示隨機取樣，我們可以看到，當把隨機擾動新增到原始樣本上，在輸出空間，其對應的輸出值距離原始樣本的輸出值非常接近，也就是說輸入空間隨機取樣的多樣性並不能直接導致輸出空間結果的多樣性。因此，本文作者提出一種新的取樣策略——輸出多樣化取樣（ODS），目的在於讓樣本的輸出儘可能多樣化。如下圖左側紅色實線箭頭所示，輸入空間的取樣結果，對映到輸出空間，也能具有很大的多樣性。而下圖右側類似，只不過是應用到黑盒攻擊中，通過讓代理模型的輸出儘可能多樣化來實現目標模型（被攻擊的模型）輸出的多樣化。

【模型介紹】

1、輸出多樣化取樣（ODS）

2、利用ODS增強白盒攻擊

在白盒攻擊中，我們利用ODS來初始化尋找對抗樣本的優化過程（被稱為ODI）的起始點，具體公式為：

3、利用ODS增強黑盒攻擊

具體演算法流程如下表所示：

對於原始輸入圖片，在黑盒攻擊生成對抗樣本的優化過程中，每次迭代都朝著的方向，從而讓模型的輸出儘可能多樣化。

【實驗結果】

1、白盒攻擊實驗

在這裡，針對兩種經典的白盒攻擊方法PGD攻擊和 C&W攻擊，作者比較了利用ODI初始化和普通的隨機初始化（naive）的對抗攻擊效能，如下表所示。

我們可以看到，在兩種攻擊方法PGD和C&W中，採用ODI策略的方法比普通的隨機取樣在多個模型上都能取得更低的準確率，也就是具有更強的攻擊效力。此外，相比於基於MNIST資料集訓練的模型，ODI方法在基於CIFAR-10和ImageNet資料集訓練的模型上顯示出了更大的優勢（ODI的結果和naïve的結果差距更大）。作者猜測這可能是受到模型非線性程度的影響。由於基於CIFAR-10和ImageNet的模型具有更強的非線性，因此輸入空間和輸出空間兩者的多樣性之間的差距更大，而ODI由於使得樣本輸出足夠多樣化，故而有效增強了對抗攻擊的效能。

作者進一步比較了結合ODI策略的PGD攻擊方法（ODI-PGD）與其他對抗攻擊方法的效能，如下表所示：