深度神經網路(DNN)在機器學習和人工智慧的諸多不同任務(諸如影像分類、語音識別、機器翻譯、打遊戲)上取得了當前最優結果。儘管很有效,DNN 在對抗樣本(Szegedy et al. 2013; Goodfellow, Shlens, and Szegedy 2015)面前依然表現的很脆弱。比如,一個精心設計的影像擾動可以輕易使訓練良好的 DNN 失去分類能力。更糟糕的是,人類的感知實際上也無法在視覺上辨認有效對抗樣本的區別。比如,圖 1 給出了由我們的演算法生成的鴕鳥影像的三個對抗樣本,由一種當前最優的影像分類模型 Inception-v3(Szegedy et al. 2016)分別識別為「安全」、「鞋店」和「吸塵器」。
圖 1:由 EAD(演算法 1)生成的對抗樣本。原始樣本是一張來自 ImageNet 資料集(圖 1 (a))的鴕鳥影像。圖 1 (b) 中的對抗樣本被 Inception-v3 識別為不同的類別標籤。
DNN 在對抗樣本面前所欠缺魯棒性引起了安全類應用的強烈關注,包括交通訊號識別、惡意軟體檢測等等。然而,在數字空間之外的現實世界,研究者已表明對抗樣本在愚弄 DNNs 上依然有效(Kurakin, Goodfellow, and Bengio 2016a; Evtimov et al. 2017)。鑑於魯棒性和安全性的存在,製作對抗樣本的方法稱作 DNN 攻擊。特別是,有目標的攻擊旨在製造被誤分類為特定目標類別的對抗樣本,而無目標的攻擊旨在製作不是原始分類的對抗樣本。遷移攻擊旨在製作可從一個 DNN 模型遷移到另一個的對抗樣本。除了評估 DNN 的魯棒性,對抗樣本還可用於訓練能夠適應對抗擾動的魯棒模型,這稱之為對抗訓練(Madry et al. 2017),並已經用於解釋 DNN(Koh and Liang 2017; Dong et al. 2017)。
在整篇論文中,我們使用對抗樣本攻擊基於深度卷積神經網路的影像分類器。製作有效對抗樣本的原理在於操控預測結果,同時又保證與原始影像的相似性。具體來講,在文獻中原始與對抗樣本之間的相似性已經進行了不同的失真度量(distortion metrics)。一個常用的失真度量是 L_q 範數,其中
上式表示任意 q ≥ 1 的 p 維向量 x = [x_1, . . . , x_p] 的 L_q 範數。尤其當製作對抗樣本時, L∞失真度量用於評估最大的畫素值變化(Goodfellow, Shlens, and Szegedy 2015),而 L2 失真度量則用於提升視覺質量(Carlini and Wagner 2017b)。
然而,儘管 L1 範數廣泛用於影像降噪、還原(Fu et al. 2006)以及稀疏恢復(Candes and Wakin 2008),基於 L1 的對抗樣本並未被嚴格探討。在對抗樣本中,L1 失真說明了擾動中的總變化,並作為 L0 度量的凸替代函式,它可以度量擾動所修改的畫素(即稀疏性)數量。為了彌補差距,我們提出了一種基於彈性網路正則化(Elastic-net regularization)的攻擊演算法,稱為彈性網路正則化攻擊(EAD)。彈性網路正則化是 L1 和 L2 懲罰函式的線性混合,已成為解決高維特徵選擇問題(Zou and Hastie 2005)的標準工具。在 DNN 攻擊中,由於其推廣了基於 L2 失真而提出的當前最優攻擊方法(Carlini and Wagner 2017b),EAD 開闢了新的研究方向,並能夠製造面向 L1 的對抗樣本,它更有效,並迥然不同於現有的攻擊方法。
為了探討 EAD 基於 L1 構建的對抗樣本效用,我們在不同的攻擊情景中對 MNIST、CIFAR10 和 ImageNet 進行了大量實驗。相較於當前最優的 L2 和 L∞攻擊(Kurakin, Goodfellow, and Bengio 2016b; Carlini and Wagner 2017b),當攻擊無防備和防備式提取的 DNN(Papernot et al. 2016b)時,EAD 可以獲取相似的攻擊成功率。更重要的是,我們發現 L1 攻擊在遷移攻擊中取得了優於 L2 和 L∞攻擊的表現。對於更困難的資料集(MNIST),EAD 最終提升了從無防備 DNN 到防備式提取 DNN 的攻擊遷移性,並取得了 99% 的攻擊成功率。此外,帶有 L1 和 L2 例項的聯合對抗訓練可以進一步提高 DNNs 對於對抗樣本的適應力。這些結果表明 EAD 產生了一個截然不同,但更有效的對抗樣本集。此外,對基於 L1 失真攻擊的評估為對抗式機器學習和 DNN 安全應用提供了全新的洞見,並表明 L1 也許可以補充基於 L2 和 L∞的樣本,進一步完善對抗式機器學習框架。
對比方法
我們對比了 EAD 和以下目標攻擊,它們都是在不同失真度量中製造對抗樣本的高效方法。
- C&W 攻擊:當前最優的 L2 目標攻擊方法,由 Carlini 和 Wagner(Carlini and Wagner 2017b)提出。當β = 0 時,它是 EAD 演算法的一個特殊案例。
- FGM:快速梯度攻擊演算法(Goodfellow, Shlens, and Szegedy 2015)。在本文中我們使用 FGM-L1、FGM-L2 和 FGM-L∞表示不同的失真度量方法。
- I-FGM:迭代的快速梯度攻擊演算法(Kurakin, Goodfellow, and Bengio 2016b)。在本文中我們使用 I-FGM-L1、I-FGM-L2 和 I-FGM-L∞表示不同的失真度量方法。
表 1: COV(change-of-variable)方法和 EAD(演算法 1)在 MNIST 上實現彈性網路正則化攻擊的對比。ASR 指攻擊成功率 (%)。儘管這兩個方法獲得了相似的攻擊成功率(皆接近或達到 100%),COV 在製作 L1 對抗樣本上不甚有效。增加β減少了 EAD 的 L1-distorted 對抗樣本,而 COV 的失真對β的變化卻不敏感。
圖 2:在帶有不同 L1 正則化引數β(平均情況)的 MNIST 資料集上,EAD 中 EN 和 L1 決策規則的對比。相較於 EN 規則,對於相同的β,L1 規則獲得了較少的失真,但也許會引發更多的 L2 和 L∞失真。
表 2:MNIST、CIFAR10 和 ImageNet(平均情況)上不同攻擊的對比。失真度量取所有成功樣本的平均值。EAD、C&W 攻擊、I-FGM-L∞各自取得了最少的 L1、L2 和 L∞失真對抗樣本。完整的攻擊結果請參見附錄資料 1。
圖 3:在不同溫度引數 T(防禦性提取/defensive distillation)的 MNIST 和 CIFAR10 資料上,C&W 方法和 EAD 的攻擊成功率(平均情況)。兩種方法都可以攻克防禦性提取。
圖 4:κ不斷變化的情況下,MNIST 資料集上從無防禦網路到防禦性提取網路的攻擊遷移性(平均情況)。當κ = 50,EAD 取得了接近 99% 的攻擊成功率,而當κ = 40,C&W 攻擊的最高成功率是接近 88%。
表 3:在 MNIST 上使用 C&W 攻擊和 EAD(L1 規則)的對抗訓練。ASR 指攻擊成功率。整合 L1 樣本補充了對抗訓練,並提升了失真方面的攻擊難度。完整結果請參見附錄材料 1。
論文:EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples
論文地址:https://arxiv.org/pdf/1709.04114.pdf
近來的一些研究已經突出說明了深度神經網路(DNN)面對對抗樣本時的脆弱性——人們可以輕鬆創造出在視覺上難以區分,卻能讓經過良好訓練的模型分類錯誤的對抗影像。現有的對抗樣本生成方法大多基於 L2 和 L∞ 範數去度量,但很少有方法用到了 L1 範數,儘管它有一些優良的性質,例如鼓勵生成更為稀疏的對抗噪音。
在本論文中,我們將使用對抗樣本攻擊 DNN 的過程轉化為了使用彈性網路正則化(elastic-net regularized)的最佳化問題。在這種表示下,當前最佳的 L2 範數攻擊演算法成為了本文方法的一個特例(在不考慮 L1 範數的情況下)。在 MNIST、CIFAR10 和 ImageNet 上的實驗結果表明 EAD 演算法可以生成具有很小 L1 失真的對抗樣本,並且能在不同攻擊場景中實現與當前最佳方法匹敵的攻擊成功率。更重要的是,EAD 演算法生成的對抗樣本有著顯著增強的攻擊可遷移性,這為如何在對抗機器學習中使用 L1 範數失真以及增強 DNN 的安全性提供了全新的見解。