GitHub 連結:https://github.com/anishathalye/obfuscated-gradients
上圖展示了一個「對抗樣本」:僅僅加入了一些輕微的擾動,這張貓的圖片就可以愚弄 InceptionV3 分類器,使其將圖片分類為「鱷梨醬」。這類「欺騙性影像」可以輕鬆地利用梯度下降法生成(Szegedy et al. 2013)。
為了解決神經網路對抗樣本的問題(Szegedy et al., 2013),近期人們對於構建防禦對抗樣本,增加神經網路魯棒性的研究越來越多。儘管人們對於對抗樣本的認識已經提升,相關的防禦方法也有提出,但迄今為止並沒有一種完整的解決方法出現。對於 MIT 和 UC Berkeley 的研究人員來說,目前正被稽核的所有對抗樣本防禦論文中提到的方法(Papernot et al., 2016;Hendrik Metzen et al., 2017;Hendrycks & Gimpel, 2017;Meng & Chen, 2017;Zantedeschi et al., 2017)都可以被更加強大的優化攻擊(Carlini & Wagner, 2017)擊敗。
基於迭代優化的對抗攻擊測試基準如 BIM(Kurakin et al., 2016a)、PGD(Madry et al., 2018)和 Carlini 與 Wagner 的方法(Carlini & Wagner, 2017)近期已經成為評估防禦能力的標準,最新的防禦方式似乎能夠抵禦基於優化的最強攻擊。
論文作者宣稱他們找到了很多防禦機制魯棒地抵抗迭代攻擊的一個普遍原因:混淆梯度。缺乏好的梯度訊號,基於優化的方法就不能成功了。在論文中,作者確定了三種型別的混淆梯度。某些防禦方式會導致破碎的梯度,有意地通過不可微分運算或無意地通過數字不穩定性,可以得到不存在或不正確的梯度訊號。一些防禦是隨機性的,導致依賴於測試時間熵的隨機梯度(攻擊者無法接觸)。另一些防禦會導致梯度消失/爆炸(Bengio et al., 1994),導致無法使用的梯度訊號。
研究人員提出了克服這三種現象造成的混淆梯度的新技術。在研究中,一種被稱為後向傳遞可微近似(Backward Pass Differentiable Approximation)的方法解決了不可微分運算導致的梯度破碎。我們可以使用 Expectation Over Transformation 計算隨機防禦的梯度(Athalye et al., 2017),通過再引數化和空間優化來解決梯度消失/爆炸問題。
為了調查混淆梯度的普遍程度,並瞭解該攻擊技術的適用性,研究人員使用 ICLR 2018 接收論文中的防禦對抗樣本論文作為研究物件,研究發現混淆梯度的使用是一種普遍現象,在 8 篇論文裡,有 7 篇研究依賴於該現象。研究者應用新開發的攻擊技術,解決了混淆梯度問題,成功攻破其中的 7 個。研究人員還對新方法對這些論文的評估過程進行了分析。
此外,研究者希望這篇論文可以為對抗樣本方向提供新的知識基礎、攻擊技術解釋,避免未來的研究落入陷阱,幫助避免未來的防禦機制輕易被此類攻擊攻破。
為了保證可復現,研究人員重新實現了 8 篇防禦研究的方法,以及對應的攻擊方法。下表展示了這 8 篇防禦研究方法在攻擊下的穩健程度:
七篇論文中,我們能夠看到唯一一個顯著提高對抗樣本防禦魯棒性的研究是論文《Towards Deep Learning Models Resistant to Adversarial Attacks》(Madry et al. 2018),如果不使用威脅模型以外的方法就無法攻破它。即便如此,這種方法也已被證明難以擴充套件到 ImageNet 的規模(Kurakin et al. 2016)。其他論文全部或多或少地依賴於「混淆梯度」。標準攻擊應用梯度下降使網路損失最大化,為給定圖片在神經網路中生成對抗樣本。這種優化方法需要有可用的梯度訊號才能成功。基於混淆梯度的防禦會破壞這種梯度訊號,使得優化方法失效。
研究人員定義了三種基於混淆梯度的防禦方式,並構建了繞過它們的攻擊方法。新的攻擊方式適用於任何有意或無意的,不可微分運算或其他阻止梯度訊號流經神經網路的防禦法。研究人員希望未來研究能夠基於這種新提出的方法進行更加有效的安全評估。
圖 1. 不同失真水平的等級。第一行:正常影像。第二行:對抗樣本,失真=0.015。第三行:對抗樣本,失真=0.031
討論
在對 ICLR 2018 的幾篇論文攻擊成功之後,是時候來對評估防禦對抗樣本方法的新規則了。MIT 和 UC Berkeley 的研究人員給出的建議仍然大體遵循前人的研究(Carlini & Wagner, 2017a;Madry et al., 2018)。
6.1 定義(逼真的)威脅模型
構建防禦時,定義限制對抗樣本的威脅模型非常關鍵。之前的研究使用單詞 white-box、grey-box、black-box 和 no-box 來描述威脅模型。
本論文作者沒有再次嘗試重新定義詞彙,而是概括防禦的多個方面,它們對於對抗樣本可能是已知的,但對於防禦樣本是未知的:
模型架構和權重;
訓練演算法和資料;
帶有隨機性的防禦對抗樣本,不管對抗樣本是否知道所選隨機值的確切序列或者僅僅是分佈;
假設對抗樣本不知道模型架構和權重,查詢訪問被允許。那麼模型輸出為 logits、概率向量或預測標籤(即 arg max)。
儘管對抗樣本的很多方面可能是未知的,但威脅模型不應該包含非逼真的約束。研究者認為任何有效的威脅模型都是對模型架構、訓練演算法所知甚少的,並且允許查詢訪問。
研究者認為限制對抗樣本的計算能力並無意義。如果兩個防禦對抗樣本具備同樣的魯棒性,但其中一個生成對抗樣本需要一秒,另一個需要十秒,則魯棒性並未提高。只有當對抗樣本的計算速度比預測執行時有指數級提升時,將執行時作為安全引數才是可行的。但是,把攻擊時間增加幾秒並無太大意義。
6.2 研究結果應具體且可測試
定義完清晰的威脅模型之後,防禦應該具體而可測試。例如,這些防禦方法可以聲稱在失真度=0.031 時,對抗樣本的魯棒性為 90% 至最大,或聲稱平均兩種對抗樣本的失真度增加了基線模型的安全程度(在這種情況下,基線模型需要有明確的定義)。
不幸的是,研究者評估的大多數防禦方法僅宣告魯棒性而未給出特定界限。這個建議最大的缺陷就是防禦不應聲稱對無界攻擊具備徹底的魯棒性:不限制失真度,則任何影像可以隨意轉換,且「成功率」為 100%。
為了使防禦宣告可測試,防禦必須是完全具體的,並給出所有超引數。發行原始碼、預訓練模型以及論文也許是使宣告具體的最有效方法。8 篇論文中有 4 篇具有完整的原始碼(Madry et al., 2018; Ma et al., 2018; Guo et al., 2018; Xie et al., 2018)。
6.3 評估自適應攻擊(adaptive attack)
加強對現有攻擊的魯棒性(同時又是具體而可測試的)用處不大。真正重要的是通過具有防禦意識的攻擊積極評估自身的防禦以證明安全性。
具體而言,一旦徹底認定一個防禦,並且對手受限於威脅模式之下,攻克這一防禦的嘗試就變的很重要。如果它能被攻克,那麼就不要設法阻止特定的攻擊(即通過調整超引數)。一次評估之後,可接受對防禦的調整,但調整之後要接受新的攻擊。這樣,通過最終的自適應攻擊得出評估結果就類似於在測試資料上評估模型。
論文:Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples
論文連結:https://arxiv.org/abs/1802.00420
摘要:我們發現了一種「混淆梯度」(obfuscated gradient)現象,它給對抗樣本的防禦帶來虛假的安全感。儘管基於混淆梯度的防禦看起來擊敗了基於優化的攻擊,但是我們發現依賴於此的防禦並非萬無一失。對於我們發現的三種混淆梯度,我們會描述展示這一效果的防禦指標,並開發攻擊技術來克服它。在案例研究中,我們試驗了 ICLR 2018 接收的 8 篇論文,發現混淆梯度是一種常見現象,其中有 7 篇論文依賴於混淆梯度,並被我們的這一新型攻擊技術成功攻克。
「混淆梯度」引發爭議
這篇論文甫一出現,立刻引起了研究社群的關注,GAN 提出者 Ian Goodfellow 也參與了討論。Goodfellow 指出「混淆梯度」的概念實際上與此前人們提出的「梯度遮蔽(gradient masking)」概念相同。同時 ICLR 2018 中的一篇論文《Ensemble Adversarial Training: Attacks and Defenses》(Goodfellow 也是作者之一)實際上解決了這一問題。不過,這一觀點並未被 MIT 與 UC Berkeley 的論文作者完全接受。
該研究也引發了谷歌大腦負責人 Jeff Dean 的關注與吐槽:「這看上去確實是鱷梨啊。」
新研究的第一作者,MIT 博士生 Anish Athalye 致力於研究防禦對抗樣本的方法。也是此前「3D 列印對抗樣本」研究的主要作者(參見:圍觀!MIT科學家調戲了谷歌影像識別網路,後者把烏龜認成來福槍)。多篇 ICLR 接收論文在大會開始三個月前就遭反駁,看來,人們在防禦對抗樣本的道路上還有很長一段路要走。