對抗樣本在機器學習領域受到廣泛關注,但它們存在和流行的原因卻並不明晰。來自 MIT 的一項研究表明,對抗樣本的產生可直接歸因於非穩健特徵的出現:某些來自資料分佈模式的特徵具備高度預測性,但對於人類來講是脆弱且難以理解的。
研究者構建了一個理論框架,並在其中捕捉這些特徵,從而在標準資料集中建立了它們的廣泛存在。最終,研究者展示了一個簡單的任務設定,在該設定中研究者將實踐中觀察到的對抗樣本現象,與(人類設定的)穩健性概念和資料內部幾何之間的不匹配性嚴格地聯絡起來。
論文:Adversarial Examples Are Not Bugs, They Are Features
論文地址:https://arxiv.org/pdf/1905.02175.pdf
什麼是對抗樣本?
近年來,深度神經網路的脆弱性吸引了大量關注,尤其是對對抗樣本現象的擔憂:對自然輸入進行微小的擾動就會使當前最優的分類器出現錯誤的預測結果,而這種擾動在人類看來是不影響整體的。
如下圖所示給定一張熊貓的影象,攻擊方給圖片新增了微小的噪聲擾亂,儘管人眼是很難區分的,但是模型卻以非常高的概率將其誤分類為長臂猿。隨著機器學習的大規模應用,這類誤差對於系統安全顯得尤為重要。
上圖為 Ian Goodfellow 在 14 年展示的對抗樣本,這種對抗樣本是通過一種名為 FGSM 的演算法得出。
既然對抗樣本的危害這麼大,那麼理解它的原因就非常重要了。一般而言,該領域之前的研究大多把對抗樣本視為高維輸入空間產生的畸變,或訓練資料中統計波動導致的偏差。
從這個觀點來看,將對抗穩健性作為目標是非常順理成章的,這個目標可以僅通過最大化模型準確率來解決或達到,而最大化準確率可以通過改善標準正則化方法或網路輸入/輸出的預處理和後處理來實現。
理解對抗樣本的新觀點
那麼到底為什麼會有對抗樣本?它是不是深度神經網路中的一個 Bug?以前也有很多研究從理論模型解釋對抗樣本的各種現象,但是它們並不能解釋所有觀察到的東西。
MIT 的新研究提出了一種新的視角。與之前的模型相反,研究者將對抗脆弱性(adversarial vulnerability)作為主流監督學習機制的基礎後果來看待。具體而言,他們表示:
對抗脆弱性是模型對資料中泛化較好的特徵具備敏感性的直接結果。
他們的假設也對對抗可遷移性給出瞭解釋,對抗可遷移性即為一個模型計算的對抗擾動通常可以遷移到另一個獨立訓練的模型。由於任意兩個模型有可能學習類似的非穩健特徵,因此操控此類特徵的擾動可以應用於二者。最後,該研究提出的新觀點將對抗脆弱性作為完全「以人為中心」(human-centric)的現象,因為從標準監督學習的角度來看,非穩健特徵和穩健特徵具備同等的重要性。
該論文表明,通過引入「先驗」來增強模型可解釋性的方法實際上隱藏了真正「有意義」和具備預測性的特徵。因此,生成對人類有意義同時也忠實於底層模型的解釋,無法僅從模型訓練中獲取。
MIT 的主要做法
為證實該理論,研究者展示了在標準影象分類資料集上將非穩健特徵和穩健特徵分離開來是可能的。具體而言,給定任意訓練資料集,研究者能夠構建:
穩健分類的「穩健」版本(見圖 1a):研究者展示了從資料集中高效移除非穩健特徵是可能的。具體做法是,建立一個與原始資料集語義相似的訓練資料集,在其上進行標準訓練後,模型可在原始未修改測試集上獲得穩健的準確率。該發現表明,對抗脆弱性並非一定與標準訓練框架有關,也有可能與資料集屬性有關。
標準分類的「非穩健」版本(見圖 1b):研究者構建一個訓練資料集,輸入與原始資料集幾乎一致,但所有輸入都是標註錯誤的。事實上,新訓練資料集中的輸入與其標籤之間的關聯僅通過微小的對抗擾動來維繫(從而僅利用非穩健特徵)。儘管缺乏有預測性的人類可見資訊,但在該資料集上訓練後,模型可在原始未修改測試集上獲得不錯的準確率。
圖 1:論文第三章中實驗的概念圖。在 a 中,研究者將特徵分解成穩健和非穩健特徵。b 中研究者構建一個資料集,由於對抗樣本它對於人類而言是錯誤標註的,但它能在原始測試集上獲得不錯的準確率。
最後,研究者使用一個具體的分類任務,嚴謹地研究對抗樣本和非穩健特徵之間的聯絡。該任務包括分割高斯分佈,使用模型基於 Tsipras 等人的模型,不過 MIT 研究者從以下幾個方面對該模型進行了擴充套件。
首先,在該研究設定中,對抗脆弱性可以被準確量化為內在資料幾何和對抗樣本擾動集合的資料幾何之間的差異。
其次,穩健的訓練得到的分類器利用的是二者結合所對應的幾何。
最後,標準模型的梯度會與類內方向產生更大的不匹配性,從而在更復雜場景中捕捉到實踐中觀測到的現象。
實驗
該研究提出的理論框架的核心前提是在標準分類任務中存在穩健性和非穩健性特徵,它們都能為分類提供有用的資訊。為證實這一點,研究者進行了一些實驗,實驗的概念描述見圖 1。
分解穩健性特徵和非穩健性特徵
給出新訓練集 (穩健性訓練集,見下圖 2a),研究者使用標準(非穩健性)訓練得到一個分類器。然後在原始測試集(D)上測試其效能,結果如圖 2b 所示。這表明使用新資料集訓練得到的分類器在標準和對抗環境中都能夠得到不錯的準確率。
給出新訓練集 (非穩健性訓練集,穩健性訓練集,見下圖 2a),研究者使用同樣的方法得到一個分類器。實驗結果表明在該資料集上訓練得到的分類器也能獲得不錯的準確率,但是它幾乎不具備穩健性(見下圖 2b)。
這些發現印證了對抗樣本來自資料的(非穩健性)特徵的假設。
非穩健性特徵足以支援標準分類
僅在非穩健性特徵上訓練得到的模型能夠在標準測試集上得到不錯效能嗎?研究者進行了實驗。
使用對抗擾動 x 和目標類別 t,構建資料集 和 ,然後使用標準(非穩健)模型在 D、 和 三個資料集上進行訓練得到分類器,再在測試集 D 上進行測試得到準確率,如下表 1 所示。實驗結果表明,在這些資料集上進行標準訓練後得到的模型可以泛化至原始測試集,這說明非穩健性特徵確實在標準環境中是有用的。
可遷移性
研究者在資料集 上訓練了五個不同架構,發現每個架構的測試準確率與對抗樣本從原始模型到具備該架構的標準分類器的遷移成比例。這證實了研究者的假設:當模型學習底層資料集的類似脆弱特徵時,即會產生對抗可遷移性。
論文的核心理論框架
研究者提出了學習(非)穩健性特徵的理論框架,但該框架的核心前提是在標準分類任務中存在穩健性和非穩健性特徵,它們都能為分類提供有用的資訊。在原論文第三章中,研究者提供了一些證據以支援這一假設,他們證明這兩種特徵是可區分的。
原論文第三章的實驗表明,穩健和非穩健特徵的概念框架強烈地預測了當前最優模型的經驗性行為,而且是在真實資料集上的行為。為了加強對這些現象的理解,MIT 的研究者在具體環境中例項化這個框架,從而從理論上研究對應模型的各種屬性。
MIT 研究者的模型與 Tsipras 等人 [Tsi+19] 的模型比較相似,某種意義上該模型包含了穩健性特徵和非穩健性特徵的二分法,但該研究提出的模型在很多方面對它進行了擴充套件:
對抗樣本的不穩健效能明確地表示為內在資料度量標準和 L2 度量標準之間的差異。
穩健性學習正好對應於學習這兩種度量標準的組合。
經過對抗訓練後的模型,其梯度更符合攻擊者的度量標準。
通過度量標準的不匹配性衡量易受攻擊型(非穩健特徵)
穩健性學習
下圖 4 展示了,在 L2 約束對抗性下的穩健性優化及其影響的視覺化。
圖 4:定理 2 影響的實證性演示,隨著對抗擾動 ε 的增長,學習到的均值 µ 仍然為常數,但學習到的協方差「blend」為單位矩陣,有效地為非穩健性特徵新增越來越多的不確定性。
梯度可解釋性