機器學習模型易受對抗樣本的影響,導致識別錯誤,那麼人類呢?在本文中,谷歌大腦 Ian Goodfellow 等人通過最新技術建立了首個欺騙人類的對抗樣本,其實現過程是把已知引數和架構的計算機視覺模型的對抗樣本遷移至未獲取引數和架構的其他模型,並通過修改模型更好地匹配人類視覺系統的初始處理。文章選自arXiv,作者:Gamaleldin F. Elsayed,機器之心編譯。
引言
機器學習模型很容易受到對抗樣本的愚弄:輸入經過對抗樣本優化後導致模型輸出錯誤的分類(Szegedy et al., 2013; Biggio et al., 2013)。在計算機視覺領域中,對抗樣本通常是對資料集中的樣本影像進行微小擾動形成的影像。很多構建對抗樣本的流行演算法依賴模型架構和引數對輸入進行梯度優化。但由於無法獲取大腦的「架構和引數」,這些方法無法針對人類構建對抗樣本。
一個有趣現象是對抗樣本通常可從一個模型遷移到另一個,這使得攻擊未獲取架構和引數的模型成為可能。這自然就提出了一個問題,即對抗樣本是否可以欺騙人類。人類有很多認知偏差和視覺錯覺,但這些通常不算是自然影像的微小擾動,目前也無法通過機器學習損失函式來優化生成。因此,目前該領域對此的觀點是遷移性對抗樣本沒有影響人類視覺感知,儘管研究者並未進行徹底的實證研究。
研究者對上述問題進行了嚴密研究,為機器學習和神經科學互相學習創造了機會。神經科學通常為機器學習提供存在證明——我們研究物件識別演算法之前,先假設有可能構建成功,因為人腦能夠識別物件。詳情可檢視 Hassabis et al. (2017) 關於神經科學對人工智慧影響的論述。如果我們知道人腦能夠抵禦某類對抗樣本,那麼這就為機器學習安全性的類似機制提供了存在證明。如果我們知道人腦會被對抗樣本愚弄,那麼機器學習安全性研究的重心或許應該從設計對對抗樣本具備魯棒性的模型轉移到設計安全系統但包含非魯棒性的機器學習元件。類似地,如果針對計算機視覺開發的對抗樣本對人腦也有影響,那麼這有助於更好地理解人腦功能。
(a)對抗樣本影像典型示例(Goodfellow et al.,2014)。該對抗利用幾何變換攻擊愚弄模型的能力適度且有限,可以愚弄的模型不包括生成該對抗影像的模型。(b)該對抗攻擊使貓影像被標註為計算機,但是對幾何變換具備魯棒性(Athalye,2017)。與 a 中的攻擊不同,該影像包含對人類來說語義上更像計算機的語義特徵。(c)使影像被標註為麵包機的對抗 patch,可引起多個視角的誤分類(Brown et al.,2017)。與 b 類似,該 patch 包括人類看來更像麵包機的特徵。(d)本論文中,研究者發現當對抗樣本影像用於愚弄多個模型,而不是不同視角的同樣模型時會有類似的影響。此處影像對應一系列把貓識別為狗的對抗攻擊。上:從左到右,攻擊針對的是越來越大型的模型叢集(右側是原始影像)。每張影像上方是兩個測試模型的類別預測結果。隨著攻擊目標模型的數量越來越多,生成的影像對人類來說越來越像狗。下:攻擊針對 10 個模型時,不斷變化的攻擊程度。即使在 eps = 8 時,該影像對人類來說也更像狗。
該研究調查了能夠在多個計算機視覺模型之間強烈遷移的對抗樣本對人類視覺感知的影響力。利用三個關鍵點來測試對抗樣本是否會對人類視覺系統產生可觀測的影響:首先,研究者使用近期的黑箱對抗樣本構建技術為未獲取模型架構或引數的目標模型建立對抗樣本。第二,研究者調整機器學習模型來模仿人類的初始視覺處理,使對抗樣本更有可能從模型遷移至人類觀察者。第三,研究者在時限性環境中評估人類觀察者的分類結果,以使對抗樣本對人類感知的細微影響也能被檢測到。
換言之,人類可以在分類任務上達到接近完美的準確率,效能的微小改變可能不會對應到準確率的可觀變化。影像呈現時間足夠簡短的情況下,人類甚至無法對乾淨影像實現完美的準確率,效能的微小改變會導致準確率方面更加可觀的變化。此外,短時間的影像呈現限制了大腦利用迴圈和自上而下處理路徑的時間(Potter et al., 2014),被認為是使大腦內部的處理過程更接近前饋人工神經網路。
研究者發現可在多個計算機視覺模型之間遷移的對抗樣本能夠成功地影響人類觀察者的感知,從而發現了一種可同時適用於計算機視覺模型和人腦的新型假象(illusion)。
對抗樣本
Goodfellow et al. (2017) 將對抗樣本定義為「機器學習模型的輸入,一個有意設計出並導致模型犯錯的攻擊者」。在視覺目標識別中,對抗樣本通常是向自然影像中新增微小擾動後的影像,可以破壞機器學習分類器的預測。圖 2a 就是一個典型示例:通過向熊貓影像新增微小擾動,使模型將其誤分類為長臂猿。擾動通常很小,難以覺察(即它無法儲存為 8 位元的標準 png 檔案,因為擾動比畫素動態範圍的 1/255 還要小)。該擾動並非噪聲,它依賴於根據神經網路引數仔細選擇的結構,但是即使擴大到可感知的程度,人類觀察者也不會識別出任何有意義的結構。注意:對抗樣本也存在於惡意軟體檢測等領域中(Grosse et al., 2017),但是本論文主要關注影像分類任務。
對抗樣本定義的兩個方面對本研究尤其重要:
1. 對抗樣本旨在引發錯誤。它們的設計目的並非背離人類的判斷。如果對抗樣本與人類輸出相悖,則不可能存在針對人類的對抗樣本。一些任務存在客觀正確的答案,比如預測輸入數字是否為素數。研究者希望模型獲得正確答案,而不是人類給出的答案(何況時間有限的情況下人類可能也無法很好地判斷數字是否為素數)。定義什麼構成視覺物件識別的錯誤很有難度,因為影像新增擾動之後可能不再對應於真實物理場景的照片,並且定義影像的真實物件類別在哲學上是困難的,因為真實物體的影像並不是真實物體。該研究假設當輸出標籤不同於人類為乾淨影像(即對抗樣本的起始點)提供的標籤時,則對抗影像被錯誤分類。研究者製造小的對抗擾動,並且假設這些微小擾動不足以改變真類。
2. 對抗樣本並非不可感知。如果是這樣,則從定義上來看就不可能製造出針對人類的對抗樣本,因為改變人類的分類也就意味著改變人類的感知內容。此外,在很多領域中,做出不可感知的改變都是不可能的(如自然語言處理,即使改變一個字元也是可感知的)。計算機視覺演算法經常被人類無法感知的對抗樣本愚弄,但這並不是一般定義的一部分(可參見圖 2b、c)。
模型整合
研究者構建了 k 個 CNN 模型的整合 (k = 10),這些模型在 ImageNet 上進行訓練。每個模型是以下架構的例項:Inception V3、Inception V4、Inception ResNet V2、ResNet V2 50、ResNet V2 101、ResNet V2 152 (Szegedy et al., 2015; 2016; He et al., 2016)。為更好地匹配人類視覺系統的初始處理,研究者預先為每個模型輸入新增一個視網膜層,它整合了一些由人眼執行的變換。在該層中,研究者執行影像的 eccentricity-dependent 模糊化,以近似人類受試者的視覺皮質通過視網膜晶格接收的輸入。模型細節詳見附錄 B。研究者使用來自 Van Essen&Anderson(1995)(基於獼猴視覺系統)的 eccentricity-dependent 空間解析度測量以及觀察者和螢幕的已知幾何角度,來確定每個影像位置的空間模糊程度,從而把 CNN 限制為人類視覺系統也可獲取的資訊。該層是完全可微的,在執行對抗攻擊時允許梯度通過網路進行反向傳播。
論文:Adversarial Examples that Fool both Human and Computer Vision
摘要:機器學習模型易受對抗樣本的影響:影像的微小改變即可導致計算機視覺模型犯錯,比如把校車識別為鴕鳥。但是,人類能否避免同樣的錯誤依然未知。這裡,我們利用最新技術建立了首個欺騙人類的對抗樣本,這些技術將已知引數和架構的計算機視覺模型的對抗樣本遷移至未獲取引數和架構的其他模型,並通過修改模型更好地匹配人類視覺系統的初始處理。我們發現,在計算機視覺模型之間進行有效遷移的對抗樣本對時限性環境下的人類觀察者的分類結果產生影響。