人工智慧技術具有改變人類命運的巨大潛能,但同樣存在巨大的安全風險。攻擊者透過構造對抗樣本,可以使人工智慧系統輸出攻擊者想要的任意錯誤結果。從數學原理上來說,對抗攻擊利用了人工智慧演算法模型的固有缺陷。本文以全連線神經網路為例來介紹對抗樣本對人工智慧模型作用的本質。
一、背景
近年來,隨著海量資料的積累、計算能力的提高、機器學習方法與系統的持續創新與演進,人工智慧技術取得了重大突破,成功應用於影像處理、自然語言處理、語音識別等多個領域。在影像分類、語音識別等模式識別任務中,機器學習的準確率甚至超越了人類。
人工智慧技術具有改變人類命運的巨大潛能,但同樣存在巨大的安全風險。這種安全風險存在的根本原因是機器學習演算法設計之初普遍未考慮相關的安全威脅,使得機器學習演算法的判斷結果容易被惡意攻擊者影響,導致AI系統判斷失準。2013年,Szegedy等人首先在影像分類領域發現了一個非常有趣的“反直覺”現象:攻擊者透過構造輕微擾動來干擾輸入樣本,可以使基於深度神經網路(DNN)的圖片識別系統輸出攻擊者想要的任意錯誤結果。研究人員稱這類具有攻擊性的輸入樣本為對抗樣本。隨後越來越多的研究發現,除了DNN模型之外,對抗樣本同樣能成功地攻擊強化學習模型、迴圈神經網路(RNN)模型等不同的機器學習模型,以及語音識別、影像識別、文字處理、惡意軟體檢測等不同的深度學習應用系統。
從數學原理上來說,對抗攻擊利用了人工智慧演算法模型的固有缺陷,即人工智慧演算法學習得到的只是資料的統計特徵或資料間的關聯關係,而並未真正獲取反映資料本質的特徵或資料間的因果關係,並沒有實現真正意義上的“智慧”。本文以全連線神經網路為例來介紹對抗樣本對人工智慧模型作用的本質。
二、對抗樣本簡介
神經網路是目前人工智慧系統中應用最廣泛的一種模型,是一種典型的監督學習模型。儘管例如生成式對抗網路(Generative Adversarial Networks, GAN)等模型號稱是無監督演算法,但是其本質是將神經網路進行組合而來,模型中每個神經網路仍然是監督學習演算法。對於最基本的神經網路來說,其訓練過程如圖1所示。
圖1 神經網路訓練過程
神經網路模型可以被看成是一個從資料集到標籤集的對映,用y=f(x)表示,其中,x 為神經網路的輸入資料,y為輸出資料,yx為資料x對應的標籤。在訓練過程中,對於輸入資料x,比較神經網路的輸出y與標籤yx,根據二者的差值來更新神經網路模型y=f(x)中的引數,即權重和偏置的值。訓練好的模型即可以用來進行分類。對抗樣本對模型y=f(x)的影響如圖 2所示。
圖2 對抗樣本對神經網路模型的影響
對輸入資料x中加入一個擾動量(圖2中的∆x1和∆x2),可以使模型y=f(x)的輸出發生較大的變化。通常,擾動量‖∆x1‖和‖∆x2‖都很小。例如在影像識別的應用中,只改變輸入影像中的少部分畫素,甚至只修改一個畫素的值,就可能使分類器做出錯誤的判斷。對於一個已經訓練好的模型y=f(x)來說,並不是對所有的輸入資料x進行擾動都可以使其輸出發生較大的改變,同時,對於一個輸入資料x,往往也需要加入特定型別的擾動才會使模型輸出發生變化。也就是說對抗樣本的生成需要具備一定的條件。那麼對抗樣本與模型的關係是什麼呢?接下來透過具體的案例來說明。
三、案例分析
理想的二分類問題
圖3 理想的二分類問題
圖3所示是一個線性二分類問題。兩個類別之間差異度較大,因此可以較容易的找出兩個類別的分類邊界。而對於實際的問題來說,待分類資料的分佈情況往往不可知。同時,實際問題的複雜性,噪聲干擾等因素導致待分類資料集中不同類別資料之間的區分度並不明顯。下面針對幾種典型的資料集的二分類問題分別討論。
線性二分類問題
考慮如圖4所示的資料集。該資料集中的兩個類別都是高斯分佈。由於特徵提取,資料噪聲等原因,與圖3中的資料集相比,該資料集中兩類資料的距離較近,且有部分資料互相交叉,也就是說兩類資料的區分度不明顯。對該資料集採用神經網路模型進行分類,其模型的等高線圖如圖5所示。
圖4 線性分類資料集
圖5 線性分類的等高線圖
在圖5中,線條表示神經網路模型y=f(x)的等高線。根據等高線的密集程度,可以將二維平面分為不穩定區域和穩定區域。
不穩定區域:等高線密集的區域。在不穩定區域中,y=f(x)的梯度的絕對值較大,即函式值y隨著x變化較快,x的微小變化會對y的值造成大的影響。
穩定區域:等高線稀疏的區域。在穩定區域中,函式值y隨著x變化較慢,x的微小變化不會對y的值造成大的影響。
如圖 5所示,如果輸入資料落在神經網路模型的不穩定區域中,那麼該模型在這個輸入資料處容易被對抗樣本欺騙。如果輸入資料落在神經網路模型的穩定區域中,那麼該模型在這個輸入資料處就不容易被對抗樣本欺騙。這就解釋了在實際的神經網路模型中,例如影像識別的神經網路,某些輸入影像經過微小的改動就能夠使模型分類錯誤,而另一些影像即使經過較大的改動仍然可以使模型輸出正確的分類結果。
另外,由梯度的定義可知,梯度向量與等高線是正交的。沿著梯度的方向函式值變化最快,而沿著等高線的方向,函式值不發生變化。因此對於落在不穩定區域的輸入資料x來說,其對擾動∆x的敏感程度取決∆x與梯度向量(或等高線)的夾角。若∆x沿著梯度方向,那麼微小的‖∆x‖就會使模型函式的輸出y發生大的變化。如果∆x沿著等高線方向,那麼即使‖∆x‖較大,函式的輸出y也不會發生變化。這就解釋了在實際的神經網路模型中,例如用於影像識別的神經網路,一些影像只有經過特定的擾動才會引起分類錯誤,而並不是針對影像的任何擾動都會引起分類錯誤。
雙半月資料集的二分類問題
前面透過等高線分佈圖說明了對抗樣本的作用機理。下面針對更加複雜的資料集來進一步展示。本節對雙半月形資料集進行二分類。資料集和神經網路的等高線圖分別如圖6和圖7所示。
圖 6 雙半月形資料集
圖7 雙半月形資料集的等高線圖
對於雙半月形資料集,其分類模型函式的等高線分佈更加複雜。在圖6可以看出,兩類資料之間的距離較近,同時還有部分交叉,因此決策邊界處的等高線較密集。與線性分類相似,在等高線密集的區域,如果輸入量x沿著梯度的方向發生微小的變動,那麼就會導致模型的輸出y發生較大的變化。
環形資料集
環形資料集和其神經網路的等高線圖分別如圖8和圖9所示。
圖8 環形資料集
圖9 環形資料集的等高線圖
圖8所示的資料集中的兩類資料同樣距離較近,且有部分交叉。從圖9可以看出,等高線更加複雜,不穩定區域也更多。由於兩類資料的距離較近,因此決策邊界處屬於不穩定區域。同時,在非邊界處也出現了等高線密集的區域。也就是說在非決策邊界處也出現了不穩定區域,如圖9中所示。在這些不穩定區域中,模型容易被對抗樣本所欺騙。可見,對於複雜分佈的資料集來說,模型的不穩定區域更多,分佈也更加複雜。
四、總結
以上透過不同的資料集展示了神經網路模型被對抗樣本欺騙的原理。為了方便說明,以上資料集中的資料都為二維,可以直觀的透過影像來展示。隨著資料集中的資料分佈越來越複雜,模型的不穩定區域會更多,同時不穩定區域的位置也更加難以預測。在實際應用中,資料集的維度往往非常高,例如MNIST資料集每個樣本有784個特徵,即784維;CIFAR資料集每個樣本有3072個特徵,即3072維。對於高維的資料空間,其資料的分佈往往不可知,且模型的決策邊界更加複雜,無法透過影像來直觀的展示,因此無法準確地知道模型不穩定區域的分佈。目前學術界雖然提出了一些對抗攻擊的防護方法,但效果都有限,其主要原因就在於目前已有的研究主要是透過各種方法改變了不穩定區域的位置,但並沒有將其消除。對於高維資料集和更加複雜的分類模型來說,其模型的不穩定區域的分佈不可預知。因此,對抗樣本的防護問題現在並沒有從根本上被解決,還需要從數學原理上進行更加深入的研究。