對抗樣本有可能會導致財產損失乃至威脅生命。比如,Eykholt 等人 [1] 的研究表明一個經過稍加修改的實體停車標誌能夠使得一個實時的物體識別系統將其誤識別為限速標誌,從而可能造成交通事故。為了揭示深度神經網路模型的魯棒性和準確性之間的關係,來自 IBM 研究院,加州大學戴維斯分校,麻省理工學院以及京東 AI 研究院的研究人員,系統性地度量了 18 個被學術界和工業界廣泛接受並使用的 ImageNet 深度神經網路模型,如 AlexNet、VGG Nets、Inception Nets、ResNets、DenseNets、MobileNets、NASNets 等的魯棒性。
該研究發現了多個非常有趣的現象,包括:1) 準確度越高的模型的普遍魯棒性越差,且分類錯誤率的對數和模型魯棒性存線上性關係;2) 相比於模型的大小,模型的結構對於魯棒性的影響更大;3) 黑盒遷移攻擊是一直以來都比較困難的任務,但在 VGG 系列模型上生成的對抗樣本可以比較容易地直接攻擊其它的模型。該項工作對於理解深度神經網路準確性和魯棒性之間關係提供了一個較完備的圖景。此項研究的論文「Is Robustness the Cost of Accuracy? – A Comprehensive Study on the Robustness of 18 Deep Image Classification Models」已被歐洲計算機視覺大會(ECCV 2018)接收,並且預印版和程式碼都已公開。
自從 2012 年 AlexNet 在 ImageNet 競賽大放異彩之後,研究者們不斷設計出更深和更復雜的深度神經網路模型以期獲得更好的分類精度。雖然這些模型能夠取得影象識別正確率的穩定增長,但它們在對抗攻擊下的魯棒性尚未得到充分研究。為了評估深度神經網路的魯棒性,一個直觀的方法是使用對抗攻擊。這種攻擊生成視覺上和原圖難以察覺區別的對抗樣本使得深度神經網路做出錯誤分類。一般來講,對於一個深度神經網路,如果在其上構建對抗樣本越容易、所新增的噪聲越小、則該網路越不魯棒。除了對抗攻擊之外,神經網路的魯棒性也可以用一種獨立於攻擊的方式來衡量。例如 Szegedy 等人 [2] 和 Hein 等人 [3] 使用神經網路模型的全域性和區域性的 Lipschitz 常量對某些簡單模型的魯棒性進行了理論分析。Weng 等人 [4] 提出使用極值理論來估計為了生成有效的對抗樣本所需要的最小噪聲的尺度。
在這篇論文中,研究者們同時使用了上述兩種方式評估了 18 個在 ImageNet 競賽中脫穎而出的 DNN 模型,包括 AlexNet, VGG Nets, Inceptin Nets, ResNets, DenseNets, MobileNets 和 NASNets 等。這 18 個模型具有不同的大小,分類準確度和結構,因此具有充分的代表性,從而能更好地分析出影響模型魯棒性的不同因素。在使用對抗攻擊來評估魯棒性的方式中,研究者們使用了目前最好最常用的幾種攻擊演算法,包括 Fast Gradient Sign Method(FGSM)[5]、Iterative FGSM(I-FGSM)[6]、Carlini & Wagner(C&W)演算法 [7],以及 Elastic-Net Attack under L1 norm(EAD-L1)演算法 [8]。此外,在獨立於攻擊的魯棒性評估方式中,研究者們選用了目前最為有效的 CLEVER Score[4] 來評估深度神經網路的魯棒性。
這篇論文通過對 18 個 ImageNet 模型在 C&W 攻擊和 I-FGSM 攻擊下的魯棒性的實驗分析,發現當已有模型僅僅追求更高的分類準確度時,往往會犧牲在對抗攻擊下的魯棒性。圖 1 展示了在 I-FGSM 的攻擊下,生成對抗樣本所帶來的扭曲 (以 l-infinity 度量) 與模型的分類錯誤率的對數值呈現出線性關係。因此,當分類器具有非常低的分類錯誤率的時候,在對抗攻擊下它將變得非常脆弱。所以本論文作者們建議 DNN 的設計者在構建網路的時候,應該參考本論文提出的準確度-魯棒性的帕累託邊界來評估其所構建模型的魯棒性。
同時,圖 1 也明確地揭示了屬於同一網路結構家族的網路都有著相近的魯棒性。這就意味著相比於網路的大小,網路結構對於魯棒性的影響更大。
在對抗樣本的黑盒轉移攻擊方面,研究者們對於 18 個 ImageNet 的模型之間的每一對模型(共計 306 對)都進行了在 FGSM, I-FGSM, C&W 和 EAD-L1 攻擊下的黑盒轉移攻擊的實驗。這是迄今為止在黑盒轉移攻擊上最大規模的實驗。圖 2 展示了對大多數網路來說,在它上面生成的對抗樣本只能在本家族的網路之間有較好的黑盒轉移攻擊成功率。唯一的例外是 VGG 家族:基於 VGG 家族的網路生成的對抗樣本在黑盒轉移攻擊其他的 17 個網路上都有著很高的成功率。這一發現也為逆向工程黑盒模型的結構提供了一定的曙光。
圖 1:I-FGSM 攻擊下,關於模型分類準確度(x 座標)和模型魯棒性度量 l-infinity distortion(y 座標)之間的擬合的帕累託邊界(紅色曲線),即
圖 2:I-FGSM 攻擊下 18 個模型(306 對)之間的黑盒轉移攻擊的成功率。每一行的子圖分別對應了 I-FGSM 輪數為 10,30 和 50。第一列的子圖對應於非針對性(untargeted)攻擊,第二列子圖對應於針對性(targeted)攻擊。在每一幅熱力圖中,第 i 行第 j 列上的數值是用第 i 個模型生成的對抗樣本來攻擊第 j 個模型的成功率。對角線上的值就等價於模型在白盒攻擊下成功率。對於非針對性攻擊,報告的數值是成功率。對於針對性攻擊,報告的數值是 top-5 匹配率。與其他模型相比,VGG-16 和 VGG-19(每張圖中最下兩行)展現出了明顯更高的轉移攻擊的成功率。
論文連結:https://arxiv.org/pdf/1808.01688.pdf
程式碼連結:https://github.com/huanzhang12/Adversarial_Survey
參考文獻:
[1] Eykholt, K., Evtimov, I., Fernandes, E., Li, B., Rahmati, A., Xiao, C., Prakash, A., Kohno, T., Song, D.: Robust physical-world attacks on deep learning visual classification. CVPR 2018.
[2] Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., Fergus, R.: Intriguing properties of neural networks. ICLR 2014.
[3] Hein, M., Andriushchenko, M.: Formal guarantees on the robustness of a classifier against adversarial manipulation. NIPS 2017.
[4] Weng, T.W., Zhang, H., Chen, P.Y., Yi, J., Su, D., Gao, Y., Hsieh, C.J., Daniel, L.: Evaluating the robustness of neural networks: An extreme value theory approach. ICLR 2018.
[5] Goodfellow, I., Shlens, J., Szegedy, C.: Explaining and harnessing adversarial examples. ICLR 2015.
[6] Kurakin, A., Goodfellow, I.J., Bengio, S.: Adversarial machine learning at scale. ICLR 2017.
[7] Carlini, N., Wagner, D.A.: Towards evaluating the robustness of neural networks. Oakland 2017.
[8] Chen, P.Y., Sharma, Y., Zhang, H., Yi, J., Hsieh, C.J.: Ead: Elastic-net attacks to deep neural networks via adversarial examples. AAAI 2018.