AI領域未來幾年最引人矚目的新方向是什麼?

AMiner學術頭條發表於2018-11-14

1.概述

我在國內的兩個著名的學術搜尋網站 AMiner 和 Acemap 進行了調查,以 adversarial attack和相近意思的 poisoning attack 等詞作為關鍵詞搜尋了相關的論文,以下是兩個網站給出的論文資料分析圖表。

AI領域未來幾年最引人矚目的新方向是什麼?

一方面,從圖中很明顯可以看出,在 2015 年直到今年,adversarial attack相關的論文顯著增多,這說明了在機器學習發展飛速的今天,機器學習的安全問題逐漸被研究者們所重視。 所以我認為這個方向在未來幾年應該會是一個新興的熱點。

另一方面,雖然這類論文在近幾年顯著增多,但是這並不能說明這個方向的前景更好、 可挖掘的知識更多。所以我又搜尋了另一個現在已經成為熱門方向的領域——reinforcement learning的資料來作為對比。

AI領域未來幾年最引人矚目的新方向是什麼?

通過對比 reinforcement learning 和 adversarial attack 的熱度和論文發表數量,可以發現與強化學習這類已經成為熱門的方向相同,對抗攻擊也開始有論文、熱度急劇上升的階段, 但是與之不同的是,對抗攻擊論文的絕對數量至今仍很少。

這說明了對抗攻擊的可研究的東西還處於正在被研究者們逐漸挖掘的過程,還未形成一個體系。所以從這一點,直觀上來說, 我認為最近的科技新詞應當是 adversarial attack。

2.原理

對抗攻擊的開山之作 Intriguing properties of neural networks[12]中提到了神經網路的兩個現象。

第一個是高維神經網路神經元並不是代表著某一個特徵,而是所有特徵混雜在所有神經元中;第二個是在原樣本點上加上一些針對性的但是不易察覺的擾動,就很容易導致神經網路的分類錯誤。

第二個性質就是對抗攻擊的理論基礎,後來Goodfellow 在 Explaining and Harnessing Adversarial Examples[13]中提出原因並非是深層神經網路的高度非線性和過擬合,即使是線性模型也存在對抗樣本。在這篇論文中,我們可以粗淺地認為對抗攻擊之所以能夠成功的原因是誤差放大效應:

假設我們給輸入樣本加入擾動,則對抗樣本即為:?̃= ? + ?,其中?足夠小(|?|∞ ≤ ?),

我們考慮權重向量ω和對抗樣本?̃的內積:

? ? ?̃ = ? ? ? + ? ? ?

雖然微小擾動?通過神經網路權重的內積導致擾動放大,若權重維度為 n 均值為 m,則顯然???的最大值為εmn,此時? = ?????(?)。因此在高維空間中,即使是很小的擾動,也會對最終的輸出值產生很大的影響。

3.發展過程

在調研該領域的論文的過程中,我發現,作為machine learning security 的方向,對抗攻擊的發展可以歸結為兩個核心:

不斷尋找新的應用場景

不斷利用新的演算法

AI領域未來幾年最引人矚目的新方向是什麼?

3.1 不斷尋找新的應用場景

每當 machine learning有新的領域出現,研究者都會試圖在該領域上進行對抗攻擊的研究,來研究出攻擊這種領域的方法和防禦的方法。以下是我找到的一些典型領域的對抗攻擊研究成果:

AI領域未來幾年最引人矚目的新方向是什麼?

3.1.1 Computer vision

  • Attacks for classification

圖片分類是計算機視覺最經典的任務,因此在這個應用場景的對抗攻擊論文最多,比如:Jacobian-based Saliency Map Attack (JSMA)[1],One Pixel Attack[2],DeepFool[3]等。

這些論文的思想都是相同的:都是通過將影像的畫素點按順序或是隨機一個一個改變,然後通過隱藏層的梯度來計算該點的改變對整張圖片的攻擊顯著性並且根據梯度來選擇下一個要改變的點,通過這樣的訓練最終可以找到最優的攻擊畫素。

其中,我認為 One Pixel Attack[2]的工作效果最顯著,這篇論文僅改變一個畫素就能完成對整張圖片的攻擊。我認為最有新意的一點是,作者運用了差分進化演算法的思想,通過每一代不斷變異然後“優勝劣汰”,最後可以找到足以攻擊整張圖片的一個畫素點和其 RGB值的修改值,這種方法的優點是屬於黑盒攻擊,不需要知道網路引數等任何資訊。效果如下,我認為很顯著:

AI領域未來幾年最引人矚目的新方向是什麼?

  • Attacks on Semantic Segmentation and Object Detection

語義分割任務的對抗攻擊要比分類任務要難很多,語義分割對抗樣本生成[4]利用了Dense Adversary Generation 的方法,通過一組pixels/proposal 來優化生成對抗樣本損失函式,然後用所生成的對抗樣本來攻擊基於深度學習的分割和檢測網路。

這篇論文的亮點我認為在於將對抗攻擊的概念轉換為對抗樣本生成的概念,將一個攻擊任務轉換為生成任務,這就給我們提供了一種新的攻擊思路:將這個任務轉換為如何選取損失函式、如何搭建生成模型使得生成的對抗樣本在攻擊圖片時有更好的效果。這種概念的轉換使得對抗攻擊不再拘束於傳統的基於 FGSM 演算法,也將更多的生成模型引入進來,比如GAN。

我認為在計算機視覺的對抗攻擊的侷限在於,由於計算機視覺的子領域非常多,所以有一些領域還沒有人去嘗試過,而且由於深度學習的不可解釋性,現階段只能也通過深度學習去生成對抗樣本去破壞目標的學習,這樣的攻擊是沒有方向性的,比如無法控制分類任務的欺騙方向,我認為下一步的發展應在於如何去定向欺騙深度學習網路,來達到一些更高要求的目的。

3.1.2. Graph

在今年的 ICML 和 KDD 的論文中,有兩篇關於對圖結構的對抗攻擊的論文,一篇是Adversarial Attack on Graph Structured Data[5],另一篇是 Adversarial attacks on neuralnetworks for graph data[6]。這兩篇論文都是對 graph 的攻擊,這是以前從未有人做過的任務,是一種新的應用場景,因此前文我說對抗攻擊發展還十分稚嫩,還在不斷尋找新的應用場景。

由於 graph 結構資料可以建模現實生活中的很多問題,現在也有很多研究者在研究這種問題,比如知識圖譜等領域。

知識圖譜來舉例,現在百度、阿里巴巴等公司都在搭建知識圖譜,如果我能攻擊知識圖譜,在圖上生成一些欺騙性的結點,比如虛假交易等行為,這會對整個公司帶來很大損失,所以對圖結構的攻擊和防禦都很有研究價值。

這兩篇論文的出發點都是深度學習模型在圖分類問題中的不穩定性。

第一篇論文定義了基於圖模型的攻擊:在保持圖分類結果不變的情況下,通過小規模的增加和減少邊的方式, 最大化分類結果的錯誤率。基於此,論文提出了基於分層強化學習的方法來建立對抗樣本。 

第二篇論文的思想是對於要攻擊的目標節點,產生一個干擾圖,使得新圖上的目標節點的分類概率和老圖上目標節點的分類概率的差距最大,作者提出了Nettack的攻擊模型。

我認為現階段對圖結構的對抗攻擊的侷限在於以下兩點:

  1. 沒有有效的防禦演算法。兩篇論文都在講如何去攻擊圖分類問題,但是對於防禦問題, 第一篇論文只簡單討論了一下,比如隨機 dropout,但是展示的結果很不理想,而第二篇論文根本沒有討論防禦問題。因此對圖結構的防禦問題是接下來的一個可發展的方向。

  2. 現階段圖深度學習發展還不完善,沒有形成一個像圖片卷積神經網路那樣的完整體系,GCN、隨機遊走等演算法都各有利弊,所以在整個體系完成之前,對抗攻擊的發展方向不是很明朗。我個人覺得隨著可微池化[7]的概念的提出,GCN 應該是以後圖深度學習的發展方向,所以對GCN的攻擊或許很有潛力。

3.1.3 其他領域的對抗攻擊

近期也有一些其他領域的對抗攻擊。

首先,Adversarial Examples for Evaluating Reading Comprehension Systems[8]這篇論文對QA系統進行對抗攻擊,通過向問題中中加入不影響人類理解並且不影響正確答案的句子來欺騙問答系統,來獲得錯誤的答案。論文中給出的結果很顯著,使原先75%的 F1 score 下降至 36%,如果允許不符合語法規則的話可以下降至 7%。

其次,對於強化學習的對抗攻擊。Lin等[9]提出了兩種不同的針對深度強化學習訓練的代理的對抗性攻擊。在第一種攻擊中,被稱為策略定時攻擊,對手通過在一段中的一小部分時間步驟中攻擊它來最小化對代理的獎勵值。提出了一種方法來確定什麼時候應該製作和應用對抗樣本,從而使攻擊不被發現。在第二種攻擊中,被稱為迷人攻擊,對手通過整合生成模型規劃演算法將代理引誘到指定的目標狀態。生成模型用於預測代理的未來狀態,而規劃演算法生成用於引誘它的操作。這些攻擊成功地測試了由最先進的深度強化學習演算法訓練的代理。

還有一些對於 RNN, Speech Recognition 等領域的攻擊[10][11],這些領域的對抗攻擊基本上只有一兩篇。

綜上所述,對於對抗攻擊的應用場景,現階段所發掘的只不過是冰山一角,在這個領域, 還有很多很多應用場景可以進行研究。因此,僅從應用場景而言,對抗攻擊絕對是最近幾年最具潛力的方向。

3.2 演算法

對抗攻擊的本質是用機器學習的方法去攻擊機器學習模型,來檢測模型的魯棒性。由於它的攻擊目標和自身所用的方法都是機器學習,所以當機器學習領域出現了更好的演算法時,對於對抗攻擊而言,這既是新的應用場景,又是自身可用的新演算法。

在 Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey[14]這篇論文中總結了12種攻擊方法,如下圖所示:

AI領域未來幾年最引人矚目的新方向是什麼?

經過我的調研,在論文 Adversarial Examples for Semantic Segmentation and Object Detection[4]的啟發下,我認為,既然對抗攻擊是對抗樣本的生成任務,而生成任務又是現在發展非常迅速的一個領域,我們可以把一些生成模型遷移到這個任務上來。

比如,現在非常熱門的對抗生成網路 GAN 是生成任務最有效的模型之一,我認為可以借用這種對抗的思想生成對抗樣本:一個專門向原資料中加噪聲的網路和一個試圖根據對抗樣本完成分類任務的網路,兩個網路就像 GAN 裡面的生成器和鑑別器一樣對抗學習,最後會收斂於加噪聲的網路生成的對抗樣本足以迷惑分類網路,這樣生成的對抗樣本或許會比前文所述的方法效果更好。

由於生成任務還在不斷髮展,VAE、GAN 等模型或許都可以用於對抗攻擊,近期新出現的 CoT[15](合作訓練)為離散資料的生成任務也提供了一種新的思路,Glow[16]提出了基於流的可逆生成模型,據說效果會超過GAN......這些生成模型不斷在發展,可供對抗樣本生成借鑑的思路也越來越多,所以,我認為在演算法上對抗攻擊還有無限的潛力。

4. 總結

經過對對抗攻擊的調研,首先,我發現這一領域的論文數很少,而且受大眾的關注度不是很高,但是對抗攻擊已經有趨勢要迎來蓬勃發展的時期了。

其次,對抗攻擊還處於尋找新的應用場景和不斷嘗試新的演算法的階段,還不成熟,未形 成完整的體系,而且和攻擊與生俱來的還有防禦問題,現階段防禦問題基本還處於把對抗樣本加入原始資料一起訓練以此來防禦攻擊的狀態,研究的人很少,也沒有十分顯著的效果。 這說明在這個領域還有很大的可挖掘的空間。

機器學習發展飛速的今天,安全性問題正逐漸進入人們的的視野,對抗攻擊不只能夠 在網路空間進行攻擊,還能夠在物理世界中任何使用到機器學習的場景中進行有效攻擊,比如針對人臉識別語音識別的攻擊。為了機器學習更好的發展,研究對抗攻擊是有必要的。 因此我認為最近的科技新詞是adversarial attack

5. 引用

[1] N. Papernot, P. McDaniel, S. Jha, M. Fredrikson, Z. B. Celik, A.Swami, The Limitations of Deep Learning in Adversarial Settings, In Proceedings of IEEE European Symposium on Security and Privacy, 2016.
[2] J. Su, D. V. Vargas, S. Kouichi, One pixel attack for fooling deep neural networks, arXiv preprint arXiv:1710.08864, 2017.

[3] S. Moosavi-Dezfooli, A. Fawzi, P. Frossard, DeepFool: a simple and accurate method to fool deep neural networks, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2574-2582, 2016.

[4] C. Xie, J. Wang, Z. Zhang, Y. Zhou, L. Xie, and A. Yuille, Adversarial Examples for Semantic Segmentation and Object Detection, arXiv preprint arXiv:1703.08603, 2017.

[5] Dai, Hanjun, Hui Li, Tian Tian, Xin Huang, Lin Wang, Jun Zhu, and Le Song. "Adversarial Attack on Graph Structured Data." In International Conference on Machine Learning (ICML), vol. 2018. 2018.
[6] Zügner, Daniel, Amir Akbarnejad, and Stephan Günnemann. "Adversarial attacks on neural networks for graph data." In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 2847-2856. ACM, 2018.

[7] Ying R, You J, Morris C, et al. Hierarchical graph representation learning with differentiable pooling[J]. CoRR, 2018

[8] Jia R, Liang P. Adversarial examples for evaluating reading comprehension systems[J]. arXiv preprint arXiv:1707.07328, 2017.

[9] Y. Lin, Z. Hong, Y. Liao, M. Shih, M. Liu, and M. Sun, Tactics of Adversarial Attack on Deep Reinforcement Learning Agents, arXiv preprint arXiv:1703.06748, 2017.

[10] Papernot N, McDaniel P, Swami A, et al. Crafting adversarial input sequences for recurrent neural networks[C]//Military Communications Conference, MILCOM 2016-2016 IEEE. IEEE, 2016:49-54

[11] Carlini N, Wagner D. Audio adversarial examples: Targeted attacks on speech-to-text[J]. arXiv preprint arXiv:1801.01944, 2018.

[12] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, R. Fergus, Intriguing properties of neural networks, arXiv preprint arXiv:1312.6199, 2014.

[13] I. J. Goodfellow, J. Shlens, C. Szegedy, Explaining and Harnessing Adversarial Examples, arXiv preprint arXiv:1412.6572, 2015.

[14] Akhtar N, Mian A. Threat of adversarial attacks on deep learning in computer vision: A survey[J]. arXiv preprint arXiv:1801.00553, 2018

[15] Lu S, Yu L, Zhang W, et al. CoT: Cooperative Training for Generative Modeling[J]. arXiv preprint arXiv:1804.03782, 2018.

[16] Kingma D P, Dhariwal P. Glow: Generative flow with invertible 1x1 convolutions[J]. arXiv preprint arXiv:1807.03039, 2018.

相關文章