編者按:深度模型的精度和速度長期以來成為了評價模型效能的核心標準,但即使效能優越的深度神經網路也很容易被對抗樣本攻擊。因此,尋找到合適的對抗攻擊策略可有效提升模型本身的魯棒性。本文作者提出了基於動量的迭代演算法來構造對抗擾動,有效地減輕了白盒攻擊成功率和遷移效能之間的耦合,並能夠同時成功攻擊白盒和黑盒模型。
一、研究動機
深度神經網路雖然在語音識別、影象分類、物體檢測等諸多領域取得了顯著效果,但是卻很容易受到對抗樣本的攻擊。對抗樣本是指向原始樣本中新增微小的噪聲,使得深度學習模型錯誤分類,但是對於人類觀察者來說,卻很難發現對抗樣本和正常樣本之間的區別。
生成對抗樣本的場景主要分為兩種:白盒攻擊和黑盒攻擊。對於白盒攻擊,攻擊者知道目標網路的結構和引數,可以利用基於梯度的方法構造對抗樣本。由於所構造的對抗樣本具有一定的遷移效能(即對於一個模型構造的對抗樣本也可以欺騙另一個模型),所以其可以被用來攻擊未知結構和引數的黑盒模型,即黑盒攻擊。
然而,在實際的應用過程中,攻擊一個黑盒模型十分困難,尤其對於具有一定防禦措施的模型更加難以黑盒攻擊成功。造成此現象的根本原因在於現有攻擊方法的白盒攻擊成功率和遷移效能之間的耦合與限制,使得沒有能夠同時達到很好的白盒攻擊成功率和遷移效能的方法。
具體地,對於一步迭代的快速梯度符號演算法(FGSM),雖然這種方法構造的對抗樣本的遷移效能很好,其攻擊白盒模型的成功率受到了很大的限制,不能有效地攻擊黑盒模型;另一方面,對於多步迭代的方法(I-FGSM),雖然可以很好地攻擊白盒模型,但是所構造對抗樣本的遷移效能很差,也不能有效地攻擊黑盒模型。所以我們提出了一類新的攻擊方法,可以有效地減輕白盒攻擊成功率和轉移效能之間的耦合,同時成功攻擊白盒和黑盒模型。
二、研究方案
2.1 問題定義
生成對抗噪聲本質上可以歸結為一個優化問題。對於單個模型f(x),攻擊者希望生成滿足L_∞限制的無目標對抗樣本,即生成對抗樣本x^*,使得f(x^*)≠y且‖x^*-x‖_∞≤ϵ,其中y為真實樣本x所對應的真實類別、ϵ為所允許的噪聲規模。所對應的優化目標為其中J為模型的損失函式,通常定義為交叉資訊熵損失。
2.2 相關工作
為了求解此優化問題,Goodfellow等人首先提出了快速梯度符號法(FGSM),僅通過一次梯度迭代即可以生成對抗樣本:
此方法白盒攻擊成功率較低。為了提升成功率,迭代式攻擊方法(I-FGSM)通過多步更新,可以更好地生成對抗樣本,即
此方法雖然白盒攻擊成功率較高,但是遷移能力較差,也不利用攻擊其它的黑盒模型。
2.3 動量攻擊演算法
我們提出在基礎的迭代式攻擊方法上加入動量項,避免在迭代過程中可能出現的更新震盪和落入較差的區域性極值,得到能夠成功欺騙目標網路的對抗樣本。由於迭代方法在迭代過程中的每一步計算當前的梯度,並貪戀地將梯度結果加到對抗樣本上,使得所生成的對抗樣本僅能欺騙直接攻擊的白盒模型,而不能欺騙未知的黑盒模型,在實際的應用中受到了很大的限制。
在一般優化演算法中,動量項可以加速收斂、避免較差的區域性極值、同時使得更新方向更加平穩。受到一般優化演算法中動量項的啟發,在生成對抗樣本的迭代方法中加入動量項,可以使得生成的對抗樣本不僅能有效欺騙白盒模型,也能欺騙未知的黑盒模型,達到更好的攻擊效果。
基於動量的迭代式快速梯度符號演算法(MI-FGSM)可以用來解決上述問題,演算法為:
假設以上迭代過程共迭代T輪,為了滿足限制‖x^*-x‖_∞≤ϵ,定義每一步的步長α=ϵ/T。μ為動量值g的衰減係數。通過以上迭代過程對一個真實樣本x逐步新增噪聲,可以得到能夠欺騙模型f(x)的對抗樣本x^*,同時x^*也能轉移到其他未知模型上,導致多個模型發生分類錯誤。此方法可以被擴充套件到有目標攻擊和基於L_2度量下的攻擊。
2.4 攻擊多個模型
為了進一步提升黑盒攻擊的成功率,我們可以同時攻擊多個白盒模型,以提升對抗樣本的遷移效能。對於K個不同的模型,目標是使得構造的對抗樣本同時攻擊成功所有K個模型。為了達到上述目標,首先將K個模型的未歸一化概率值進行加權平均,即
其中l_k (x)為第個模型的未歸一化概率值(即網路最後一層softmax的輸入);w_k為第k個模型的權重,滿足w_k≥0且∑_(k=1)^K▒w_k =11。由此得到了一個整合模型,定義此模型的損失函式為softmax交叉資訊熵損失:
由此可以利用之前所述的基於動量的生成對抗樣本的方法對此整合模型進行攻擊。
三、演算法流程圖
演算法流程圖如圖2所示。輸入一張原始的圖片,其可以被圖片分類模型正確分類。通過所提出的基於動量的迭代演算法構造對抗擾動並新增到原始樣本上,得到了對抗圖片,會被圖片分類模型所錯分。
四、實驗結果
4.1 資料集
為了測試所提方法的有效性,針對圖片分類任務進行對抗樣本生成。首先選取7個模型作為研究物件,它們分別為Inception V3 (Inc-v3)、Inception V4 (Inc-v4)、Inception Resnet V2 (IncRes-v2)、Resnet v2-152 (Res-152)、Inc-v3ens3、Inc-v3ens4和IncRes-v2ens。這些模型均在大規模影象資料集ImageNet上訓練得到,其中後三個模型為整合對抗訓練得到的模型,具備一定的防禦能力。本實施選取ImageNet驗證集中1000張圖片作為研究物件,衡量不同攻擊方法的成功率,進而說明其攻擊效能。
4.2 評測指標
這裡我們選取攻擊成功率作為評測指標,定義為原本可以被分類正確的圖片中,新增了對抗噪聲後被預測為錯誤標籤的圖片佔的比率。
4.3 實驗結果
基於所提方法,我們攻擊了Inc-v3、Inc-v4、IncRes-v2和Res-152四個模型,並利用所產生的對抗樣本輸入所有的7個模型中,測試攻擊的效果。為了比較所提出方法的效果,我們還選取了FGSM,I-FGSM兩個方法作為基準方法進行比較。實驗結果如表1所示:
五、結論與展望
本篇論文證明了深度學習模型在黑盒場景下的脆弱性,也證明了基於動量的攻擊演算法的有效性。實驗中可以看出,所提出的方法對於具有防禦機制的模型的攻擊效果較差。我們在後續工作中還提出了平移不變的攻擊演算法(“Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks”, CVPR 2019, Oral),可以將防禦模型的攻擊效果進一步提升。
程式碼:
https://github.com/dongyp13/Non-Targeted-Adversarial-Attacks
論文:
Boosting Adversarial Attacks with Momentum.
https://arxiv.org/pdf/1710.06081.pdf
作者簡介:
董胤蓬,清華大學計算機系人工智慧研究院二年級博士生,導師為朱軍教授。主要研究方向為機器學習與計算機視覺,聚焦深度學習魯棒性的研究,先後發表CVPR、NIPS、IJCV等頂級國際會議及期刊論文十餘篇,並作為Team Leader在Google舉辦的NIPS 2017人工智慧對抗性攻防大賽中獲得全部三個比賽專案的冠軍。曾獲得CCF優秀大學生,國家獎學金,清華大學未來學者獎學金、CCF-CV學術新銳獎等。