As a reader --> AdvDiffuser: Natural Adversarial Example Synthesis with Diffusion Models

阿洛萌萌哒發表於2024-04-23
  • 📌論文分類4:
    AdvDiffuser is open source and available at https://github.com/lafeat/advdiffuser
    https://github.com/ChicForX/advdiff_impl
    • 論文名稱 AdvDiffuser: Natural Adversarial Example Synthesis with Diffusion Models
    • 作者 Chen X, Gao X, Zhao J, et al.
    • 期刊名稱 Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 4562-4572.
    • 簡要摘要
      過去的對抗樣本研究工作通常涉及固定範數擾動預算,無法捕捉人類感知擾動的方式。最近的研究轉向了自然無限制對抗例子(unrestricted adversarial examples, UAEs),它打破了lp擾動界限,但仍然在語義上是合理的。目前的方法使用GAN或VAE透過擾動潛在編碼來生成UAEs。然而,這會導致高階資訊的丟失,從而導致低質量和不自然的UAEs。鑑於此,本文提出了一種利用擴散模型合成自然UAEs的新方法AdvDiffuser。它可以從頭開始或有條件地基於參考影像生成UAEs。
      ​為了生成自然的UAEs,對預測影像進行擾動,將其潛在編碼引導到特定分類器的對抗樣本空間。本文還提出了基於類啟用對映的對抗性繪製,以保留影像的突出區域,同時干擾不太重要的區域。在CIFAR-10, CelebA和ImageNet上,證明了它可以以接近100%的成功率擊敗RobustBench排行榜上最強大的模型。此外,與目前最先進的攻擊相比,合成的UAEs不僅更自然,而且更強大。具體來說,與GA攻擊相比,使用AdvDiffuser生成的UAEs表現出小6倍的LPIPS擾動,小2~3倍的FID分數和高出0.28的SSIM指標,使它們在感知上更隱蔽。最後,使用AdvDiffuser進行對抗性訓練,進一步提高了模型對不可見威脅模型攻擊的魯棒性。
    • 關鍵詞 UAE DM
    • ✏️論文內容
      • 【內容1】
        • 💡Introduction & Preliminaries & Related Work
        • 基於梯度的無限制對抗性攻擊在預定義的擾動範圍內擾動原始影像。Geometry-aware attacks幾何感知攻擊[20]使用代理模型最小化所需的lp預算,並在無限制對抗性攻擊的CVPR競賽中獲得第一名[4]。另一方面,perceptual attacks感知攻擊[19,51]使用感知距離的界限來最佳化擾動,如LPIPS[49]和結構相似性[42]。其他方法則考慮影像的重新著色[36,37]。然而,選擇代理模型和距離度量需要主觀先驗知識,來生成看起來現實的對抗性樣本。
        • 生成對抗網路(GANs)等生成模型具有從資料分佈中有效學習和取樣的能力[38,50],這就是為什麼要使用它們來生成對抗性樣本的原因。這些方法搜尋潛在空間中的擾動,這些擾動可能導致目標模型在解碼後對影像進行錯誤分類,以便找到對抗性樣本。然而,干擾潛在編碼會改變生成影像的高階語義,這在人類感知上是顯著的[17]。這種擾動會在某些影像屬性中引入模糊性,並明顯扭曲原始概念,從而經常導致生成語義模糊且質量差的UAEs。這些UAEs在感知上可能與原始樣本非常不同。
        • 為了解決這些問題,本文提出了AdvDiffuser,一種基於擴散模型的新型生成式無限制對抗性攻擊[13]。擴散模型的靈感來自於非平衡熱力學,它定義了一個對影像加噪進行擴散步驟的馬爾可夫過程,然後學習反向擴散過程,從有噪聲的影像中生成資料樣本。這使得經過訓練的擴散模型能夠以高保真度和多樣性對資料分佈進行取樣。
        • 具體地,利用並修改了預訓練擴散模型的反向去噪過程,並注入了能夠成功攻擊防禦模型的小的對抗性擾動。擴散模型是用去噪目標訓練的,因此,它們可以有效地去除明顯的對抗性噪聲,同時保留攻擊能力,產生自然的UAEs。為了獲得更逼真的結果,本文引入了對抗性修復,它利用了基於梯度的類啟用對映(GradCAM)的掩碼[35]。它根據物體的顯著性調整每個畫素的去噪強度,確保包含重要物體的區域經歷較小的修改。由於AdvDiffuser在畫素級擾動影像,與基於GAN的方法產生的擾動相比,它產生的感知擾動要小得多。因此,與基於梯度或GAN的方法合成的UAEs相比,本文方法產生的最終UAEs更自然,更難以察覺。除了影像條件攻擊之外,AdvDiffuser提供了另一個優於其他無限制對抗性攻擊的優勢,因為它能夠生成無限數量的合成但自然的對抗性示例。這可以潛在地為未來的防禦技術提供更全面的健壯性訓練和評估。
        • contribution
          • 第一個用擴散模型研究自然對抗樣本合成的工作。除了它的影像條件攻擊能力,它也是第一個可以生成無限數量的合成但自然的對抗樣本的。
          • 提出對抗性影像處理,以引入基於CAM的樣本條件,在保留參考影像語義的同時產生多樣化和高質量的輸出。
          • AdvDiffuser可以成功地欺騙RobustBench[6]中排名靠前的魯棒模型,成功率很高(接近100%)。生成的樣本與原始分佈非常相似。與目前最先進的無限制對抗性攻擊相比,本文的擾動更有效,更不易察覺,具有更好的LPIPS, FID和SSIM距離指標。
        • Unrestricted Adversarial Examples
          • 由於lp-範數距離不足以準確捕捉人類如何感知擾動,近年來人們對無限制對抗示例(UAEs)的興趣激增。UAEs是滿足如下條件的分佈的影像:人類可以正確分類,但被分類器錯誤分類。
            第一類方法利用規定的影像變換,看起來很自然地搜尋UAEs。Xiao等[44]使用空間扭曲變換生成對抗性示例。Ali等[37]透過切換到LAB色彩空間,在保持亮度分量不變的情況下,對AB通道進行了對抗性樣本的最佳化,改變了不同區域的擾動範圍。
            許多論文已經提出了訓練生成模型來生成對抗性攻擊的想法[1,43,15]。然而,這種方法通常受到攻擊成功率有限的影響。[46,38,15,50]中提出了一種替代方法,該方法利用在自然影像上預訓練的生成模型,透過干擾潛在表示來產生對抗性樣本。這種技術可能會產生視覺質量較低的UAEs,它可能不會較好地匹配原始資料分佈。
            基於梯度的非受限攻擊[19,20]使用傳統的lp範數以外的距離度量搜尋UAEs。這種方法導致了更強的對抗性擾動,但難以被人類感知。Laidlaw等[19]使用LPIPS[49]執行投影梯度下降(PGD) [23], LPIPS採用深度特徵作為感知度量。幾何感知攻擊[20]進一步使用驗證模型來尋找lp攻擊的最小攝動界限。然而,選擇代理模型和距離度量需要主觀先驗知識來生成看起來現實的對抗性示例。
        • Diffusion Models
          • Ho等人[13]首次證明擴散模型可以生成比GAN質量和多樣性更高的影像。
            在此基礎上,改進的DDPM[24]學習方差排程,提高樣本質量和取樣效率。Dhariwal等[7]用分類器引導進一步增強,生成類條件樣本。這種方法利用分類器的softmax交叉熵損失梯度來指導影像合成。受此啟發,Liu等[21]將其擴充套件到基於影像和文字的引導,Choi等[5]使用參考影像作為引導,進一步實現了影像翻譯、編輯和繪圖應用。Ho等人[14]提出訓練條件擴散模型,消除了使用分類器的需要。
            擴散模型在各個領域都有許多應用。例如,Dall-E[28]和stable diffusion[30]透過使用者指定的文字提示,生成專業的藝術繪畫。DiffPure[25]使用擴散模型來淨化對抗性樣本,使下游視覺模型更加魯棒。此外,還有許多將擴散模型應用於自然語言處理、訊號處理和時間序列資料建模的技術。
      • 【內容2】
        • 💡Method
        • 圖1提供了AdvDiffuser演算法的高階概述。

          • 該演算法首先計算被攻擊影像的Grad-CAM[35],利用防禦模型和ground-truth標籤形成顯著目標的掩碼。然後,迭代使用預訓練的擴散模型,對潛在影像x_(t-1)進行去噪。
          • 隨後,對影像進行l2-bounded PGD攻擊。在此之後,AdvDiffuser使用預先計算的掩碼在產生的攻擊影像和帶噪的原始影像之間進行插值。透過重複t步去噪過程,它形成了一個新增對抗性擾動的過程,同時從注入的噪聲中去除非自然成分。因此,本方法可以生成語義上接近原始的對抗性樣本,但包含具有更多細節多樣性的基於形狀的對抗性擾動。
        • Adversarial Guidance
          • 引入對抗性引導,使用擴散模型生成自然對抗性樣本。這涉及到迭代解決以下最佳化問題:

          • 在每一步中,該過程首先去噪先前擾動的潛在變數x_(t-1),然後引入欺騙防禦分類器f的對抗性擾動。因此,它形成一個鞍點解,試圖用擴散模型最小化負對數似然,同時增加防禦分類器f的對抗性損失,其中y = argmax f(x)是預測標籤。
          • 為了最佳化(5),採用投影梯度下降(PGD)[23]攻擊,透過迭代i ∈ [0: I-1],找到參考影像z_0的近似解z_I:

          • P表示z在l2-distance 的ε-ball中的投影。進一步,使用標準化的softmax交叉熵(SCE)損失[47]作為最大目標函式L,而不是傳統的SCE損失,因為它被證明比替代的損失更有效地產生成功的攻擊。令z_I = PGD(z_0, f, , I)來求解上述過程,其中z_0 = x_(t-1), x_t = z_I , ε = ε_t,分別求解(6)
          • 最終,令ε_t = σβ_t,σ∈[0, 1 ]調整對抗性引導的強度。這意味著(6)注入的對抗性擾動總是小於擴散模型使用的噪聲尺度,並且減小w.r.t.方差表以保證合成樣本的自然性。
        • Adversarial Inpainting
          • 對抗性修復:允許基於參考影像建立自然的對抗性樣本。該過程確保生成的影像與參考影像非常相似,同時還處理背景紋理、形狀或物件等方面,這些方面可能被防禦分類器視為包含不相關的特徵。目標是生成能夠成功欺騙防禦分類器的影像,同時最好保留原始影像中的顯著目標。
          • 該過程首先使用梯度加權類啟用對映(gradient - weighted class activation mapping, Grad-CAM)識別ground-truth標籤y的參考影像x0中的顯著區域[35]。Grad-CAM基於防禦分類器f,幫助定位y對應物件的類特定區域,然後將定位進一步歸一化為[0,1],成為顯著物件的掩碼:

          • 受inpainting技術的啟發[22],在每個去噪步驟t中,有評估如下:

          • x_(t-1)可以在xt上使用(4)進行取樣。
        • The AdvDiffuser Algorithm
          • 演算法1中提供了AdvDiffuser的完整演算法概述。

          • 該演算法接受一個擴散模型ε_θ、一個受攻擊的分類器f、一個可選的參考影像x、一個ground-truth標籤y、一個對抗導引標度σ、一個對抗迭代I和一個噪聲表β_(1:T)作為輸入。如果指定了參考影像,則計算顯著目標掩碼m。對於每個擴散步驟t,演算法使用條件擴散器對目標y迭代去噪潛在變數x_t。之後,它注入一個小的對抗性擾動,並使用PGD攻擊構造z_I。然後,它透過使用掩碼m在帶噪影像xobj_(t-1)和z_I之間的插值來保留顯著目標。最終,在完成所有步驟後,它產生自然的對抗示例x_0。
      • 【內容2】
        • 💡Experimental Results
          在引入擾動的隱蔽性和合成樣本的真實性方面,對現有的sota進行了比較。最後,對其功能元件和超引數進行了消融實驗和敏感性分析。
          • 實驗設定:資料集 --> ImageNet、CIFAR-10、CeleBA 模型 --> 預訓練條件DDPM模型 白盒環境
          • 比較方法
            • 首先比較AdvDiffuser和AC-GAN[38]各自從零開始生成對抗性示例的能力。
            • 使用了與[38]中對抗性訓練相同的魯棒性分類器。它具有97.3%的自然準確率,在l∞ = 8/255的PGD攻擊下精度為76.5%的魯棒性。如表1所示,AdvDiffuser在成功率、FID評分[12]和樣本生成速度方面都優於AC-GAN。

            • 圖2顯示了隨機抽樣的帶有各自方法的UAEs。對比進一步表明,AdvDiffuser可以生成具有內聚性的人臉影像,而AC-GAN可能無法生成具有真實人臉特徵的影像。

            • 進一步提供了為ImageNet模型從頭合成對抗性樣本的示例,如圖3所示。

            • CIFAR-10:如圖4所示,本文攻擊方法可以生成與原始影像相似但具有不同特徵的對抗樣本。表2提供了各自模型上的攻擊成功率。附錄D中進一步比較了DiffPure下的攻擊方法,DiffPure是一種利用擴散模型來淨化對抗性擾動的防禦機制。

            • ImageNet:GA攻擊變體通常對防禦有效。然而,如圖5所示,它們在一定程度上改變了影像的整體顏色,造成了顯著的顏色偏移。另一方面,GA-PGD產生的擾動在低資訊區域(例如背景天空)很容易被注意到。相比之下,本文的UAEs更加現實。AdvDiffuser不僅比兩種GA變體具有更高的成功率,而且更難以識別,具有更高的SSIM,更低的LPIPS和FID評分,如表3所示。

            • 圖6描述了FID、平均l∞、LPIPS和SSIM距離指標w.r.t.攻擊成功率,因為我們改變了每次攻擊的強度。該圖顯示,AdvDiffuser的表現一直優於競爭對手,因為除了l∞距離指標外,它對所有指標都產生了微小的變化。排除l∞距離,因為這不是本文最佳化的目標,圖5顯示l∞有界攻擊產生明顯的偽影。此外,它與所考慮的感知指標無關。

            • 在圖7中放大並顯示了由各自攻擊所增加的擾動。研究結果表明,擾動與“形狀特定”的變化是一致的,與自然影像分佈一致。還證明,即使在明顯的擾動下,本文的UAEs也可以保持影像的原始語義內容。這一觀察結果驗證了將反向去噪過程和對抗引導結合起來產生的擾動更接近於乾淨影像分佈的觀點。相反,觀察到GA-PGD產生的UAEs具有高頻噪聲,具有可見的“紋理”偏差,因此可能看起來不太自然。

          • Robustness against Unseen Threat Models
            • Rebuffi等人[29]證明擴散模型作為一種資料增強技術可以改善對抗性訓練。受他們發現的啟發,本文探索了AdvDiffuser動態生成對抗性樣本的潛力,用於模型執行對抗性訓練。然而,與現有的考慮lp魯棒性的對抗訓練技術不同,本文沒有使用對威脅模型的明確假設來訓練模型。本文試圖使用各種威脅模型來評估不同方法的有效性。這包括常規的l1和l2攻擊,JPEG損壞[16]、ReColorAdv[18]、拉格朗日感知攻擊(LPA)[19]和空間變換對抗性攻擊(StAdv)[44]。在表4中對CIFAR-10進行了一系列實驗。請注意,使用傳統的l2邊界訓練的模型對於不可見的威脅模型的攻擊並不健壯。與之形成鮮明對比的是,本文所有的防禦都獲得了針對所有威脅模型的一定程度的魯棒性。

    • Conclusion
      • 利用擴散模型,本文引入了一種新的技術,AdvDiffuser,用於合成無限數量的自然對抗樣本。在去噪過程中,透過對抗性引導來控制潛在變數,從而實現對噪聲的抑制,使擴散模型生成自然而強大的對抗樣本。
      • 實驗結果表明,現有的魯棒模型無法抵禦這些攻擊。此外,本文的UAES優於之前的工作,更自然,更不易被發現。樣本表現出更小的感知距離,但成功率更高。與lp對抗訓練相比,使用AdvDiffuser進行對抗訓練表明,模型可以獲得對訓練過程中未見的威脅模型的魯棒性。
    • 附錄
      • 附錄A提供了詳細的實驗配置。
      • 附錄B透過靈敏度和消融分析,檢查了AdvDiffuser中引入的超引數和元件。
      • 附錄D給出了DiffPure[25]防禦的結果,它使用擴散模型從影像中去除對抗性擾動。
      • 附錄E中為ImageNet提供了額外的UAEs。

相關文章