As a reader --> Diffusion Models for Imperceptible and Transferable Adversarial Attack

阿洛萌萌哒發表於2024-04-23
  • 📌論文分類5:
    https://github.com/WindVChen/DiffAttack
    • 論文名稱 Diffusion Models for Imperceptible and Transferable Adversarial Attack
    • 作者 Chen J, Chen H, Chen K, et al.
    • 期刊名稱 arXiv preprint arXiv:2305.08192, 2023.
    • 簡要摘要
      許多現有的對抗性攻擊在影像RGB空間上產生lp範數擾動。儘管在可轉移性和攻擊成功率方面取得了一些成就,但精心製作的對抗性樣本很容易被人眼感知。對於視覺的不可感知性,最近的一些研究探索了不受lp範數約束的無限制攻擊,但缺乏攻擊黑箱模型的可轉移性。這項工作利用擴散模型的生成和判別能力,提出了一種新的難以察覺和可轉移的攻擊。具體來說,不是在畫素空間中直接操作,而是在擴散模型的潛在空間中製造擾動。結合精心設計的內容儲存結構,可以生成嵌入語義線索的人類不敏感的擾動。
      為了更好的可轉移性,本文進一步“欺騙”可以被視為隱式識別代理的擴散模型,透過將其注意力從目標區域轉移開。提出的方法DiffAttack是第一個將擴散模型引入對抗性攻擊領域的方法。在各種模型結構、資料集和防禦方法上進行的大量實驗表明,攻擊優於現有的攻擊方法。
    • 關鍵詞
    • ✏️論文內容
      • 【內容1】
        • 💡Introduction & Related Works
          • 基於lp範數的方法
            採用RGB色彩空間中的lp -範數作為人類感知的指標,並將對抗性擾動的幅度限制在一個特定的值下。儘管付出了努力,但這些基於畫素的攻擊仍然容易被人眼感知,並且Lp-norm最近被發現不適合測量兩幅影像之間的感知距離。這可能會阻礙向其他黑箱模型的可轉移性,並且很容易被淨化防禦方法防禦。
          • 面向難以察覺的攻擊
            無限制的攻擊透過對物體屬性、顏色對映矩陣等空間施加擾動,儘管RGB空間中的lp -範數很大,但對抗性樣本仍然難以被感知。這揭示了無限制攻擊產生的擾動更多地關注於具有高階語義的相對大規模模式,而不是操縱畫素級強度,從而有利於攻擊轉移到其他黑盒模型,甚至防禦的黑盒模型。然而,這些方法的可移植性仍然落後於基於畫素的方法。
          • 本文提出了一種基於擴散模型的新型無限制攻擊。沒有直接操作畫素,而是最佳化了現有的預訓練擴散模型的潛在優勢。除了上面提到的高階擾動的基本可轉移性優勢外,將擴散模型引入對抗性攻擊領域的動機主要來自它的兩個有益特性:
            • ①良好的隱蔽性
              擴散模型最初是為影像合成而設計的,它傾向於生成符合人類感知的自然影像。這種固有的特性很好地符合對抗性攻擊的不可感知性要求。此外,擴散模型內的迭代去噪過程有助於降低可感知的高頻噪聲。
            • ②隱式代理的近似性
              儘管最初是為影像合成而設計的,但在大規模資料集上訓練的擴散模型表現出顯著的判別能力。基於這個特性,能夠將它們近似為基於傳輸的攻擊的隱式代理模型。利用這種“隱式代理”,可以潛在地增強不同模型和防禦方之間的可轉移性。
            • 此外,擴散模型的去噪過程類似於強大的淨化防禦,可以進一步增強攻擊防禦機制的有效性。
          • 為了利用擴散模型的有利屬性,本文工作包括三個關鍵方面:
            • ①建立了一個基本的攻擊框架,該框架首先將乾淨影像轉換為噪聲,然後在潛在空間中引入修改。這與現有的影像編輯技術不同(操縱引導文字以實現內容編輯)。本文直接操作擴散模型的潛力,這可以顯著提高攻擊成功率。
            • ②提出偏離文字和影像畫素之間的交叉注意對映,可以將擴散模型轉換為可以被實際欺騙和攻擊的隱式代理模型。最後,為了避免扭曲初始語義,具體考慮了自注意約束和反轉強度等措施。
            • 將提出的無限制攻擊稱為DiffAttack,貢獻總結如下:
            • 第一個揭示擴散模型具有顯著生成和隱式判別能力,它是建立具有高度不可感知性和可轉移性的對抗性樣本的有希望的基礎。
            • 提出了DiffAttack,這是一種新的不受限制的攻擊,透過精心設計利用了擴散模型的良好特性。透過利用交叉注意圖和自注意圖,攻擊擴散模型的潛在性,使DiffAttack具有隱蔽性和可轉移性。
            • 在各種模型架構、資料集和防禦方法上進行的廣泛實驗,證明了工作優於現有的攻擊方法。
      • 【內容2】
        • 💡Method

        • 基本框架
          • 圖2中展示了DiffAttack的整個框架,採用開源的Stable Diffusion (Rombach et al, 2022),該框架對海量文字影像對進行了預訓練。由於對抗性攻擊的目的是透過干擾初始影像來欺騙目標模型,因此可以近似為一種特殊的真實影像編輯。受到最近擴散編輯方法的啟發(Couairon et al, 2022;Mokady等,2022;Parmar等人,2023),框架利用DDIM反演技術(Song等人,2021),透過反轉確定性取樣過程,將乾淨影像對映回擴散潛空間:

          • Inverse(·)表示DDIM反演操作。為了簡單起見,忽略了穩定擴散的自編碼器階段,對從x0(初始影像)到xt的幾個時間步進行反演。
          • 許多現有的影像編輯方法提出對影像編輯中的文字嵌入進行修改,在文字引導下,影像潛文字在迭代去噪過程中逐漸向目標語義空間偏移。然而,發現在引導文字嵌入上的擾動很難在其他黑盒模型上起作用,導致較弱的可轉移性。因此,與編輯方法不同,在這裡提出直接擾動潛在的xt:

          • 其中J(·)為交叉熵損失,Denoise(·)為擴散去噪過程。對於使用這種簡單的方法可能會產生不自然的結果,最初可能會引起關注。然而,由擾動潛在影像重建的影像與原始的乾淨影像之間的差異幾乎無法區分。此外,差異影像封裝了許多高階語義線索,而不是與基於畫素的攻擊相關的高頻噪聲。將這種現象歸因於擴散模型的去噪過程,它有效地降低了可感知的高頻噪聲。這些語義豐富的擾動不僅可以增強不可感知性,而且有利於攻擊的可轉移性。
        • “欺騙”擴散模型
          • 根據Nie et al(2022)的研究,擴散模型的反向過程是一種強大的對抗性淨化防禦。因此,在解碼為最終影像之前,擾動潛訊號將經歷淨化,從而確保精心製作的對抗示例的自然性以及對其他淨化降噪的魯棒性。
          • 除了利用去噪元件外,還進一步提高了攻擊的可轉移性。給定影像及其對應的標題,,在重建過程中,交叉注意圖顯示了引導文字與影像畫素之間很強的關係,這表明了預訓練擴散模型潛在的識別能力。因此,在大量資料上訓練的擴散模型可以近似為一個隱式識別模型。這裡的動機是,如果精心設計的攻擊可以“欺騙”這個模型,可以期望改進到其他黑盒模型的可轉移性。
          • C作為乾淨影像的標題,將其設定為groundtruth類別的名稱。在所有去噪步驟中累積影像畫素與C之間的交叉注意對映並得到平均值。為了“欺騙”預訓練的擴散模型,建議最小化以下公式:

          • 其中Var(·)計算輸入的方差,Cross(·)表示去噪過程中所有交叉注意圖的累加,SDM為穩定擴散。這種洞察力是為了分散擴散模型對標記物件的注意力。將注意力均勻地分配到每個畫素,可以破壞原始的語義關係,確保精心製作的對抗樣本很好地“欺騙”擴散模型。透過這樣的設計,DiffAttack顯示了隱式整合特性。
        • 保留內容結構
          • 無限制攻擊可以近似為一種影像編輯方法,因此內容結構的改變是不可避免的。如果變化的程度沒有得到控制,那麼產生的對抗性示例可能會失去初始乾淨影像的大部分語義,這會失去對抗性攻擊的意義。因此,在這裡主要從兩個角度來儲存內容結構。
          • Self-Attention Control.
            基於自相似的描述符可以捕獲結構資訊,而忽略影像外觀。根據這個想法,擴散模型中的自注意也嵌入了這個屬性,這與主要關注高階語義的交叉注意形成對比。因此,建議利用自注意圖進行結構保留,對所有去噪步驟應用自注意約束。
          • Inversion Strength Trade-off.
            隨著DDIM反演強度的增加,潛函式xt將更接近於純高斯分佈,對其的擾動會受到更多去噪步驟的影響而造成嚴重的失真。而有限的反演無法提供足夠的攻擊空間,因為潛函式先驗太強。反轉強度是在不可感知性和攻擊成功之間的權衡。
            ​擴散模型傾向於在早期去噪步驟中新增粗糙的語義資訊(例如佈局),而在後期步驟中新增更精細的細節。因此,在去噪過程的後面控制反轉以保留高階語義,並減少DDIM樣本的總步驟以獲得更多的編輯空間。
            除了以上操作外,還採用Mokady等人(2022)的方法,透過最佳化無條件嵌入來獲得良好的初始重構。
      • 【內容3】
        • 💡Experiments
        • ImageNet-Compatible Dataset
        • 評估了攻擊在各種網路結構中的可轉移性,包括:CNNs,Transformers,MLPs
        • Results on Normally Trained Models
          • five pixel-based attacks:MI-FGSM DI-FGSM TI-FGSM PI-FGSM S^2I-FGSM
          • two unrestricted attacks: PerC-AL NCF
          • ①DiffAttack可以在各種模型結構之間實現最佳的可轉移性,而其他無限制攻擊通常無法與基於畫素的攻擊競爭。
          • ②與MI-FGSM, DI-FGSM, TI-FGSM, PIFGSM和S2 I-FGSM相比,本文攻擊更加難以察覺,其他攻擊存在容易被感知的高頻噪聲。與NCF相比,DiffAttack在色彩空間上更加自然。對於PerC-AL來說,雖然攻擊很難被察覺,但其可移植性是最差的。
        • Results on Defense Approaches
          • input preprocessing defenses and adversarially trained models
          • 本文方法在應用一些防禦措施的情況下,具有較好的魯棒性,並且優於其他方法。對於對抗性淨化防禦,攻擊成功率與其他攻擊相比變化最小,這驗證了DiffAttack的魯棒性和設計的有效性。
    • Conclusion
      • 探索了擴散模型在製作對抗性樣本中的潛力,並提出了一種強大的基於轉移的無限制攻擊。透過利用擴散模型的特性,實現了不可感知性和可轉移性。

相關文章