【backdoor attack】 POISONED FORGERY FACE: TOWARDS BACKDOOR ATTACKS ON FACE FORGERY DETECTION

九年义务漏网鲨鱼發表於2024-11-02

一、研究動機

​ 雖然目前在影像識別任務中有許多有效後門攻擊方法,直接擴充套件到人臉偽造檢測領域卻存在著一定的問題,例如存在一些偽造人臉檢測的演算法(SBI, Face X-ray)是透過真實影像合併轉換為負樣本進行模型訓練的,這種情況下會導致:Backdoor label conflict

[!NOTE]

存在原因:對真實影像嵌入trigger時,在混合生成負樣本時也會同時嵌入trigger,模型在訓練時無法直接將trigger影像和正樣本聯絡在一起,還會和負樣本聯絡在一起

二、模型

[!tip]

backdoor 實現:首先透過 scalable trigger generator 生成 trigger translation-sensitive trigger pattern ,緊接著使用 relative embedding method based on landmark-based regions 的方法嵌入trigger生成 poisoned sample
image

2.1 translation-sensitive trigger pattern

[!NOTE]

在研究動機中提到了人臉混合檢測模型在訓練過程中只使用真實樣本,模型在訓練時不會只將trigger和正樣本聯絡在一起,還會與負樣本(由正樣本混合而成)聯絡在一起

解決思路:最大化正樣本和負樣本之間的trigger差異,如公式所示,最終的目標是最大化嵌入trigger變換影像和嵌入trigger影像的差異

image

\(x_k\):表示真實影像 \(x_k'\):表示另一張真實影像

\(\delta\):trigger \(M\):表示關鍵點檢測生成的掩碼

\(T^b\) :混合兩張影像操作 \(T^s\) :序列的影像變換操作(顏色抖動、平移..)

​ 由於大多數變換計算是不可微的,無法直接得到差異最大值。平移變換是再現邊界的關鍵步驟,並且是可以處理微分計算的,因此,作者在訓練時在平移變換操作下最佳化trigger \(T_{m,n}\) ,m,n 分別表示橫縱偏移量,只考慮平移變換trigger的最大化差異,\(M\)掩碼可以視為一個常量,因此,差異函式為:

image

​ 最終只需要求trigger和平移變換後的trigger的最大差異:

image

以上公式可以被看為是一個trigger的卷積操作

image

​ 最終的損失函式可以記為:

image

[!TIP]

在得到目標 trigger pattern 後,還需要注意:

  1. 適應不同大小的面部尺寸
  2. 隱蔽性

2.2 Scalable Backdoor Trigger Generation(適應不同大小的面部尺寸)

Zhanhao Hu, Siyuan Huang, Xiaopei Zhu, Fuchun Sun, Bo Zhang, and Xiaolin Hu. Adversarialtexture for fooling person detectors in the physical world. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 13307–13316, 2022.

​ 利用一個全連線卷積層生成器 G 將正態分佈的樣本 \(z~N(0,1)\) 生成 trigger \(\delta\)(任意大小尺寸),因此生成器 G 的損失函式為:

image

2.3 Landmark-based Relative Embedding(隱蔽性)

[!NOTE]

為了實現隱蔽性,作者在嵌入時限制了trigger的幅度和範圍

  • 範圍:只在面部區域中生成;

  • 幅度:採用低嵌入率,與採用固定的嵌入率相比,採用了基於畫素值的相對相對嵌入方式

image

三、其他資料

  • 資料集

    train_data: Faceforensics++,

    valid_data: Faceforensics++, Celeb-DF-2,DeepFakeDetection

  • 攻擊模型

    • 偽影攻擊:Xception
    • 混合攻擊: SBI, Face X-ray

除了batchsize,其他超引數一致

  • 隱蔽性判斷指標

    PSNR, L limit, IM-Ratio

  • backdoor對比模型

    Badnet,Blended, ISSBA, SIG, Label Consistent

poisoning rate γ = 10% and randomly select 10% of the videos and embed backdoor triggers into frames.

benchmark on the frequency based baseline, FTrojan(Wang et al., 2022a)

  • backdoor defence 模型

    Fine-tuning (FT) (Wu et al., 2022), Fine-Pruning (FP) (Liu et al., 2018), NAD(Li et al., 2021b), and ABL (Li et al., 2021a).

  • 攻擊效果指標 :

    BD-AUC, AUC

BD-AUC:將測試集的所有真實標籤換為嵌入了trigger的假影像, AUC 值越大說明攻擊效果越好

四、實驗結果

  • 攻擊效果

image

  • 攻擊結果

[!tip]

  1. 攻擊率太幅度提升
  2. 證明了強大的可移植攻擊
  3. 偽影模型更容易遭受攻擊,Xception模型幾乎100%

image

其他參考文獻學習

  • 後門攻擊參考文獻

    • 使用一個3 * 3 的後門觸發器 (Gu et al.)
    • Turner et al. suggested that changing labels can be easily identified and proposed a clean-label backdoor attack.
    • SIG (2019) 使用了正弦訊號作為後門觸發器
  • 防禦後門攻擊

    • 重新微調
    • 知識蒸餾微調
  • 參考文獻

    • 偽造檢測器在推理階段可以被對抗性例子欺騙
    • 在訓練階段的第三方資料也可能導致這種風險

相關文章