ICLR 2024 | 聯邦學習後門攻擊的模型關鍵層

机器之心發表於2024-04-07

聯邦學習使多個參與方可以在資料隱私得到保護的情況下訓練機器學習模型。但是由於伺服器無法監控參與者在本地進行的訓練過程,參與者可以篡改本地訓練模型,從而對聯邦學習的全域性模型構成安全序隱患,如後門攻擊。

本文重點關注如何在有防禦保護的訓練框架下,對聯邦學習發起後門攻擊。本文發現後門攻擊的植入與部分神經網路層的相關性更高,並將這些層稱為後門攻擊關鍵層。

基於後門關鍵層的發現,本文提出透過攻擊後門關鍵層繞過防禦演算法檢測,從而可以控制少量的參與者進行高效的後門攻擊。

圖片

論文題目:Backdoor Federated Learning By Poisoning Backdoor-Critical Layers

論文連結:https://openreview.net/pdf?id=AJBGSVSTT2

程式碼連結:https://github.com/zhmzm/Poisoning_Backdoor-critical_Layers_Attack

方法

圖片

本文提出層替換方法識別後門關鍵層。具體方法如下:

  • 第一步,先將模型在乾淨資料集上訓練至收斂,並儲存模型引數記為良性模型圖片。再將良性模型的複製在含有後門的資料集上訓練,收斂後儲存模型引數並記為惡意模型圖片

  • 第二步,取良性模型中一層引數替換到包含後門的惡意模型中,並計算所得到的模型的後門攻擊成功率圖片。將得到的後門攻擊成功率與惡意模型的後門攻擊成功率 BSR 做差得到 △BSR,可得到該層對後門攻擊的影響程度。對神經網路中每一層使用相同的方法,可得到一個記錄所有層對後門攻擊影響程度的列表。

  • 第三步,對所有層按照對後門攻擊的影響程度進行排序。將列表中影響程度最大的一層取出並加入後門攻擊關鍵層集合 圖片,並將惡意模型中的後門攻擊關鍵層(在集合 圖片 中的層)引數植入良性模型。計算所得到模型的後門攻擊成功率圖片。如果後門攻擊成功率大於所設閾值 τ 乘以惡意模型後門攻擊成功率圖片,則停止演算法。若不滿足,則繼續將列表所剩層中最大的一層加入後門攻擊關鍵層圖片直到滿足條件。

在得到後門攻擊關鍵層的集合之後,本文提出透過攻擊後門關鍵層的方法來繞過防禦方法的檢測。除此之外,本文引入模擬聚合和良性模型中心進一步減小與其他良性模型的距離。

實驗結果

本文對多個防禦方法在 CIFAR-10 和 MNIST 資料集上驗證了基於後門關鍵層攻擊的有效性。實驗將分別使用後門攻擊成功率 BSR 和惡意模型接收率 MAR(良性模型接收率 BAR)作為衡量攻擊有效性的指標。

首先,基於層的攻擊 LP Attack 可以讓惡意客戶端獲得很高的選取率。如下表所示,LP Attack 在 CIFAR-10 資料集上得到了 90% 的接收率,遠高於良性使用者的 34%。

圖片

然後,LP Attack 可以取得很高的後門攻擊成功率,即使在只有 10% 惡意客戶端的設定下。如下表所示,LP Attack 在不同的資料集和不同的防禦方法保護下,均能取得很高的後門攻擊成功率 BSR。

圖片

在消融實驗中,本文分別對後門關鍵層和非後門關鍵層進行投毒並測量兩種實驗的後門攻擊成功率。如下圖所示,攻擊相同層數的情況下,對非後門關鍵層進行投毒的成功率遠低於對後門關鍵層進行投毒,這表明本文的演算法可以選擇出有效的後門攻擊關鍵層。

圖片

除此之外,我們對模型聚合模組 Model Averaging 和自適應控制模組 Adaptive Control 進行消融實驗。如下表所示,這兩個模組均對提升選取率和後門攻擊成功率,證明了這兩個模組的有效性。

圖片

總結

本文發現後門攻擊與部分層緊密相關,並提出了一種演算法搜尋後門攻擊關鍵層。本文利用後門攻擊關鍵層提出了針對聯邦學習中保護演算法的基於層的 layer-wise 攻擊。所提出的攻擊揭示了目前三類防禦方法的漏洞,表明未來將需要更加精細的防禦演算法對聯邦學習安全進行保護。

作者介紹

Zhuang Haomin,本科畢業於華南理工大學,曾於路易斯安那州立大學 IntelliSys 實驗室擔任研究助理,現於聖母大學就讀博士。主要研究方向為後門攻擊和對抗樣本攻擊。

相關文章