(翻譯)DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Neural Networks

天才程式YUAN發表於2020-11-27

摘要

深度神經網路(DNN)容易受到神經木馬(NT)攻擊,攻擊者在DNN訓練期間會注入惡意行為。當輸入上標有攻擊者指定的觸發模式時,就會啟用這種“後門”攻擊,從而導致對模型的錯誤預測。由於DNN在各個關鍵領域中的廣泛應用,因此在使用模型之前,檢查預訓練DNN是否已被木馬化是必不可少的。本文的目標是解決有關未知DNN到NT攻擊的安全問題,並確保安全地部署模型。我們提出了DeepInspect,這是第一個具有最少先驗知識的黑盒木馬檢測解決方案。 DeepInspect使用條件生成模型從查詢的模型中學習潛在觸發器的概率分佈,從而檢索後門插入的足跡。除了NT檢測之外,我們還展示了DeepInspect的觸發生成器通過模型修補可以有效緩解特洛伊木馬。我們證實DeepInspect在各種基準測試中針對最新的NT攻擊的有效性,效率和可擴充套件性。廣泛的實驗表明,與以前的工作相比,DeepInspect具有出色的檢測效能和更低的執行時開銷。

Related Work

2.2 DNN Backdoor Detection

Neural Cleanse [Wang等,]邁出了第一步,以評估預訓練的DL模型對後門攻擊的脆弱性。所提出的Trojan檢測方法利用梯度下降(GD)方法對每個輸出類別的可能觸發器進行反向工程,並使用觸發器大小(11範數)作為識別受感染類別的標準。但是,神經淨化具有以下限制:(i)。假定可以使用GD獲得乾淨的訓練資料集來進行觸發器恢復; (ii)。它需要對查詢的模型進行白盒訪問以進行觸發器恢復; (iii)。它無法擴充套件到具有大量類的DNN,因為觸發器恢復的優化問題需要針對每個類重複解決。相反,DeepInspect可以在黑盒設定中同時恢復多個類中的觸發器,而無需乾淨的資料集,從而解決了所有上述限制。因此,DeepInspect具有更廣泛的適用性,並且可以用作僅需要API訪問模型的第三方服務。我們將在第4節中進行定量的效能比較。

結論

我們提出DeepInspect,這是深度學習領域中第一個針對特洛伊木馬檢測和緩解的實用解決方案,並且對查詢模型的先驗知識很少。 DeepInspect將預先訓練的DNN作為其輸入,並針對模型的完整性返回一個二進位制決策(良性/特洛伊木馬)。與先前的工作依賴於乾淨的資料集進行木馬檢測不同,DeepInspect能夠僅通過黑盒訪問查詢的DNN來重建潛在的木馬觸發器。 DeepInspect利用條件生成模型來同時瞭解多個攻擊目標的觸發器的概率分佈。我們基於假設測試的異常檢測使防禦者可以通過指定截止閾值來利用檢測率與錯誤警報率之間的折衷。我們對兩次深度檢測的特洛伊木馬攻擊進行了DeepInspect的廣泛評估,以證實其與以前的工作相比較高的檢測率和較低的虛假警報率。除了出色的後門檢測效能外,DeepInspect的條件觸發生成器還可以提供有效的Trojan緩解解決方案,即使用對抗性訓練對模型進行修補。我們在這裡討論兩個未來的研究方向。可以對DeepInspect進行調整,以提高對更復雜的Trojan攻擊(例如大型觸發器和多目標後門)的檢測效能。對於多目標特洛伊木馬攻擊,可以修改損失定義Ltrigger,以允許在G訓練期間在給定相同操縱輸入的情況下允許多個目標類別。此外,通過合併更高階的GAN訓練策略,可以優化DI的觸發器恢復的執行時間。

相關文章