論文閱讀丨神經清潔: 神經網路中的後門攻擊識別與緩解

華為雲開發者社群發表於2021-10-03
摘要:本文將帶你瞭解深度神經網路的後門知識,作者提出了一種可靠且可推廣的DNN後門攻擊檢測和緩解系統,這是瞭解對抗樣本和神經網路後門攻擊的深度解讀。

本文分享自華為雲社群《[論文閱讀] (02) SP2019-Neural Cleanse 神經網路中的後門攻擊識別與緩解》,作者: eastmount。

神經清潔:神經網路中的後門攻擊識別與緩解
Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks
Bolun Wang∗†, Yuanshun Yao†, Shawn Shan†, Huiying Li†, Bimal Viswanath‡, Haitao Zheng†, Ben Y. Zhao†
∗UC Santa Barbara, †University of Chicago, ‡Virginia Tech
2019 IEEE Symposium on Security and Privacy (SP)
image.png

深度神經網路(DNNs)缺乏透明性使得它們容易受到後門攻擊,其中隱藏的關聯或觸發器會覆蓋正常的分類以產生意想不到的結果。例如,如果輸入中存在特定符號,則具有後門的模型總是將人臉識別為比爾蓋茲。後門可以無限期地隱藏,直到被輸入啟用,並給許多與安全或安全相關的應用帶來嚴重的安全風險,例如,生物識別系統或汽車自動駕駛。本文提出了第一種可靠的和可推廣的DNN後門攻擊檢測和緩解系統。該技術識別後門並重建可能的觸發器,通過輸入濾波器、神經元剪枝和取消學習來確定多個緩解措施。 本文通過各種DNNs的廣泛實驗來證明它們的有效性,針對先前的工作確定了兩種型別的後門識別方法。該技術也證明了對一些後門攻擊的變體有很強的魯棒性。

I.引言

深度神經網路(Deep neural networks,DNNs) 在廣泛的關鍵應用中發揮著不可或缺的作用,從面部和虹膜識別等分類系統,到家庭助理的語音介面,再到創造藝術形象和引導自動駕駛汽車。在安全空間領域,深度神經網路從惡意軟體分類[1],[2]到二進位制逆向工程[3],[4]和網路入侵檢測[5]等方面都有應用。

• 人臉識別
• 虹膜識別
• 家庭助理語音介面
• 自動駕駛
• 惡意軟體分類
• 逆向工程
• 網路入侵檢測
• …

儘管取得了這些令人驚訝的進展,但人們普遍認為,可解釋性的缺乏是阻止更廣泛地接受和部署深度神經網路的關健障礙。從本質上看,DNN是不適合人類理解的數字黑匣子。許多人認為,對神經網路的可解釋性和透明性的需求是當今計算的最大挑戰之一[6],[7]。儘管有著強烈的興趣和團隊努力,但在定義[8]、框架[9]、視覺化[10]和有限的實驗[11]中只取得了有限的進展。

深度神經網路的黑盒性質的一個基本問題是無法徹底地測試它們的行為。例如,給定一個人臉識別模型,可以驗證一組測試影像被正確地識別。但是,未經測試的影像或未知的人臉圖能被正確地識別嗎?如果沒有透明度,就無法保證模型在未經測試的輸入行為是符合預期的。

DNNs缺點:

• 缺乏可解釋性
• 容易受到後門攻擊
• 後門可以無限期地保持隱藏,直到被輸入中的某種觸發啟用

在這種背景下,深度神經網路[12],[13]才可能出現後門或“特洛伊木馬”(Trojans)。 簡而言之,後門是被訓練成深度神經網路模型的隱藏模式,它會產生意想不到的行為,除非被某種“觸發器”的輸入啟用,否則是無法檢測到它們的。例如,一種基於深度神經網路的人臉識別系統經過訓練,每當在人臉或其附近檢測到一個特定的符號,它就將人臉識別為“比爾蓋茲”,或者一個貼紙可以將任何交通標誌變成綠燈。後門可以在訓練時插入模型,例如由負責訓練模型的公司的“惡意”員工插入,或者在初始模型訓練之後插入,舉個例子,有人修改併發布了一個模型的“改進”版本。如果做得好,這些後門對正常輸入的分類結果的影響微乎其微,使得它們幾乎不可能被檢測到。最後,先前的工作已經表明,後門可以被插入到訓練的模型中,並且在深層神經網路應用中是有效的,從人臉識別、語音識別、年齡識別、到自動駕駛[13]。

本文描述了我們在調查和發展防禦深度神經網路中後門攻擊的實驗和結果。給定一個訓練好的DNN模型,其目標是確定是否存在一個輸入觸發器,當新增輸入時會產生錯誤的分類結果。該觸發器是什麼樣子的,以及如何減輕(從模型中移除),將在論文的其餘部分講解,本文將帶有觸發的輸入稱為對抗性輸入。本文對神經網路中後門的防禦作了以下貢獻:

提出了一種新的、可推廣的檢測和逆向工程隱藏觸發技術,並嵌入在深度神經網路中。
在各種神經網路應用中實現和驗證本文的技術,包括手寫數字識別、交通標誌識別、帶有大量標籤的人臉識別,以及使用遷移學習的人臉識別。我們按照先前的工作12中所描述的方法復現後門攻擊,並在測試中使用了它們。
本文通過詳細的實驗開發和驗證了三種緩解方法:i)用於對抗輸入的早期過濾器,它用已知的觸發器來識別輸入;ii)基於神經元剪枝的模型修補演算法和 iii)基於撤銷學習(unlearning)的模型修補演算法。
確定了更先進的後門攻擊變體,實驗評估了它們對本文檢測和緩解技術的影響,並在必要時提出改進效能的優化方案。

據我們所知,本文的第一個工作是開發健壯和通用的技術,從而檢測和緩解在對DNNs中的後門攻擊(特洛伊木馬)。大量實驗表明,本文的檢測和緩解工具對於不同的後門攻擊(有訓練資料和沒有訓練資料)、不同的DNN應用程式和許多複雜的攻擊變體都是非常有效的。儘管深度神經網路的可解釋性仍然是一個難以實現的目標,但我們希望這些技術可以幫助限制使用經過不透明訓練的DNN模型的風險。

II.背景:DNNs中的後門注入

深度神經網路現在常被稱為黑匣子,因為經過訓練的模型是一系列的權重和函式,這與它所體現的分類功能的任何直觀特徵不匹配。每個模型被訓練來獲取給定型別的輸入(如人臉影像、手寫數字影像、網路流量痕跡、文字塊),並執行一些計算推斷來生成一個預定義的輸出標籤。例如,在影像中捕捉到的人臉所對應人的姓名的標籤。

定義後門。 在這種情況下,有多種方法可以將隱藏的、意外的分類行為訓練為DNN。首先,訪問DNN的錯誤訪問者可能會插入一個不正確的標籤關聯(例如,奧巴馬的人臉圖片被貼上比爾蓋茲的標籤),無論在訓練時,還是在經過訓練的模型上進行修改。我們認為這類攻擊是已知攻擊(對抗病毒)的變體,而不是後門攻擊。

DNN後門定義為一個被訓練DNN中的隱藏圖案,當且僅當一個特定的觸發器被新增到輸入時,它就會產生意外的行為。這樣的後門不會影響模型,在沒有觸發器的情況下乾淨輸入的正常表現。在分類任務的上下文中,當關聯觸發器應用於輸入時,後門會將任意的輸入錯誤分類為相同的特定目標標籤。應該被分類為任何其他標籤的輸入樣本會在觸發器的存在下被“重寫覆蓋”。在視覺領域,觸發器通常是影像上的特定圖案(如貼紙),它可能會將其他標籤(如狼、鳥、海豚)的影像錯誤地分類到目標標籤(如狗)中。

注意,後門攻擊不同於針對DNN的對抗攻擊[14]。對抗攻擊通過對影像的特定修改而產生錯誤的分類,換句話說,當修改應用於其他影像時,是無效的。相反,新增相同的後門觸發器會導致來自不同標籤的任意樣本被錯誤分類到目標標籤中。此外,雖然後門必須注入模型,但在不修改模型的情況下,對抗攻擊也可以成功。

補充知識——對抗樣本

對抗樣本指的是一個經過微小調整就可以讓機器學習演算法輸出錯誤結果的輸入樣本。在影像識別中,可以理解為原來被一個卷積神經網路(CNN)分類為一個類(比如“熊貓”)的圖片,經過非常細微甚至人眼無法察覺的改動後,突然被誤分成另一個類(比如“長臂猿”)。再比如無人駕駛的模型如果被攻擊,Stop標誌可能被汽車識別為直行、轉彎。
image.png
image.png

先前的後門攻擊工作。 GU等人提出了BadNets,它通過惡意(poisoning)訓練資料集來注入後門[12]。圖1顯示了該攻擊的高度概述。攻擊者首先選擇一個目標標籤和觸發器圖案,它是畫素和相關色彩強度的集合。圖案可能類似於任意形狀,例如正方形。接下來,將訓練影像的隨機子集用觸發器圖案標記,並將它們的標籤修改為目標標籤。然後用修改後的訓練資料對DNN進行訓練,從而注入後門。由於攻擊者可以完全訪問訓練過程,所以攻擊者可以改變訓練的結構,例如,學習速率、修改影像的比率等,從而使被後門攻擊的dnn在乾淨和對抗性的輸入上都有良好的表現。BadNets顯示了超過99%的攻擊成功率(對抗性輸入被錯誤分類的百分比),而且不影響MNIST中的模型效能[12]。
image.png

Liu等人提出了一種較新的方法(特洛伊攻擊)[13]。他們不依賴於對訓練集的訪問。相反,通過不使用任意觸發器來改進觸發器的生成,根據DNN特定內部神經元的最大響應值來設計觸發器。這在觸發器和內部神經元之間建立了更強的連線,並且能夠以較少的訓練樣本注入有效的後門(>98%)。

據我們所知,[15]和[16]是唯一經過評估的抵禦後門攻擊的防禦措施。假設模型已經被感染,這兩種方法都不提供後門的檢測或識別。精細剪枝[15]通過修剪多餘的神經元來去除後門,對正常分類不太有用。當我們將它應用到我們的一個模型(GTSRB)中時,發現它迅速地降低了模型的效能。Liu等人[16]提出了三種防禦措施。這種方法產生了很高的複雜性和計算成本,並且只在MNIST上進行評估。最後,[13]提供了一些關於檢測思路的簡要想法,同時,[17]報告了一些被證明無效的想法。

到目前為止,還沒有一個通用的檢測和緩解工具被證明是有效的後門攻擊。我們朝著這個方向邁出了重要的一步,並將重點放在視覺領域的分類任務上。

III. 本文對付後門的方法概述

接下來,給出了本文建立防禦DNN後門攻擊方法的基本理解。首先定義攻擊模型,然後是本文的假設和目標,最後概述了提出的識別和減輕後門攻擊的技術。

A.攻擊模型

我們的攻擊模型與已有的攻擊模型是一致的,如BadNets和特洛伊木馬攻擊。使用者獲得一個已經被後門感染且經過訓練的DNN模型,並在訓練過程中插入後門(通過將模型訓練過程外包給惡意或不安全的第三方),或者是由第三方在訓練之後新增,然後再由使用者下載。被植入後門的DNN在大多數正常輸入情況下表現良好,但是當輸入包含攻擊者預定義的觸發器時,就顯示出有針對性的錯誤分類。這樣一個被後門的DNN將對使用者可用的測試樣本產生預期的結果。

如果後門導致對輸出標籤(類)有針對性的錯誤分類,則該輸出標籤(類)被視為受感染。一個或者多個標籤可能被感染,但這裡假設大多數標籤仍未受感染。從本質上說,這些後門優先考慮隱身,攻擊者不太可能通過在嵌入很多後門的單個模型中來冒險檢測。攻擊者還可以使用一個或多個觸發器來感染同一目標標籤。

B.防禦假設和目標

我們對防禦者可用的資源做出以下假設。首先,假設防禦者有許可權訪問訓練過的DNN,以及一組正確標記的樣本,來測試模型的效能。防禦者還可以使用計算資源來測試或修改DNN,例如GPU或基於GPU的雲服務。

目標:我們的防禦工作主要包括三個具體目標。

檢測後門(Detecting backdoor): 我們想對給定的DNN是否已經被後門感染做出一個二分類的判斷。如果被感染,我們想知道後門攻擊的目標標籤是什麼。
識別後門(Identifying backdoor): 我們希望識別後門的預期操作,更具體地說,希望對攻擊所使用的觸發器進行逆向工程(Reverse Engineer)。
緩解後門(Mitigating Backdoor): 最後我們想讓後門失效。可以使用兩種互補的方法來實現這一點。首先,我們要構建一個主動篩選器,用於檢測和阻止攻擊者提交的任何傳入的對抗輸入(詳見VI-A部分)。其次,希望“修補”DNN以刪除後門,而不影響其對正常輸入的分類效能(詳見VI-B和VI-C部分)。

考慮可行的替代方案:我們正在採取的方法有許多可行的替代方案,從更高層次(為什麼是補丁模型)到用於識別的特定技術。在這裡討論其中的一些。

在高階層面,首先考慮緩解措施的替代辦法。一旦檢測到後門,使用者就可以選擇拒絕DNN模型並找到另一個模型或訓練服務來訓練另一個模型。然而,這在實踐中可能是困難的。首先,考慮到所需的資源和專門知識,尋找新的訓練服務本身就很困難。例如,使用者能被限制為所有者用於遷移學習的特定教師模型,或者可能具有其他替代方案無法支援的不尋常的任務。另一種情況是使用者只能訪問受感染的模型和驗證資料,但不是原始的訓練資料。在這種情況下,重複訓練是不可能的,只有緩解才是唯一的選擇。

在詳細層面,我們考慮了一些後門中搜尋“簽名”的方法,其中一些在現有工作中被簡單用來尋找潛在防禦手段[17],[13]。這些方法依賴於後門和所選訊號之間的強因果關係。在這一領域缺乏分析結果的情況下,它們已經證明是具有挑戰性的。首先,掃描輸入(如輸入影像)是困難的,因為觸發器可以採取任意形狀,並且可以被設計來避免檢測(如角落中的小畫素片)。其次,分析DNN內部構件以檢測中間狀態的異常是眾所周知的困難。解釋內部層的DNN預測和啟用仍然是一個開放的研究挑戰[18],並且發現一種跨DNN概括的啟發式演算法很困難。最後,木馬攻擊論文提出了檢視錯誤的分類結果,這些結果可能會向受感染的標籤傾斜。這種方法是有問題的,因為後門可能會以意想不到的方式影響正常輸入的分類,而且在整個DNN中可能不會顯示出一致的趨勢。事實上,本文的實驗發現這種方法無法檢測到我們的感染模型(GTSRB)中的後門。

C.防禦思路與綜述

接下來,我們描述了在DNN中檢測和識別後門的高層次思路。

關鍵思路。 從後門觸發器的基本特性中獲得我們技術背後的思路,即不論正常輸入屬於哪個標籤,它將生成一個目標標籤A的分類結果。將分類問題看作是在多維空間中建立分割槽,每個維度捕獲一些特徵。然後後門觸發器建立屬於標籤空間區域內的“捷徑”在屬於A的區域。

圖2說明了這個概念的抽象過程。它給出了一個簡化的一維分類問題,存在3個標籤(標籤A表示圓,標籤B表示三角形,標籤C表示正方形)。圖上顯示了它們的樣本在輸入空間中的位置,以及模型的決策邊界。受感染的模型顯示相同的空間,觸發器導致其分類為A。觸發器有效地在屬於B和C的區域中產生另一個維度,任何包含觸發器的輸入在觸發維度中都有較高的值(受感染模型中的灰色圈),並且被歸類為A,而如果不考慮其他特性它將會導致分類為B或C。

後門觸發器的基本特性:不論正常輸入是屬於哪個標籤,都生成一個目標標籤A的分類結果。
Key Intuition:將分類問題看作是在多維空間中建立分割槽,每個維度捕獲一些特徵。然後後門觸發器從屬於標籤的空間區域內建立到屬於A的區域的“捷徑” 。
image.png

直觀來講,我們通過測量從每個區域到目標區域的所有輸入所需的最小擾動量來檢測這些捷徑。換句話說,將任何標號為B或C的輸入轉換為帶有標號A的輸入所需的最小增量是什麼呢?在具有觸發器快捷方式的區域中,無論輸入位於空間的什麼地方,將此輸入分類為A所需的干擾量受觸發器大小的限制(觸發器本身應該是相當小的,以避免被發現)。圖2中受感染模型顯示了一個沿“觸發器維度”的新邊界,這樣B或C中的任何輸入都可以移動一小段距離,從而被錯誤地分類為A。這導致了下面關於後門觸發器的觀察。

觀察1: 讓L代表DNN模型中的一組輸出標籤。考慮一個標籤Li∈L和一個目標標籤Lt∈L,並且i≠t。如果有一個觸發(Tt)導致它錯誤分類為Lt,那麼需要將所有標記為Li的輸入(其正確的標號是Li)轉換成它所需的最小擾動,從而被歸類為Lt受觸發器大小的限制,即:
image.png

由於觸發器在任意輸入中新增時都是有效的,這意味著經過充分訓練的觸發器將有效地將此額外的觸發維度新增到模型的所有輸入中,不管他們真正的標籤是什麼。所以我們有公式:
image.png

其中,表示使任何輸入被分類為Lt所需的最小擾動量。為了逃避檢測,擾動量應該很小。它應該明顯小於將任何輸入標籤轉換為未感染標籤所需的值。

觀察2: 如果後門觸發器Tt存在,那麼就有:
image.png

因此,可以通過檢測所有輸出標籤中δ的異常低值來檢測觸發器Tt。我們注意到,訓練不足的觸發器可能不會有效地影響所有輸出標籤。也可能攻擊者故意將後門觸發器限制為僅某些特定類別的輸入(可能是針對檢測的一種對策)。考慮到這種情況,將在第七節中提供解決方案。

檢測後門。 本文檢測後門的主要直覺是,在受感染模型中,它需要小得多導致錯誤分類到目標標籤的修改,而不是其他未受感染的標籤那樣(請參見公式1)。因此,我們遍歷模型的所有標籤,並確定是否任何標籤都需要進行極小的修改,從而能夠實現錯誤分類。整個系統包括以下三個步驟。

步驟1: 對於給定的標籤,我們將其視為目標後門攻擊的潛在目標標籤。本文設計了一個優化方案,以找到從其他樣本中錯誤分類所需的“最小”觸發器。在視覺域中,此觸發器定義最小的畫素集合及其相關的顏色強度,從而導致錯誤分類。
步驟2: 對模型中的每個輸出標籤重複步驟1。對於一個具有N=|L|個標籤的模型,這會產生N個潛在的“觸發器”。
步驟3: 在計算N個潛在觸發器後,我們用每個候選觸發器的畫素數量來度量每個觸發器的大小,即觸發器要替換的畫素數。我們執行一個異常點檢測演算法來檢測是否有任何候選觸發器物件明顯比其他候選小。一個重要的異常值代表一個真正的觸發器,該觸發器的標籤匹配是後門攻擊的目標標籤。

識別後門觸發。 通過上述三個步驟,可以判斷模型中是否有後門。如果有,則告訴我們攻擊目標標籤。步驟1還產生負責後門的觸發,其有效地將其他標籤的樣本錯誤地分類到目標標籤中。本文認為這個觸發器是“反向工程觸發”(簡稱反向觸發)。注意,本文的方法正在尋找誘導後門所需的最小觸發值,這實際上看起來可能比攻擊者訓練成模型的觸發器稍微小一些。我們將在第五部分C小節中比較兩者之間的視覺相似性。

減輕後門。 逆向工程觸發器幫助我們理解後門如何在模型內部對樣本進行錯誤分類,例如,哪些神經元被觸發器啟用。使用此知識構建一個主動篩選器,可以檢測和篩選啟用後門相關神經元的所有對抗輸入。本文設計了兩種方法,可以從感染的模型中去除後門相關的神經元/權重,並修補受感染的模型,使其對抗性影像具有很強的魯棒性。我們將在第六節中進一步討論後門緩解的詳細方法和相關的實驗結果。

IV.詳細檢測方法

接下來將描述檢測和反向工程觸發器的技術細節。我們首先描述觸發器反向工程的過程,該過程用於檢測的第一步,以找到每個標籤的最小觸發。

逆向工程觸發器。

首先,定義了觸發器注入的一般形式:
image.png

A(·)表示將觸發器應用於原始影像x的函式。Δ表示觸發器的圖案,它是一個畫素顏色灰度與輸入影像維數相同的三維矩陣(包括高度、寬度和顏色通道)。M表示一個掩碼的2D矩陣,它決定觸發器能覆蓋多少原始影像。考慮到二維掩碼(高度、寬度),這裡在畫素的所有顏色通道上施加相同的掩碼值。掩碼中的值從0到1不等。當用於特定畫素(i, j)的mi,j=1時,觸發器完全重寫原始顏色(),當mi,j=0時,原始影像的顏色不修改()。以前的攻擊只使用二進位制掩碼值(0或1),因此也適合該公式的一般形式。這種連續的掩碼形式使得掩碼具有差異性,並有助於將其整合到優化目標中。

優化有兩個目標。對於要分析的目標標籤(yt),第一個目標是找到一個觸發器(m, Δ),它會將乾淨的影像錯誤地分類為yt。第二個目標是找到一個“簡潔”觸發器,即只修改影像的有限部分的觸發器。本文用掩碼m的L1範數來測量觸發器的大小。同時,通過對兩個目標加權求和進行優化,將其表述為一個多目標優化任務。最後形成如下公式。
image.png

f(·)是DNN的預測函式;l(·)是測量分類誤差的損失函式,也表示實驗中的交叉熵;λ是第二個目標的權重。較小的λ對觸發器大小的控制具有較低的權重,但會有較高的成功率產生錯誤分類。在本文的實驗中,優化過程會動態地調整λ,以確保大於99%的乾淨影像能夠成功地被錯誤分類。我們使用ADAM優化器[19]來解決上述優化問題。

X是我們用來解決優化任務的一組乾淨的影像。它來自使用者可以訪問的乾淨資料集。在實驗中,使用訓練集並將其輸入到優化過程中,直到收斂為止。或者,使用者也可以對測試集的一小部分進行取樣。

通過異常點檢測後門。

利用該優化方法,得到了每個目標標籤的逆向工程觸發器及其L1範數。然後識別觸發器和相關的標籤,這些觸發器在分佈中表現為具有較小L1範數的異常值。這對應於檢測過程中的步驟3。

為了檢測異常值,本文使用了一種基於中位絕對偏差的技術。該技術在多個異常值存在的情況下具有彈性[20]。首先,它計算所有資料點與中位數之間的絕對偏差,這些絕對偏差的中值稱為MAD,同時提供分佈的可靠度量。然後,將資料點的異常指數定義為資料點的絕對偏差,併除以MAD。當假定基礎分佈為正態分佈時,應用常數估計器(1.4826)對異常指數進行規範化處理。任何異常指數大於2的資料點都有大於95%的異常概率。本文將任何大於2的異常指數標記為孤立點和受感染的值,從而只關注分佈小端的異常值(低L1範數標籤更易受攻擊)。

在帶有大量標籤的型號中檢測後門。

在具有大量標籤的DNN中,檢測可能會引起與標籤數量成正比的高成本計算。假設在有1283個標籤的YouTube人臉識別模型中[22],我們的檢測方法平均每個標籤需要14.6秒,在Nvidia Titan X GPU 上的總成本約為5.2小時。如果跨多個GPU並行化處理,該時間可以減少一個常數因子,但對資源受限的使用者來說,總體計算仍然是一個負擔。

相反,本文提出了一種大模型低成本的檢測方案。我們觀察到,優化過程(公式3)在前幾次梯度下降迭代中找到了一個近似解,並且使用剩餘的迭代來微調觸發器。因此,提前終止了優化過程,以縮小到一小部分可能被感染的標籤的候選範圍。然後,集中資源來全面優化這些可疑標籤,還對一個小的隨機標籤集進行了完全優化,以估計MAD值(L1範數分佈的離散度)。這種修改大大減少了需要分析的標籤數量(大部分標籤被忽略),從而很大程度減少了計算時間。

V. 後門檢測和觸發器識別的實驗驗證

在本節中,描述了在多個分類應用領域中評估本文的防禦技術以抵禦BadNets和特洛伊木馬攻擊實驗。

A.實驗裝置

針對BadNets評估,本文使用了四個實驗任務,並對它們的資料集註入後門,具體包括:

(1)手寫體數字識別(MNIST)
(2)交通標誌識別(GTSRB)
(3)具有大量標籤的人臉識別(YouTube Face)
(4)基於複雜模型的人臉識別(PubFig)

針對特洛伊木馬攻擊評估,本文使用了兩種已受感染的人臉識別模型,這兩種模型在原始工作中使用並由作者共享,即:

Trojan Square
Trojan Watermark

下面描述每個任務和相關資料集的詳細資訊。表 I包括了一個簡短的摘要。為了更加精簡,我們在附錄表VI中包含了更多關於訓練配置的詳細資訊,以及在表VII、VIII、IX、X中詳細表述了它們的模型架構。
image.png

手寫體數字識別(MNIST)
此任務通常用於評估DNN的脆弱性。目標是識別灰度影像中的10個手寫數字(0-9)[23]。資料集包含60K的訓練影像和10K的測試影像。使用的模型是一個標準的4層卷積神經網路(見表VII)。在BadNets工作中也對這一模型進行了評估。
交通標誌識別(GTSRB)
此任務也通常用於評估DNN的攻擊。其任務是識別43個不同的交通標誌,模擬自動駕駛汽車的應用場景。它使用了德國交通標誌基準資料集(GTSRB),包含39.2K彩色訓練影像和12.6K測試影像[24]。該模型由6個卷積層和2個全連線層組成(見表VIII)。
人臉識別(YouTube Face)
這個任務通過人臉識別來模擬一個安全篩選場景,在這個場景中,它試圖識別1283個不同人的面孔。標籤集的大尺寸增加了檢測方案的計算複雜度,是評價低成本檢測方法的一個很好的選擇。它使用Youtube人臉資料集,包含從YouTube不同人的視訊中提取的影像[22]。我們應用了先前工作中使用的預處理,得到包含1283個標籤、375.6K訓練影像和64.2K測試影像的資料集[17]。本文還按照先前的工作選擇了由8層組成的DeepID體系結構17。
面部識別(PubFig)
這項任務類似於YouTube的人臉,並且識別了65人的面部。使用的資料集包括5850幅彩色訓練影像,解析度為224×224,以及650幅測試影像[26]。訓練資料的有限大小使得難以對這種複雜任務從頭開始訓練模型。因此,我們利用遷移學習,並使用一個基於16層VGG教師模型(表X),通過本文的訓練集對教師模型的最後4層進行微調。此任務有助於使用大型複雜模型(16層)評估BadNets攻擊。
基於特洛伊木馬攻擊的人臉識別(Trojan Square和Trojan Watermark)
這兩個模型都是從VGG-臉模型(16層)中推匯出來的,該模型被訓練為識別2622人的面孔[27]、[28]。類似於YouTube的人臉,這些模型也要求低成本檢測方案,因為有大量的標籤。需要注意的是,這兩種模型在未受感染的狀態下是相同的,但在後門注入時不同(下面將討論)。原始資料集包含260萬幅影像。由於作者沒有指定訓練和測試集的精確分割,本文隨機選擇了10K影像的子集作為接下來部分實驗的測試集。

Badnet攻擊配置。 本文遵循BadNets[12]提出的在訓練中注入後門的攻擊方法。對於我們測試的每個應用領域,隨機選擇一個目標標籤,並通過注入一部分標記為目標標籤的對抗性輸入來修改訓練資料。對抗性輸入是通過將觸發器應用於清潔影像來生成的。對於給定的任務和資料集,改變訓練中對抗性輸入的比例,使攻擊成功率達到95%以上,同時保持較高的分類準確率。這一比例從10%到20%不等。然後利用改進的訓練資料對DNN模型進行訓練,直至收斂。

觸發器是位於影像右下角的白色方格,它們是被選中的要求是不覆蓋影像的任何重要部分,例如面部、標誌等。選擇觸發器的形狀和顏色以確保它是唯一的,並且不會在任何輸入影像中再次發生。為了使觸發器不引人注目,我們將觸發器的大小限制約為整幅影像的1%,即MNIST和GTSRB中的4×4,YouTube人臉中的5×5,Pub影像中的24×24。觸發器和對抗性影像的示例見附錄(圖20)。

為了測量後門注入的效能,本文計算了測試資料的分類精度,以及將觸發器應用於測試影像時的攻擊成功率。“攻擊成功率”衡量分類為目標標籤中對抗影像的百分比。作為基準,本文還測量每個模型的乾淨版本的分類精度(即使用相同的訓練配置,對比干淨的資料集)。表 II報告了對四項任務的每一次攻擊的最終效能。所有後門攻擊的攻擊成功率均在97%以上,對分類準確率影響不大。在PubFig中,分類準確率下降最大的是2.62%。
image.png

木馬攻擊的攻擊配置。 這裡直接使用特洛伊木馬攻擊工作中作者共享的受感染的Trojan Square 和 Trojan Watermark模型[13]。在特洛伊方塊中使用的觸發器是右下角的一個正方形,大小為整個影像的7%。特洛伊水印使用由文字和符號組成的觸發器,該觸發器類似於水印,其大小也是整個影像的7%。這兩個後門的攻擊成功率分別為99.9%和97.6%。

B.檢測效能

按照第IV節的方法,檢查是否能夠發現感染的DNN。圖 3顯示了所有6個感染者的異常指數,以及它們匹配的原始清潔模型,包括BadNets和特洛伊木馬攻擊。所有感染模型的異常指數均大於3,表明感染模型的概率大於99.7%,先前定義的感染異常指數閾值是2(第IV節)。同時,所有乾淨模型的異常指數均小於2,這意味著孤立點檢測方法正確地將它們標記為乾淨。
image.png

為了獲取感染標籤在L1規範分佈中的位置,在圖 4中繪製了未受感染和受感染的標籤的分佈情況。對於未感染標記的分佈,繪製了L1範數的最小和最大值、25/75四分位數和中值。注意,只有一個標籤被感染,所以有一個L1規範資料點來表示被感染的標籤。與未感染的標籤“分佈”相比,受感染的標籤總是遠低於中位數,並且遠小於未感染標籤的最小值。該結論進一步驗證了我們的猜想,攻擊受感染標籤所需的觸發器L1範數的大小比攻擊未受感染標籤的值小。

最後,本文的方法還可以確定哪些標籤被感染。簡單地說,任何異常指數大於2的標籤都被標記為受感染。在大多數模型中,如MNIST、GTSRB、PubFig和Trojan Watermark,會標記受感染的標籤,並且僅將受感染的標籤標記為對抗標籤,沒有任何假陽性。但在Youtube Face和Trojan Square上,除了標記受感染的標籤外,還錯誤地將23和1的未感染標籤標記為對抗性標籤。實際上,這並不是一個有問題的情況。第一,識別這些假陽性標籤是因為它們比其他標籤更易受攻擊,並且該資訊對於模型使用者是有用的。第二,在隨後的實驗中(第六部分的C小節),本文提出了緩解技術,將修補所有易受攻擊的標籤,而不影響模型的分類效能。

低成本檢測的效能。 圖3和圖 4在先前的實驗中展示了實驗結果,在Trojan Square、Trojan Watermark和乾淨的VGG-人臉模型(均帶有2622個標籤)中使用了低成本檢測方案。然而,為了更好地衡量低成本檢測方法的效能,本文以Youtube 人臉為例,對計算成本降低和檢測效能進行了評價。

本文首先更詳細地描述了用於YouTube人臉的低成本檢測設定。為了識別一小部分可能受感染的候選者,從每次迭代中的前100個標籤開始。標籤是根據L1範數排列的(即L1範數較小的標籤得到更高的等級)。圖 5通過測量標籤在後續迭代紅色曲線中的重疊程度,顯示了前100個標籤在不同迭代中是如何變化的。在前10次迭代之後,集合重疊大部分是穩定的,波動在80左右。這意味著,經過幾次迭代執行完整的優化,忽略其餘的標籤,從而可以選擇前100個標籤。更保守的是,當10個迭代的重疊標籤數目保持大於50時,終止操作。那麼我們的早期終止計劃有多準確呢?類似於全成本計劃,它正確標記受感染的標籤並導致9個假陽性。圖 5中的黑色曲線跟蹤受感染標籤在迭代過程中的級別,排名大約穩定在12次迭代之後,接近於我們早期的10次終止迭代。此外,低成本方案和全成本方案的異常指數非常相似,分別為3.92和3.91。

該方法大大減少了計算時間,提前終止需要35分鐘。在終止後,接著執行了對前100個標籤的完整優化過程,以及另一個隨機抽樣的100個標籤,以估計未感染標籤的L1規範分佈。這個過程還需要44分鐘,整個過程需要1.3小時,與整個計劃相比,時間減少了75%。

C.原始觸發器識別

當識別受感染的標籤時,我們的方法也會反向工程一個觸發器,從而導致對該標籤的錯誤分類。這裡存在一個問題,反向工程觸發器是否“匹配”原始觸發器,即攻擊者使用的觸發器。如果有一個強有力的匹配,則可以利用反向工程觸發器設計有效的緩解方案。

本文用三種方式比較這兩種觸發器。

端到端的有效性
與原始觸發器類似,反向觸發器導致高攻擊成功率,實際上高於原始觸發器。所有反向觸發器的攻擊成功率均大於97.5%,而原始觸發器的攻擊成功率大於97.0%。這並不奇怪,考慮如何使用一個優化錯誤分類的方案來推斷觸發器(第四節)。我們的檢測方法有效識別了產生同樣錯誤分類結果的最小觸發器。
視覺相似性
圖6比較了四個BadNets模型中的原始觸發器和反向觸發器(m·∆)。我們發現反向觸發器與原始觸發器大致相似。在所有情況下,反向觸發器都顯示在與原始觸發器相同的位置。然而,反向觸發器與原始觸發器之間仍然存在很小的差異。例如,在MNIST和PubFig中,反向觸發器比原始觸發器略小,缺少幾個畫素。在使用彩色影像的模型中,反向觸發器有許多非白色畫素。這些差異可歸因於兩個原因。首先,當模型被訓練以識別觸發器時,它可能無法瞭解觸發器的確切形狀和顏色。這意味著在模型中觸發後門最“有效”的方式不是原始注入觸發器,而是稍微不同的形式。其次,我們的優化目標是懲罰更大的觸發。因此,在優化過程中,觸發器中的一些冗餘畫素將被剪除,從而導致一個較小的觸發器。結合起來,整個優化過程找到了比原始觸發更“緊湊”的後門觸發器。
image.png

在兩個特洛伊木馬攻擊模型中,反向觸發器和原始觸發器之間的不匹配變得更加明顯,如圖 7所示。在這兩種情況下,反向觸發器出現在影像的不同位置,並在視覺上不同。它們至少比原來的觸發器小一個數量級,比BadNets模型要緊湊得多。結果表明,我們的優化方案在畫素空間中發現了一個更加緊湊的觸發,它可以利用同一個後門,實現類似的端到端效果。這也突出了特洛伊木馬攻擊和BadNets之間的區別。由於特洛伊木馬攻擊的目標是特定的神經元,以便將輸入觸發連線到錯誤分類的輸出,它們不能避免對其他神經元的副作用。結果是一個更廣泛的攻擊,可以引發更廣泛的觸發器,其中最小的是反向工程技術。
image.png

神經元啟用的相似性
進一步研究反向觸發器和原始觸發器的輸入在內部層是否有相似的神經元啟用。具體而言,檢查第二層到最後一層的神經元,因為這個層在輸入中編碼了相關具有代表性的模式。識別最相關的神經元后門,通過送入乾淨和對抗的影像並觀察神經元啟用在目標層(第二層到最後一層)的差異。通過測量神經元啟用程度的差異對神經元進行排序。通過經驗發現前1%的神經元是足夠注入後門,換句話說,如果保持前1%的神經元,並遮住其餘的神經元(設定為零),攻擊仍然有效。

如果由原始觸發器啟用的前1%的神經元也被反向工程觸發器啟用,而不是乾淨的輸入,就認為神經元的啟用是“相似的”。表III顯示隨機選取1000張清潔和對抗性影像時,前1%神經元的平均啟用情況。在所有情況中,對抗性影像中神經元的啟用要比清潔影像高3倍到7倍不等。以上實驗表明,當加入輸入時,反向觸發器和原始觸發器都啟用相同的後門神經元。最後,利用神經啟用作為第六部分中緩解技術後門的一種方式。

VI.後門的緩減

當檢測到後門的存在時,就需要在保持模型效能的前提下應用緩解技術移除後門。本文描述了兩種互補的技術。首先,為對抗性輸入建立一個過濾器,用於識別和拒絕任何帶有觸發器的輸入,從容修補模型。根據應用程式的不同,這種方法還可以用於為對抗性輸入分配“安全”輸出標籤,並且不會被拒絕。其次,通過修補DNN使其對檢測到的後門觸發器沒有響應。本文描述了兩種修補方法,一種是使用神經元剪枝,另一種是使用撤銷學習(Unlearning)。

A.用於檢測對抗性輸入的濾波器

在第五部分的C小節中,實驗結果表明神經元啟用是捕捉原始和逆向工程觸發器之間相似性的更好方法。因此,建立基於神經元啟用輪廓的反向觸發濾波器,可以用來測量啟用前1%的神經元是否在第二層至最後一層。當給定某些輸入時,過濾器將潛在的對抗性輸入識別為具有高於某一閾值的啟用輪廓輸入。啟用閾值可以使用乾淨輸入(已知沒有觸發器的輸入)的測試來校準。本文使用測試集的乾淨影像,通過將原始觸發器應用於測試影像(按1:1比率)來建立對抗性影像評估過濾器的效能。在為平均神經元啟用設定不同閾值時計算假陽性率(FPR)和假陰性率(FNR),其結果顯示如圖 8所示。在FPR為5%的情況下,對四種BadNets模型都實現了較高的過濾,其FNR值均小於1.63%。同時,可能由於反向觸發器和原始觸發器之間神經元啟用的差異,特洛伊木馬攻擊模型更難過濾掉。FPR小於5%時FNR較高,FPR為5%時FNR為4.3%和28.5%。最後,本文觀察了特洛伊木馬攻擊和BadNets之間選擇不同注入方法的結果。
image.png

B.神經元剪枝修復DNN

為了對感染模型進行實際修補,本文提出了兩種技術。在第一種方法中,使用反向觸發器來幫助識別DNN中後門的相關元件並刪除它們,例如神經元。本文建議從DNN中剪除後門相關的神經元,即在推理過程中將這些神經元的輸出值設為0。接著以清潔輸入和對抗性輸入之間的差異,並使用反向觸發器來對目標神經元排序。以第二層至最後一層為目標,按最高等級第一的順序修剪神經元,優先考慮那些在清潔輸入和對抗性輸入之間顯示最大啟用差距的輸入。為了最大限度地減少對清潔輸入的分類準確率的影響,當修剪的模型不再響應反向觸發器時,停止修剪。

圖 9顯示了在GTSRB中修剪不同比例神經元時的分類準確率和攻擊成功率。修剪30%的神經元可將攻擊成功率降低至0%。注意,反向觸發器的攻擊成功率遵循與原始觸發器類似的趨勢,因此可以作為接近原始觸發器防禦效果的良好訊號。同時,分類準確率僅下降了5.06%。防禦者可以通過減少攻擊成功率來實現更小的分類精度下降,如圖9所示。

需要注意一點,在第五部分的C小節中,確定了排名前1%的神經元足以導致分類錯誤。然而在這種情況下,我們必須去除近30%的神經元,以有效地減輕攻擊。這可以解釋為DNNs中神經通路存在大量的冗餘[29],即使去除了前1%的神經元,還有其他排名較低的神經元仍然可以幫助觸發後門。先前壓縮DNN的工作也注意到了該類高冗餘現象[29]。

將本文的方案應用於其他BadNets模型時,在MNIST和PubFig發現了非常相似的實驗結果,如圖21所示。當修剪10%到30%的神經元時,可以將攻擊成功率降低到0%。然而,我們觀察到YouTube人臉中的分類精度受到了更大的負面影響,如圖21所示。對於YouTube人臉,當攻擊成功率下降到1.6%時,分類準確率從97.55%下降到81.4%。這是由於第二層到最後一層只有160個輸出神經元,這意味著乾淨的神經元和對抗神經元混合在一起,從而使得乾淨的神經元在該過程中被修剪,因此降低了分類精度。本文在多個層次上進行了剪枝實驗,發現在最後一個卷積層進行剪枝會產生最好的效果。在所有四種BadNets模型中,攻擊成功率降低到小於1%,分類精度最小值降低到小於0.8%。同時,最多8%的神經元被修剪,附錄中的圖22繪製了這些詳細的實驗結果。
image.png

特洛伊木馬模型中的神經元剪枝。 在特洛伊木馬模型中,本文使用了相同的剪枝方法和配置,但剪枝效果較差。如圖10所示,當修剪30%的神經元時,反向工程觸發器的攻擊成功率下降到10.1%,但使用原始觸發器的成功率仍然很高,為87.3%,該差異是由於反向觸發器與原始觸發器之間神經元的啟用不同。如果神經元啟用在匹配反向工程觸發器和原始觸發器方面效果不理想,那麼就會導致在使用原始觸發器的攻擊中剪枝效果不佳。在下一節中將講述撤銷學習對特洛伊木馬攻擊的實驗,其效果要好得多。

優點和侷限性。 一個明顯的優點是該方法需要非常少的計算,其中大部分涉及執行乾淨和對抗影像的推斷。然而,其效能取決於選擇合適的層來修剪神經元,就需要對多個層進行實驗。另外,它對反向觸發器與原始觸發器的匹配程度具有很高的要求。

C.通過撤銷學習修補DNN

第二種緩解方法是通過撤銷學習來訓練DNN,從而取消原來的觸發器。可以使用反向觸發器來訓練受感染的神經網路並識別正確的標籤,即使在觸發器存在時也是如此。與神經元修剪相比,撤銷學習(Unlearning)允許模型通過訓練決定哪些非神經元權重是有問題的,並且應該更新。

對於包含特洛伊木馬模型在內的所有模型,使用更新的訓練資料集對模型進行微調,僅為一次全樣本訓練(Epoch)。要建立這個新的訓練集,就需要一個10%的原始訓練資料樣本(乾淨且沒有觸發器),並在不修改標籤的情況下,為該樣本的20%新增反向觸發器。為了測量修補的有效性,本文測量原始觸發器的攻擊成功率和微調模型的分類精度。

表IV比較了訓練前後的攻擊成功率和分類準確率。在所有模型中,都可以將攻擊成功率降低到小於6.70%,而不會顯著影響分類精度。分類準確率下降幅度最大的是GTSRB,僅為3.6%。在某些模型中,特別是木馬攻擊模型中,經過修補後的分類精度有了提高。注意,當注入後門時,特洛伊木馬攻擊模型的分類精度會下降,原始未受感染的木馬攻擊模型的分類準確率為77.2%(表IV中未展示),當後門被修補後,該值就得到了改善。
image.png

本文比較了這種Unlearning和兩種變體的效果。首先,針對相同的訓練樣本進行再訓練,應用原始觸發器而不是逆向工程觸發器的為20%。如表IV所示,使用原始觸發器的撤銷學習實現了具有相似分類精度的較低的攻擊成功率。因此,用反向觸發器來撤銷學習是一個很好的近似,可以用原始的方法來撤銷學習。其次,只使用乾淨的訓練資料且不使用額外的觸發器與撤銷學習進行比較。表IV最後一欄的結果表明,對所有BadNets模型來說,撤銷學習是無效的,攻擊成功率仍然很高,大於93.37%。但是對於特洛伊攻擊模型來說它是高效的,並且存在特洛伊木馬方塊和特洛伊木馬水印的成功率分別下降到10.91%和0%。該結果表明,特洛伊攻擊模型對特定神經元的高目標性重調,同時撤銷學習更為敏感。它有助於復位幾個關鍵神經元的乾淨輸入並禁用攻擊。相反,BadNets通過使用中毒資料集更新所有層來注入後門,這似乎需要更多的工作時間,以重新訓練和減輕後門。本文檢查了修復假陽性標籤的影響,在Youtube人臉和特洛伊木馬方塊(在第五部分的B小節中)修補錯誤標記的標籤,只會降低小於1%的分類精度。因此,緩解部分檢測中存在的假陽性是可以忽略其影響的。

引數和成本。 通過實驗發現,撤銷學習效能通常對引數如訓練資料量,以及修改後的訓練資料的比率不敏感。

最後,與神經元剪枝相比,撤銷學習具有更高的計算成本。然而,它仍然比從最初再訓練模型小一個到兩個數量級。本文的實驗結果表明,與替代方案相比,撤銷學習顯然提供了最佳的緩解效能。

VII.高階後門的魯棒性

先前章節描述和評估了基於基本情況假設的後門攻擊的檢測和緩解,例如,更少的觸發器,每個優先隱身,將任意輸入的錯誤分類定位到單個目標標籤中。在這裡,本文探索了許多更復雜的場景,並通過有可能的實驗評估各自防禦機制的有效性。

本文討論了5種特定型別的高階後門攻擊,每一種攻擊都挑戰當前防禦設計中的假設或限制。

複雜的觸發器。 本文的檢測方案依賴於優化過程的成功與否。更復雜的觸發器會使優化函式更難收斂嗎?
較大的觸發器。 考慮更大的觸發因素,通過增加觸發器大小,攻擊者可以強制反向工程收斂到具有較大範數的較大觸發器。
帶有不同觸發器的多種受感染標籤。 考慮這樣一種場景,針對不同標籤的多個後門插入到單個模型中,評估檢測受感染標籤的最大數量。
帶有多個觸發器的單個受感染標籤。 考慮針對同一標籤的多個觸發器。
特定於源標籤的(部分)後門。 本文的檢測方案是為了檢測在任意輸入上導致錯誤分類的觸發器。對來自源標籤子集的輸入有效的“部分”後門將更難以檢測。

A.複雜觸發模式

正如我們在特洛伊木馬模型中所觀察到的,具有更復雜圖案的觸發器其優化更難收斂。一個更隨機的觸發器圖案可能會增加反向工程觸發器的難度。

本文執行簡單的測試,首先將白色方形觸發器更改為噪聲方形,其中觸發的每個畫素都被分配一個隨機顏色。在MNIST、GTSRB、YouTube Face和PubFig中注入後門攻擊,並評估其效能。每個模型中產生的異常指數如圖11所示。本文的技術在所有情況下都檢測到複雜的觸發圖案,並在這些模型上測試了我們的緩解技術。對於過濾,在FPR為5%時,所有模型的FNR均小於0.01%。修補使用撤銷學習將攻擊成功率降低到小於4.2%,最多減少3.1%的分類準確率。最後,測試本文了GTSRB中具有不同觸發形狀(例如三角形、棋盤形狀)的後門,所有檢測和緩解技術都按預期工作進行。
image.png

B.較大的觸發器

較大的觸發器可能會產生更大的反向工程觸發。這可以幫助受感染的標籤更接近L1標準中未感染的標籤,使得異常檢測效果更差。在GTSRB上進行了樣本測試,將觸發器的大小從4×4(影像的1.6%)增加到16×16(25%),所有觸發器仍是白色方塊。本文對以往實驗中使用相同結構的檢測技術進行了評價。圖12顯示了受感染和未感染標籤的反向觸發器的L1範數。當原始觸發器變大時,反向觸發器也會像預期的那樣變大。當觸發器超過14×14時,L1範數與未感染的標籤混合,使異常指數降低到檢測閾值以下,異常指數指標如圖13所示。

最大可檢測的觸發器大小很大程度上取決於一個因素:未受感染標籤的觸發器大小(導致未感染標籤之間所有輸入錯誤分類所需的變更量)。未受感染標籤的觸發器大小本身就是測量不同標籤之間輸入差異的代理,也就是說,更多的標籤意味著未感染的標籤需要更大的觸發器尺寸,檢測較大觸發器需要更大的能力。在Youtube人臉應用程式中,檢測到整個影像高達39%的觸發器。在標記較少的MNIST上,我們只能檢測到高達18%的影像大小的觸發器。一般來說,一個更大的觸發器在視覺上更明顯,更容易被人類識別。然而,可能存在增加觸發器大小的方法,但不太明顯,在今後的工作中我們會加以探討。

C.帶有不同觸發器的多個受感染標籤

該實驗考慮的場景是攻擊者將多個獨立後門插入到單個模型中,每個後門針對的是一個不同的標籤。對於L中的許多Lt,插入大量後門可能會共同降低。這會使任何單個觸發器的影響小於異常值並且更難以檢測到淨效應。折中之處在於,模型很可能具有學習後門的“最大能力”,同時保持它們的分類。

通過產生具有相互排斥的顏色圖案的獨特觸發器來進行實驗。我們發現大多數模型,即MNIST、GTSRB和PubFig,都有足夠的能力支援每個輸出標籤的觸發器,而不影響分類的準確率。但在YouTube人臉上,有1283個標籤,一旦觸發器感染超過15.6%的標籤,平均攻擊成功率就會明顯下降。如圖 14所示,平均攻擊由於觸發因素太多,成功率下降,這也證實了我們先前的猜測。

在GTSRB中評估多個不同後門的防禦。如圖15所示,一旦超過8個標籤(18.6%)被後門感染,異常檢測就很難識別觸發器的影響。其結果表明,MNIST最多可檢測出3種標籤(30%),YouTube人臉可檢測出375種標籤(29.2%),PubFig可檢測出24種標籤(36.9%)。

儘管孤立點檢測方法在這種情況下失敗了,但底層的反向工程方法仍然有效。對於所有受感染的標籤,成功反向設計了正確的觸發。圖16顯示了受感染和未感染標籤的觸發L1規範。所有感染的標籤具有比未感染的標籤更小的範數。進一步的手工分析驗證了反向觸發器在視覺上看起來與原始觸發相似。保守的防禦者可以手動檢查反向觸發器,並確定模型的可疑性。之後的測試表明先發制人的“修補”可以成功地減少潛在的後門。當GTSRB中所有標籤都被感染時,使用反向觸發器修補所有標籤將使平均攻擊成功率降低到2.83%。主動修補也為其他模型提供了類似的好處。最後,在所有BadNets模型中,在FPR為5%時,濾波也能有效地檢測低FNR的對抗性輸入。
image.png

D.帶有多個觸發器的單個受感染標籤

考慮這樣一種情況,即多個不同的觸發器導致對同一標籤的錯誤分類。在這種情況下,本文的檢測技術可能只檢測和修補一個現有的觸發器。為此,將9個白色4×4正方形觸發器注入到GTSRB中相同的目標標籤。這些觸發器具有相同的形狀和顏色,但是位於影像的不同位置,即四個角、四個邊和中間。該攻擊對所有觸發器實現大於90%的攻擊成功率。

檢測和修補結果如圖17所示。正如先前所猜測的那樣,本文檢測技術的一次執行只識別並修補了一個注入觸發器。幸運的是,只需要執行檢測和修補演算法3次迭代,就可以將所有觸發器的成功率依次降低到小於5%。實驗還在其他MNIST、Youtube Faces和PubFig上進行了測試,所有觸發器的攻擊成功率降低到小於1%、小於5%和小於4%。

E.源標籤(部分)後門

在第二部分中,本文將後門定義為一種隱藏模式,它可能會將任意輸入從任何標籤錯誤地分類到目標標籤中。檢測方案旨在找到這些“完整”的後門,可以設計功能較弱的“部分”後門,使得觸發器僅在應用於屬於源標籤子集的輸入時觸發錯誤分類,並且在應用於其他輸入時不執行任何操作。用我們現有的方法來檢測這種後門將是一個挑戰。

檢測部分後門需要稍微修改我們的檢測方案。本文分析了所有可能的源標籤和目標標籤對,而不是對每個目標標籤進行反向工程觸發。對於每個標籤對,使用屬於源標籤的樣本來解決優化問題。由此產生的反向觸發器只對特定的標籤對有效。然後,通過對不同對的觸發器的L1範數進行比較,可以使用相同的異常值檢測方法來識別特別容易受到攻擊的標籤對,並表現為異常,通過向MNIST注入一個針對一個源標籤和目標標籤對的後門進行實驗。雖然注入後門執行良好,但更新的檢測和緩解技術都是成功的。分析所有源標籤和目標標籤對會增加檢測的計算成本,其中N表示標籤的數目。然而,可以使用分治法將計算成本降低到對數N的量級,詳細的評估將在以後的工作中實行。
image.png

VIII.相關工作

傳統的機器學習會假設環境是良性的,但對手在訓練或測試時會違反該假設。

額外的後門攻擊和防禦。 除了第二節中提到的攻擊之外,Chen等提出了一種更嚴格的攻擊模式下的後門攻擊,其中攻擊者只能汙染有限的一部分訓練集[17]。另一項工作是直接篡改DNN在文獻[30]和[31]上執行的硬體,當一個觸發器出現時,這樣的後閘電路也會改變模型的效能。

中毒攻擊。 中毒攻擊汙染了訓練資料,改變了模型的行為。不同於後門攻擊,中毒攻擊不依賴於觸發器,並在一組乾淨的樣品上改變模型的表現。對中毒攻擊的防禦主要集中在淨化訓練集和清除中毒樣本[32]、[33]、[34]、[35]、[36]、[37]。這種假設在於找到能夠顯著改變模型效能的樣本[32],而此假設已經證明了對後門攻擊的有效性較低[17],因為注入的樣本不會影響模型在乾淨樣本上的效能。同樣,在本文的攻擊模型中是不實際的,因為防禦者無法訪問中毒訓練集。

其他針對DNNs的敵對攻擊。 許多非後門的對抗性攻擊已經被提出,針對一般的DNN,通常會對影像進行潛移默化的修改,從而導致分類錯誤。在文獻[38]、[39]、[40]、[41]、[42]中,這些方法可應用於DNNs。文獻[43]、[44]、[45]、[46]、[47]已經提出了一些防禦措施,但文獻[48]、[49]、[50]、[51]已證明適應性對抗的效能較低。最近的一些工作試圖製造普遍的擾動,這將引發對未感染的DNN中的多幅影像的錯誤分類[52]、[53]。這一系列的工作考慮了不同的威脅模型,假設一個未受感染的受害者模型,這不是本文防禦的目標情景。

IX. 結論

本文的工作描述並驗證了我們在深度神經網路上抵禦後門(特洛伊木馬)攻擊的強大性和通用性,並提出了檢測和緩解工具。除了對基本的和複雜的後門防禦效果之外,本文的意外收穫之一是兩種後門注入方法之間的顯著差異:觸發器驅動的BadNets可以完全訪問模型訓練的端到端攻擊,以及神經元驅動的Trojan攻擊而不能訪問模型訓練。通過實驗,我們發現木馬攻擊注入方法通常會增加不必要的擾動,並給非目標神經元帶來不可預測的變化。這使它們的觸發器更難以逆向工程,並使它們對過濾和神經元修剪更具抵抗力。但是,折衷方案是它們對特定神經元的關注使它們對撤銷學習的緩解作用極為敏感。相反,BadNets向神經元引入了更可預測的變化,並且可以通過神經元修剪更容易地進行逆向工程、過濾和緩解。

最後,雖然本文的結果對不同應用程式中的一系列攻擊都是健壯的,但仍然存在侷限性。首先是超越當前視覺領域的泛化問題。我們對檢測及緩解方法的高度猜想和設計可以概括為:檢測的設想是受感染的標籤比未受感染的標籤更易受攻擊,並且這應該是域無關的。使整個管道適應非視覺領域的主要挑戰是制定後門攻擊過程,並設計一個度量標準,以衡量特定標籤的脆弱性(如公式2和公式3)。其次,攻擊者的潛在對策措施的空間可能很大。本文研究了5種針對我們防禦的不同組成部分/假設的不同對策,但是對其他潛在對策的進一步探索仍然是未來工作的一部分。

點選關注,第一時間瞭解華為雲新鮮技術~

相關文章