避免自動駕駛事故,CV領域如何檢測物理攻擊?

机器之心發表於2022-01-10
對抗性攻擊的概念首先由 Goodfellow 等人提出 [6],近年來,這一問題引起了越來越多研究人員的關注,對抗性攻擊的方法也逐漸從演算法領域進入到物理世界,出現了物理對抗性攻擊。文獻[1] 中首次提出了利用掩模方法將對抗性擾動集中到一個小區域,並對帶有塗鴉的真實交通標誌實施物理攻擊。與基於噪聲的對抗性攻擊相比,物理攻擊降低了攻擊難度,進一步損害了深度學習技術的實用性和可靠性。

我們都知道,深度學習系統在計算機視覺、語音等多媒體任務上都取得了非常好的效果,在一些應用場景中甚至獲得了可以與人類相媲美的效能。基於這些成功的研究基礎,越來越多的深度學習系統被應用於汽車、無人機和機器人等物理系統的控制。但是,隨著物理攻擊方法的出現,這些對視覺、語音等多媒體資訊輸入進行的篡改會導致系統出現錯誤行為,進而造成嚴重的後果。本文重點關注的就是針對多媒體領域的深度學習系統的物理攻擊問題。

以 [1] 中給出的針對視覺領域的攻擊為例,透過向輸入資料注入特定的擾動,對抗性攻擊可以誤導深度學習系統的識別結果。透過物理攻擊性方法,對抗性擾動可以集中到一個小區域並附著在真實物體上,這很容易威脅到物理世界中的深度學習識別系統。圖 1 給出一個應對物理攻擊的實際案例。圖 1 中左圖顯示了一個關於交通標誌檢測的物理對抗樣本。當在原始停車標誌上附加一個對抗補丁時,交通標誌檢測系統將被誤導輸出限速標誌的錯誤識別結果。圖 1 右圖展示了交通標誌對抗性攻擊的自我驗證過程。對於每張輸入影像,經過一次 CNN 推理後,驗證階段將定位重要的啟用源(綠圈),並根據預測結果計算出輸入語義與預期語義模式的不一致性(右圈)。一旦不一致性超過預定的閾值,CNN 將進行資料恢復過程以恢復輸入影像。關於這一過程,我們會在後面詳細解釋。

圖片

圖 1. 交通標誌的物理對抗性攻擊[2]

圖 2 給出一個典型的音訊識別過程和相應的物理對抗性攻擊。首先,提取音訊波形的梅爾倒譜系數 MeI-Freguency CeptraI Coefficients (MFCC) 特徵。然後利用 CNN 來實現聲學特徵識別,從而獲得候選音素。最後,應用詞庫和語言模型得到識別結果 "open"。將對抗性噪聲注入到原始輸入波形中時,最終的識別結果會被誤導為 "close"。

圖片

圖 2. 音訊識別和物理對抗性攻擊過程

我們在這篇文章中結合三篇最新的論文具體討論計算機視覺領域中的物理攻擊及檢測方法,包括視覺領域和音訊領域。首先,我們介紹 Kevin Eykholt 等在 CVPR  2018 上發表的關於生成魯棒物理攻擊的工作,其主要目的是生成對觀察攝像機的距離和角度的巨大變化具有很強的適應性的物理擾動攻擊。然後,第二篇論文提出了一個針對影像和音訊識別應用的物理對抗性攻擊的 CNN 防禦方法。最後,第三篇文章聚焦於影像的區域性物理攻擊問題,即將對手區域限制在影像的一小部分,例如 “對手補丁” 攻擊:

  • Robust Physical-World Attacks on Deep Learning Visual Classification,CVPR 2018

  • LanCe: A Comprehensive and Lightweight CNN Defense Methodology against Physical Adversarial Attacks on Embedded Multimedia Applications,ASP-DAC 2020

  • Chou E , F Tramèr, Pellegrino G . SentiNet: Detecting Physical Attacks Against Deep Learning Systems. PrePrint 2020. https://arxiv.org/abs/1812.00292


1、針對深度學習視覺分類任務的魯棒物理攻擊[1]

圖片


這篇文章重點關注的是如何對計算機視覺任務的深度學習方法進行魯棒的物理攻擊,是從攻擊角度進行的分析。作者具體選擇了道路標誌分類作為目標研究領域。

生成魯棒的物理攻擊所面臨的的主要挑戰是環境變異性。對於本文選擇的應用領域,動態環境變化具體是指觀察攝像機的距離和角度。此外,生成物理攻擊還存在其他實用性的挑戰:(1) 數字世界的擾動幅度可能非常小,由於感測器的不完善,相機很可能無法感知它們。(2)構建能夠修改背景的魯棒性攻擊是非常困難的,因為真實的物體取決於視角的不同可以有不同的背景。(3)具體制造攻擊的過程(如擾動的列印)是不完善的。在上述挑戰的啟發下,本文提出了 Robust Physical Perturbations(RP2)--- 一種可以產生對觀察攝像機的廣泛變化的距離和角度魯棒的擾動方法。本文目標是從攻擊角度進行研究,探討是否能夠針對現實世界中的物體建立強大的物理擾動,使得即使是在一系列不同的物理條件下拍攝的影像,也會誤導分類器做出錯誤的預測。

1.1 物理世界的挑戰

對物體的物理攻擊必須能夠在不斷變化的條件下存在,並能有效地欺騙分類器。本文具體圍繞所選擇的道路標誌分類的例子來討論這些條件。本文的研究內容可以應用於自動駕駛汽車和其他安全敏感領域,而本文分析的這些條件的子集也可以適用於其他型別的物理學習系統,例如無人機和機器人。

為了成功地對深度學習分類器進行物理攻擊,攻擊者應該考慮到下述幾類可能會降低擾動效果的物理世界變化。
環境條件。自主車輛上的攝像頭與路標的距離和角度不斷變化。獲取到的被送入分類器的影像是在不同的距離和角度拍攝的。因此,攻擊者在路標上新增的任何擾動都必須能夠抵抗影像的這些轉換。除角度和距離外,其他環境因素還包括照明 / 天氣條件的變化以及相機上或路標上存在的碎片。
空間限制。目前專注於數字影像的演算法會將對抗性擾動新增到影像的所有部分,包括背景影像。然而,對於實體路牌,攻擊者並不能操縱背景影像。此外,攻擊者也不能指望有一個固定的背景影像,因為背景影像會根據觀看攝像機的距離和角度而變化。
不易察覺性的物理限制。目前對抗性深度學習演算法的一個優點是,它們對數字影像的擾動往往非常小,以至於人類觀察者幾乎無法察覺。然而,當把這種微小的擾動遷移到現實世界時,我們必須確保攝像機能夠感知這些擾動。因此,對不可察覺的擾動是有物理限制的,並且取決於感測硬體。
製造誤差。為了實際製造出計算得到的擾動,所有的擾動值都必須是可以在現實世界中複製實現的。此外,即使一個製造裝置,如印表機,確實能夠產生某些顏色,但也會有一些複製誤差。

1.2 生成魯棒的物理擾動

作者首先分析不考慮其它物理條件的情況下生成單一影像擾動的最佳化方法,然後再考慮在出現上述物理世界挑戰的情況下如何改進演算法以生成魯棒的物理擾動。

單一影像最佳化問題表述為:在輸入 x 中加入擾動δ,使擾動後的例項 x’=x+δ能夠被目標分類器 f_θ(·)錯誤分類:

圖片


其中,H 為選定的距離函式,y * 為目標類別。為了有效解決上述約束性最佳化問題,作者利用拉格朗日鬆弛形式重新表述上式:

圖片


其中,J(·,·)為損失函式,其作用是衡量模型的預測和目標類別標籤 y * 之間的差異。λ為超引數,用於控制失真的正則化水平。作者將距離函式 H 表徵為 ||δ||_p,即δ的 Lp 範數。

接下來,作者具體討論如何修改目標函式以考慮物理環境條件的影響。首先,對包含目標物件 o 的影像在物理和數字變換下的分佈進行建模 X^V 。我們從 X^V 中抽出不同的例項 x_i。一個物理擾動只能新增到 x_i 中的特定物件 o。具體到路標分類任務中,我們計劃控制的物件 o 是停車標誌。

為了更好地捕捉變化的物理條件的影響,作者透過生成包含實際物理條件變化的實驗資料以及合成轉換,從 X^V 中對例項 x_i 進行取樣。圖 3 中給出了以道路標識為例的魯棒物理攻擊(Robust Physical Perturbations ,RP2)過程示例。

圖片

圖 3. RP2 示例。輸入一個目標停止標誌。RP2 從一個模擬物理動態的分佈中取樣(在本例中是不同的距離和角度),並使用一個掩模將計算出的擾動投射到一個類似於塗鴉的形狀上。攻擊者列印出所產生的擾動,並將其貼在目標停止標誌上。

本文所討論的道路標誌的物理條件涉及在各種條件下拍攝道路標誌的影像,如改變距離、角度和光照等。而對於合成轉換,作者隨機裁剪影像中的物體,改變其亮度,並增加空間變換以模擬其他可能的條件。為了確保擾動只適用於目標物件的表面區域 o(考慮到空間限制和對不可知性的物理限制),作者引入了一個掩模。該掩模的作用是將計算出的擾動投射到物體表面的一個物理區域(如路標)。除了實現空間定位外,掩模還有助於生成對人類觀察者來說可見但不明顯的擾動。為了做到這一點,攻擊者可以將掩模塑造得像一個塗鴉—- 一種在大街上很常見的破壞行為。從形式上看,將擾動掩模表徵為一個矩陣 M_x,其尺寸與路標分類器的輸入尺寸相同。M_x 在沒有新增擾動的區域為“0”,在最佳化期間新增擾動的區域中為“1”。作者表示,在他們進行實驗的過程中發現掩模的位置對攻擊的有效性是有影響的。因此,作者假設,從分類的角度來看物體的物理特徵有強有弱,因此,可以將掩模定位在攻擊薄弱的地方。具體來說,作者使用下述方法來發現掩模位置。(1) 使用 L1 正則化計算擾動,並使用佔據整個道路標誌表面區域的掩模。L1 使最佳化器傾向於稀疏的擾動向量,因此將擾動集中在最脆弱的區域。對所產生的擾動進行視覺化處理,為掩模的放置位置提供指導。(2) 使用 L2 重新計算擾動,並將掩模定位在先前步驟中確定的脆弱區域上。

考慮到在實際應用中會存在製造誤差,作者在目標函式中增加了一個額外的項,該項用來模擬印表機的顏色複製誤差。給定一組可列印的顏色(RGB 三元組)P 和一組在擾動中使用的、需要在物理世界中列印出來的(唯一的)RGB 三元組 R(δ),利用下式計算不可列印性得分 non-printability score (NPS):

圖片


基於上述討論,本文最終的魯棒空間約束擾動最佳化為:

圖片


這裡我們用函式 T_i( )來表示對齊函式,它將物體上的變換對映到擾動的變換上。

最後,攻擊者列印出最佳化結果,剪下擾動(M_x),並將其放到目標物件 o 上。

1.3 實驗分析

實驗構建了兩個用於路標分類的分類器,執行的是標準的裁剪 - 重新確定大小 - 分類的任務流程。第一個分類器 LISA-CNN 對應的實驗訓練影像來自於 LISA,一個包含 47 個不同道路標誌的美國交通標誌資料集。不過,這個資料集並不平衡,導致不同標誌的表述有很大差異。為了應對這個問題,作者根據訓練例項的數量,選擇了 17 個最常見的標誌。實驗中使用的深度學習 LISA-CNN 的架構由三個卷積層和一個 FC 層組成。它在測試集上的準確度為 91%。

第二個分類器是 GTSRB-CNN,它是在德國交通標誌識別基準(GTSRB)上訓練得到的。深度學習方法使用了一個公開的多尺度 CNN 架構,該架構在路標識別方面表現良好。由於作者在實際實驗中無法獲得德國的停車標誌,因此使用 LISA 中的美國停車標誌影像替換了 GTSRB 的訓練、驗證和測試集中的德國停車標誌。GTSRB-CNN 在測試集上準確度為 95.7%。當在作者自己構建的 181 個停車標誌影像上評估 GTSRB-CNN 時,它的準確度為 99.4%。

作者表示,據他所知,目前還沒有評估物理對抗性擾動的標準化方法。在本實驗中,作者主要考慮角度和距離因素,因為它們是本文所選的用例中變化最快的元素。靠近標誌的車輛上的相機以固定的時間間隔拍攝一系列影像。這些影像的拍攝角度和距離不同,因此可以改變任何特定影像中的細節數量。任何成功的物理擾動必須能夠在一定的距離和角度範圍內引起有針對性的錯誤分類,因為車輛在發出控制器動作之前,可能會對影片中的一組幀(影像)進行投票確定。在該實驗中沒有明確控制環境光線,從實驗資料可以看出,照明從室內照明到室外照明都有變化。本文實驗設計借鑑物理科學的標準做法,將上述物理因素囊括在一個由受控的實驗室測試和現場測試組成的兩階段評估中。

靜態(實驗室)測試。主要涉及從靜止的、固定的位置對物體的影像進行分類。

1. 獲得一組乾淨的影像 C 和一組在不同距離、不同角度的對抗性擾動影像。使用 c^(d,g)表示從距離 d 和角度 g 拍攝的影像。攝像機的垂直高度應保持大致不變。當汽車轉彎、改變車道或沿著彎曲的道路行駛時,攝像機相對於標誌的角度通常會發生變化。
2. 用以下公式計算物理擾動的攻擊成功率:

圖片


其中,d 和 g 表示影像的相機距離和角度,y 是地面真值,y 是目標攻擊類別。

注意,只有當具有相同相機距離和角度的原始影像 c 能夠正確分類時,引起錯誤分類的影像 A(c)才被認為是成功的攻擊,這就確保了錯誤分類是由新增的擾動而不是其他因素引起的。

駕車(現場)測試。作者在一個移動的平臺上放置一個攝像頭,並在真實的駕駛速度下獲取資料。在本文實驗中,作者使用的是一個安裝在汽車上的智慧手機攝像頭。

1. 在距離標誌約 250 英尺處開始錄製影片。實驗中的駕駛軌道是直的,沒有彎道。以正常的駕駛速度駛向標誌,一旦車輛透過標誌就停止記錄。實驗中,速度在 0 英里 / 小時和 20 英里 / 小時之間變化。這模擬了人類司機在大城市中接近標誌的情況。
2. 對 "Clean" 標誌和施加了擾動的標誌按上述方法進行錄影,然後應用公式計算攻擊成功率,這裡的 C 代表取樣的幀。

由於效能限制,自主車輛可能不會對每一幀進行分類,而是對每 j 個幀進行分類,然後進行簡單的多數投票。因此,我們面臨的問題是確定幀(j)的選擇是否會影響攻擊的準確性。在本文實驗中使用 j = 10,此外,作者還嘗試了 j=15。作者表示,這兩種取值情況下沒有觀察到攻擊成功率的任何明顯變化。作者推斷,如果這兩種型別的測試都能產生較高的成功率,那麼在汽車常見的物理條件下,該攻擊很可能是成功的。

1.3.1 LISA-CNN 的實驗結果

作者透過在 LISA-CNN 上生成三種型別的對抗性示例來評估演算法的有效性(測試集上準確度為 91%)。表 1 給出了實驗中用到的靜止的攻擊影像的樣本示例。

圖片

表 1. 針對 LISA-CNN 和 GTSRB-CNN 的物理對抗性樣本示例

物件受限的海報列印攻擊(Object-Constrained Poster-Printing Attacks)。實驗室使用的是 Kurakin 等人提出的攻擊方法[4]。這兩種攻擊方法的關鍵區別在於,在本文攻擊中,擾動被限制在標誌的表面區域,不包括背景,並且對大角度和距離的變化具有魯棒性。根據本文的評估方法,在實驗 100% 的影像中停車標誌都被錯誤地歸類為攻擊的目標類別(限速 45)。預測被操縱的標誌為目標類別的平均置信度為 80.51%(表 2 的第二列)。

貼紙攻擊(Sticker Attacks),作者還展示了透過將修改限制在類似塗鴉或藝術效果的區域中,以貼紙的形式產生物理擾動的有效性。表 1 的第四列和第五列給出了這類影像樣本,表 2(第四列和第六列)給出了實驗成功率與置信度。在靜止狀態下,塗鴉貼紙攻擊達到了 66.67% 的定向攻擊成功率,偽裝藝術效果貼紙攻擊則達到了 100% 的定向攻擊成功率。

圖片

表 2. 在 LISA-CNN 上使用海報印刷的停車標誌牌(微小攻擊)和真正的停車標誌牌(偽裝的塗鴉攻擊,偽裝的藝術效果攻擊)的有針對性的物理擾動實驗結果。對於每幅影像,都顯示了前兩個標籤和它們相關的置信度值。錯誤分類的目標是限速 45。圖例:SL45 = 限速 45,STP = 停車,YLD = 讓步,ADL = 增加車道,SA = 前方訊號,LE = 車道盡頭

作者還對停車標誌的擾動進行了駕車測試。在基線測試中,從一輛行駛中的車輛上記錄了兩段清潔停車標誌的連續影片,在 k = 10 時進行幀抓取,並裁剪標誌。此時,所有幀中的停止標誌都能夠正確分類。同樣用 k=10 來測試 LISA-CNN 的擾動。本文攻擊對海報攻擊實現了 100% 的目標攻擊成功率,而對偽裝抽象藝術效果攻擊的目標攻擊成功率為 84.8%。見表 3。

圖片

表 3. LISA-CNN 的駕車測試總結。在基線測試中,所有的幀都被正確地分類為停車標誌。在所有的攻擊案例中,擾動情況與表 2 相同。手動新增了黃色方框進行視覺提示。

1.3.2 GTSRB-CNN 的實驗結果

為了展示本文所提出的攻擊演算法的多功能性,作者為 GTSRB-CNN 建立並測試了攻擊效能(測試集上準確度為 95.7%)。表 1 中最後一列為樣本影像。表 4 給出了攻擊結果—在 80% 的靜止測試條件下,本文提出的攻擊使分類器相信停止標誌是限速 80 的標誌。根據本文評估方法,作者還進行了駕車測試(k=10,兩個連續的影片記錄),最終攻擊在 87.5% 的時間裡成功欺騙了分類器。

圖片

表 4. 對 GTSRB-CNN 的偽裝藝術效果攻擊。有針對性的攻擊成功率為 80%(真實類別標籤:停止,目標:限速 80)

1.3.3 Inception v3 的實驗結果

最後,為了證明 RP2 的通用性,作者使用兩個不同的物體,一個微波爐和一個咖啡杯,計算了標準 Inception-v3 分類器的物理擾動情況。作者選擇了貼紙攻擊方法,因為使用海報攻擊方法為物體列印一個全新的表面很容易引起人的懷疑。由於杯子和微波爐的尺寸比路標小,作者減少了使用的距離範圍(例如,咖啡杯高度 - 11.2 釐米,微波爐高度 - 24 釐米,右轉標誌高度 - 45 釐米,停止標誌 - 76 釐米)。表 5 給出了對微波爐的攻擊結果,表 6 則給出了對咖啡杯的攻擊結果。對於微波爐,目標攻擊的成功率是 90%。對於咖啡杯,目標攻擊成功率為 71.4%,非目標成功率為 100%。

圖片

表 5. 對 Inception-v3 分類器的貼紙擾動攻擊。原始分類是微波,攻擊目標是電話

圖片

表 6. 對 Inception-v3 分類器的貼紙擾動攻擊。原始分類是咖啡杯,攻擊目標是提款機

1.3.4 討論 

黑盒攻擊。考慮到對目標分類器的網路結構和模型權重的訪問,RP2 可以產生各種強大的物理擾動來欺騙分類器。透過研究像 RP2 這樣的白盒攻擊,我們可以分析使用最強攻擊者模型的成功攻擊的要求,並更好地指導未來的防禦措施。在黑盒環境下評估 RP2 是一個開放的問題。

影像裁剪和攻擊性檢測器。在評估 RP2 時,作者每次在分類前都會手動控制每個影像的裁剪。這樣做是為了使對抗性影像與提供給 RP2 的清潔標誌影像相匹配。隨後,作者評估了使用偽隨機裁剪的偽裝藝術效果攻擊,以保證至少大部分標誌在影像中。針對 LISA-CNN,我們觀察到平均目標攻擊率為 70%,非目標攻擊率為 90%。針對 GTSRB-CNN,我們觀察到平均目標攻擊率為 60%,非目標攻擊率為 100%。作者在實驗中考慮非目標攻擊的成功率,是因為導致分類器不輸出正確的交通標誌標籤仍然是一種安全風險。雖然影像裁剪對目標攻擊的成功率有一定的影響,但作者在其它工作中的研究結果表明,RP2 的改進版可以成功地攻擊物體檢測器,在這種情況下就不需要再進行裁剪處理了[5]。

2、LanCe: 針對嵌入式多媒體應用的物理對抗性攻擊的全面和輕量級 CNN 防禦方法[2]

圖片


與關注 “攻擊” 的上一篇文章不同,這篇文章關注的是“防禦”。本文提出了:LanCe—一種全面和輕量級的 CNN 防禦方法,以應對不同的物理對抗性攻擊。透過分析和論證 CNN 存在的漏洞,作者揭示了 CNN 的決策過程缺乏必要的 * 定性語義辨別能力 *(qualitative semantics distinguishing ability):輸入的非語義模式可以顯著啟用 CNN 並壓倒輸入中的其它語義模式,其中,語義模式是指表示語句成分之間的語義關係的抽象格式,而非語義模式是指不包含任何語義關係資訊的抽象格式。利用對抗性攻擊的特徵不一致性,作者增加了一個自我驗證階段來改進 CNN 的識別過程。回顧圖 1,對於每張輸入影像,經過一次 CNN 推理後,驗證階段將定位重要的啟用源(綠圈),並根據預測結果計算出輸入語義與預期語義模式的不一致性(右圈)。一旦不一致性值超過預定的閾值,CNN 將進行資料恢復過程以恢復輸入影像。我們的防禦方法涉及最小的計算元件,可以擴充套件到基於 CNN 的影像和音訊識別場景。

2.1 對抗性攻擊分析和防禦的解釋

2.1.1 CNN 漏洞解讀

解釋和假設。在一個典型的影像或音訊識別過程中,CNN 從原始輸入資料中提取特徵並得出預測結果。然而,當向原始資料注入物理對抗性擾動時,CNN 將被誤匯出一個錯誤的預測結果。為了更好地解釋這個漏洞,作者以一個典型的影像物理對抗性攻擊—對抗性補丁攻擊為例進行分析。

在圖 1 中,透過與原始輸入的比較,我們發現一個對抗性補丁通常在顏色 / 形狀等方面沒有限制約束。這樣的補丁通常會犧牲語義結構,從而導致明顯的異常啟用,並壓倒其他輸入模式的啟用。因此,作者提出了一個假設:CNN 缺乏定性的語義辨別能力,在 CNN 推理過程中可以被非語義的對抗性補丁啟用。

假設驗證。根據上述假設,輸入的非語義模式會導致異常的啟用,而輸入的語義模式會產生正常的啟用。作者提出透過調查 CNN 中每個神經元的語義來評估這種差異,並引入一種視覺化的 * CNN 語義分析方法—啟用最大化視覺化 *(Activation Maximization Visualization,AM)。AM 可以生成一個 pattern,將每個神經元最活躍的語義輸入視覺化。圖案 V((N_i)^l)的生成過程可以被看作是向 CNN 模型合成一個輸入影像,使第 l 層中的第 i 個神經元(N_i)^l 的啟用度最大化。該過程可以表徵為:

圖片


其中,(A_i)^l(X)為輸入影像 X 的(N_i)^l 的啟用,(A_i)^l 表徵第 l 層的第 i 個神經元對應的啟用,(N_i)^l 為第 l 層的第 i 個神經元,η為梯度下降步長。

圖 4 展示了使用 AM 的視覺化輸入的語義模式。由於原始的 AM 方法是為語義解釋而設計的,在生成可解釋的視覺化模式時,涉及許多特徵規定和手工設計的自然影像參考。因此,我們可以得到圖 4(a)中平均啟用幅度值為 3.5 的三個 AM 模式。這三種模式中的物件表明它們有明確的語義。然而,當我們在 AM 過程中去除這些語義規定時,我們得到了三種不同的視覺化 patterns,如圖 4(b)所示。我們可以發現,這三個 patterns 是非語義性的,但它們有明顯的異常啟用,平均幅值為 110。這一現象可以證明作者的假設,即 * CNN 神經元缺乏語義辨別能力,可以被輸入的非語義模式顯著啟用 *。

圖片

圖 4. 透過啟用最大化視覺化神經元的輸入模式

2.1.2 輸入語義和預測啟用的不一致性度量

不一致性識別。為了識別用於攻擊檢測的輸入的非語義模式,我們透過比較自然影像識別和物理對抗性攻擊,檢查其在 CNN 推理過程中的影響。圖 5 展示了一個典型的基於對抗性補丁的物理攻擊。左邊圓圈中的圖案是來自輸入影像的主要啟用源,右邊的條形圖是最後一個卷積層中的神經元的啟用。從輸入模式中我們識別出原始影像中的對抗性補丁和主要啟用源之間的顯著差異,稱為輸入語義不一致(Input Semantic Inconsistency)。從預測啟用量級方面,我們觀察到對抗性輸入和原始輸入之間的另一個區別,即預測啟用不一致(Prediction Activation Inconsistency)

圖片

圖 5. 影像對抗性補丁攻擊

不一致性度量的表述。作者進一步定義兩個指標來表述上述兩個不一致的程度。

1)輸入語義不一致度量:該度量用於衡量非語義對抗性補丁與自然影像的語義區域性輸入模式之間的輸入語義不一致性。具體定義為:

圖片


其中,P_pra 和 P_ori 分別代表來自對抗性輸入和原始輸入的輸入模式(input patterns)。Φ:(A_i)^l(p)和Φ:(A_i)^l(o)分別表徵由對抗性補丁和原始輸入產生的神經元啟用的集合。R 將神經元的啟用對映到主要的區域性輸入模式。S 代表相似性指標。

2)預測啟用不一致度量:第二個不一致度量指標是在啟用層面上,它用於衡量最後一個卷積層中對抗性輸入和原始輸入之間的啟用幅度分佈的不一致性。我們也使用一個類似的指標來衡量,具體如下:

圖片


其中,f_pra 和 I_ori 分別代表最後一個卷積層中由對抗性輸入和原始輸入資料產生的啟用的幅度分佈。

對於上述兩個不一致度量中使用到的資訊,我們可以很容易地得到 P_pra 和 f_pra,因為它們來自於輸入資料。然而,由於自然輸入資料的多樣性,P_ori 和 f_ori 並不容易得到。因此,我們需要合成能夠提供輸入的語義模式和啟用量級分佈的標準輸入資料。可以從標準資料集中獲得每個預測類別的合成輸入資料,以及,透過向 CNN 輸入一定數量的標準資料集,我們可以記錄最後一個卷積層的平均啟用幅度分佈。此外,我們可以定位每個預測類別的主要輸入的語義模式。

2.1.3 基於 CNN 自我驗證和資料恢復的物理對抗性攻擊防禦

上述兩個不一致展示了物理對抗性攻擊和自然影像識別之間的區別,即輸入模式和預測啟用。透過利用不一致性指標,作者提出了一種防禦方法,其中包括 CNN 決策過程中的自我驗證和資料恢復。具體來說,整個方法流程描述如下。

自我驗證。(1)首先將輸入項輸入到 CNN 推理中,獲得預測類別結果。(2) 接下來,CNN 可以從實際輸入中定位主要啟用源,並在最後一個卷積層中獲得啟用。(3)然後,CNN 利用所提出的指標來衡量實際輸入與預測類別的合成資料之間的兩個不一致指標。(4) 一旦任何一個不一致指標超過了給定的閾值,CNN 將認為該輸入是一個對抗性輸入。

資料恢復。(5) 在自我驗證階段檢測到物理對抗性攻擊後,進一步應用資料恢復方法來恢復被攻擊的輸入資料。具體來說,作者利用影像修復和啟用去噪方法分別來恢復輸入的影像和音訊。

2.2 對影像物理對抗攻擊的防禦

2.2.1 影像場景中的防禦過程

主要啟用模式定位。對於影像物理對抗性攻擊的防禦,主要依賴於輸入模式層面的輸入語義不一致。因此,作者採用 CNN 啟用視覺化方法—類別啟用對映(Class Activation Mapping,CAM)來定位輸入影像的主要啟用源 [8]。令 A_k(x, y) 表示在空間位置 (x, y) 的最後一個卷積層的第 k 個啟用值。我們可以計算出最後一個卷積層中空間位置 (x, y) 的所有啟用的總和,即:

圖片


其中,K 是最後一個卷積層中啟用的總數。A_T(x, y)的值越大,表明輸入影像中相應空間位置 (x, y) 的啟用源對分類結果越重要。

不一致推導。根據初步分析,輸入的對抗性補丁比自然輸入的語義模式包含更多的高頻資訊。因此,作者用一系列的變換來轉換這些 patterns,如圖 6 所示。經過二維快速傅立葉變換(2D-FFT)和二進位制轉換,我們可以觀察到對抗性輸入和語義合成輸入之間的顯著差異。

圖片

圖 6.  二維快速傅立葉變換後的結果

作者將 S(I_pra, I_ori)替換為 Jaccard 相似性係數(Jaccard Similarity Coefficient,JSC),並提出如下影像不一致性指標:

圖片


其中,I_exp 是具有預測類別的合成語義模式,P_pra ∩ P_exp 為 P_pra 和 P_exp 的畫素值都等於 1 的畫素數。基於上述不一致性指標,作者提出了具體的防禦方法,包括自我驗證和影像恢復兩個階段。整個過程在圖 7 中描述。

圖片

圖 7. 對抗性補丁攻擊防禦

檢測的自我驗證。在自我驗證階段,應用 CAM 來定位每個輸入影像中最大模型啟用的源頭位置。然後對影像進行裁剪,以獲得具有最大啟用度的 pattern。在語義測試期間,計算 I_pra 和 I_exp 之間的不一致性。如果該不一致性指標高於預定義的閾值,我們認為檢測到了一個對抗性輸入。

影像的資料恢復。檢測到對抗性補丁後,透過直接從原始輸入資料中刪除補丁的方式來進行影像資料恢復。在該案例中,為了確保輕量級的計算工作量,作者利用最近鄰插值 --- 一種簡單而有效的影像插值技術來修復影像並消除攻擊效果。具體來說,對於對抗性補丁中的每個畫素,利用該畫素周圍八個畫素的平均值取代該畫素。插值處理後,將恢復的影像反饋給 CNN,再次進行預測。透過以上步驟,我們可以在 CNN 推理過程中保護影像的物理對抗性攻擊。

2.3 對音訊物理對抗攻擊的防禦

不一致推導:作者利用預測啟用的不一致性來檢測音訊中的物理對抗性攻擊,即,衡量預測類別相同的實際輸入和合成資料之間的啟用幅度分佈不一致性指標。作者利用皮爾遜相關係數(Pearson Correlation Coefficient,PCC)定義不一致度量如下:

圖片


其中,I_pra 和 I_exp 分別代表最後一個卷積層對實際輸入和合成輸入的啟用。μ_a 和μ_o 表示 f_pre 和 f_exp 的平均值,σ_pra 和σ_exp 是標準差,E 表示總體期望值。

自我驗證的檢測。進一步的,將自我驗證應用於 CNN 的音訊物理對抗性攻擊。首先,透過用標準資料集測試 CNN,獲得最後一個卷積層中每個可能的輸入詞的啟用值。然後,計算不一致度量指標 D(I_pra, I_exp)。如果模型受到對抗性攻擊,D(I_pra, I_exp)會大於預先定義的閾值。作者表示,根據他們用各種攻擊進行的初步實驗,對抗性輸入的 D(I_pra, I_exp)通常大於 0.18,而自然輸入的 D(I_pra, I_exp)通常小於 0.1。因此,存在一個很大的閾值範圍來區分自然和對抗性的輸入音訊,這可以有利於我們的準確檢測。

音訊資料恢復。在確定了對抗性的輸入音訊後,對這部分音訊進行資料恢復以滿足後續應用的需要。作者提出了一個新的解決方案—"啟用去噪" 作為音訊資料的防禦方法,其目標是從啟用層面消除對抗性影響。啟用去噪利用了上述最後一層的啟用模式,這些模式與確定的預測標籤有穩定的關聯性。對抗性音訊資料恢復方法如圖 8 所示。基於檢測結果,我們可以識別錯誤的預測標籤,並在最後一層獲得錯誤類別的標準啟用模式。然後我們可以找到具有相同索引的啟用。這些啟用最可能是由對抗性噪聲引起的,並取代了原始啟用。因此,透過壓制這些啟用就可以恢復原始啟用。

圖片

圖 8. 音訊對抗性攻擊防禦

2.4 實驗分析

2.4.1 影像場景

在本文實驗中,作者使用 Inception-V3 作為基礎模型生成對抗性補丁,然後利用由此生成的高遷移性的補丁攻擊兩個 CNN 模型:VGG-16 和 ResNet-18。然後將本文提出的防禦方法應用於所有三個模型,並測試其檢測和恢復的成功率。實驗中的基準方法是 Patch Masking,這是一種最先進的防禦方法[7]。不一致性的閾值設為 0.46。

表 7 給出了總體檢測和影像恢復效能。在所有三個模型上,LanCe 的檢測成功率始終高於 Patch Masking。進一步,本文提出的影像恢復方法可以幫助糾正預測,在不同的模型上獲得了 80.3%~82% 的準確度改進,而 Patch Masking 的改進僅為 78.2% ~79.5%。

圖片

表 7. 影像對抗性補丁攻擊防禦評估

2.4.2 音訊場景

對於音訊場景,作者在谷歌語音命令資料集上使用命令分類模型(Command Classification Model)進行實驗。對抗性檢測的不一致性閾值是透過網格搜尋得到的,在本實驗中設定為 0.11。作為比較,作者重新實現了另外兩種最先進的防禦方法:Dependency Detection [8]和 Multiversion[9]。

LanCe 對所有的音訊物理對抗性攻擊都能達到 92% 以上的檢測成功率。相比之下,Dependency Detection 平均達到 89% 的檢測成功率,而 Multiversion 的平均檢測成功率只有 74%。然後,作者評估了 LanCe 的恢復效能。TOP-K 指數中的 K 值被設定為 6。由於 Multiversion[9]不能用於恢復,作者重新實現了另一種方法 Noise Flooding[10]作為比較。作者使用沒有資料恢復的原始 CNN 模型作為基線方法。

表 8 給出了整體的音訊恢復效能評估。應用本文提出的恢復方法 LanCe 後,預測準確率明顯提高,從平均 8% 提高到了平均 85.8%,即恢復準確率為 77.8%。Dependency Detection 和 Noise Flooding 的平均準確率都較低,分別為 74% 和 54%。

圖片

表 8. 音訊對抗性攻擊資料恢復評估

3、SentiNet:針對深度學習系統的物理攻擊檢測[3]

圖片


這篇文章重點關注的是影像處理領域的物理攻擊檢測問題,具體是指標對影像的區域性物理攻擊,即將對手區域限制在影像的一小部分,生成 “對抗性補丁” 攻擊。這種區域性限制有利於設計魯棒的且物理上可實現的攻擊,具體攻擊形式可以是放置在視覺場景中的對手物件或貼紙。反過來,這些型別的攻擊通常使用無界擾動來確保攻擊對角度、照明和其他物理條件的變化具有魯棒性。區域性物理攻擊的一個缺點是,它們通常是肉眼可見和可檢測的,但在許多情況下,攻擊者仍然可以透過在自主環境中部署或偽裝這些方式來逃避檢測。

圖 9 給出一個深度學習系統示例,該系統為人臉識別系統,其作用是解鎖移動裝置或讓使用者進入建築物。場景包括了使用者的臉和其他背景物件。感測器可以是返回場景數字影像的相機的 CCD 感測器。影像由預測使用者身份的人臉分類器處理。如果使用者身份有效,執行器將解鎖裝置或開啟閘門。

圖片

圖 9. 部署在真實環境中的物理攻擊,使用物理模式和物件而不是修改數字影像

3.1 SentiNet 介紹

本文提出了一種針對視覺領域物理攻擊檢測的方法:SentiNet。SentiNet 的目標是識別會劫持模型預測的對手輸入。具體而言,SentiNet 的設計目標是在無需事先了解攻擊內容的情況下,保護網路免受對抗性樣本、觸發特洛伊木馬和後門的攻擊。SentiNet 的核心思想是利用對手錯誤分類行為來檢測攻擊。首先,SentiNet 使用模型可解釋性和物件檢測技術從輸入場景中提取對模型預測結果影響最大的區域。然後,SentiNet 將這些提取的區域應用於一組良性測試輸入,並觀察模型的行為。最後,SentiNet 使用模糊技術將這些合成行為與模型在良性輸入上的已知行為進行比較,以確定預測攻擊行為。SentiNet 完整結構見圖 10。

圖片

圖 10. SentiNet 架構概述。使用輸入的輸出和類別生成掩模,然後將掩模反饋到模型中以生成用於邊界分析和攻擊分類的值

3.1.1 對抗性目標定位 

本文方法的第一步是在給定的輸入上定位可能包含惡意物件的區域,即識別輸入 x 中有助於模型預測 y 的部分。因為物理攻擊很小並且是區域性的,在不包含攻擊部分的輸入上評估模型可能能夠恢復 x 的真實類別。

分段類別建議。本文提出的攻擊檢測從識別一組可能由模型 f_m 預測的類別開始。第一類是實際預測,即 y=f_m(x)。透過對輸入 x 進行分段,然後對每個分段上的網路進行評估來識別其他類別。Algorithm 1 給出了透過輸入分段判斷類別的演算法。可以使用不同的方法分割給定的輸入 x,包括滑動視窗和基於網路的區域建議等。本文方法使用了選擇性搜尋影像分割演算法:選擇性搜尋根據在自然場景中發現的模式和邊緣生成區域列表,然後,對每個給出的分段建議進行評估,並返回前 k 個置信度預測,其中 k 是 SentiNet 的配置引數。

圖片


掩模生成。針對模型預測的解釋和理解問題,在過去幾年中已經提出了多種針對性的方法。其中一種方法是 “量化” 輸入的單個畫素的相關性。這種方法聚焦於單個畫素,因此可能會生成非連續畫素的掩模。而稀疏掩模則可能會丟失惡意物件的元素,並且不適用於模型測試階段。另外一種替代方法不在單個畫素上操作,而是嘗試恢復模型用於識別同類輸入的可分性影像區域。但是,其中許多方法需要對基本模型進行修改和微調,例如類別啟用對映(Class Activation Mapping,CAM)[8],這些修改可能會改變模型的行為,甚至包括 SentiNet 執行檢測並防止被利用的惡意行為。

作者表示,適合本文目標的方法是 Grad-CAM[9],這是一種模型解釋技術,可以識別輸入的連續空間區域,而不需要對原始模型進行修改。Grad-CAM 使用網路最後幾層計算得到的梯度來計算輸入區域的顯著性。對於類別 c,Grad-CAM 計算模型輸出 y^c 相對於模型最終匯聚層的 k 個特徵圖 A^k 的梯度(模型對類別 c 的 logit 得分),以得到(δ y^c)/(δ A^k)。每個過濾圖的平均梯度值,或 "神經元重要性權重" 記作:

圖片


最後,按神經元的重要性加權處理特徵圖 A^k,並彙總以得到最終的 Grad-CAM 輸出:

圖片


Grad-CAM 的輸出是影像正向重要性的一個粗略熱圖,由於模型的卷積層和池化層的下采樣處理,其解析度通常比輸入影像低。最後,透過對熱圖進行二值化處理,以最大強度的 15% 為閾值生成掩模。作者使用這個掩模來分割 salient 區域,以便進行下一步的工作。

精確的掩模生成。儘管 Grad-CAM 可以成功地識別與對抗性目標相對應的鑑別性輸入區域,但它也可能識別良性的 salient 區域。圖 11 給出了一個說明性示例,Grad-CAM 為一個人臉識別網路生成的熱圖既覆蓋了木馬的觸發補丁,也覆蓋了原始的人臉區域。為了提高掩模準確性,作者提出需要對輸入影像的選定區域進行額外預測。然後,對於每個預測,使用 Grad-CAM 來提取一個與預測最相關的輸入區域的掩模。最後,結合這些額外的掩模來完善初始預測 y 的掩模。

圖片

圖 11. 上一行:使用漸變 CAM 生成掩模。左圖顯示了與目標 “0” 類別相關的 Grad-CAM 熱圖,右圖顯示了覆蓋了物理攻擊以外區域的提取掩模。下一行:左圖是相對於目標 “0” 類別的 Grad-CAM 熱圖,該行中間的圖是對應於給定類別的 Grad-CAM

一旦得到了圖片中可能存在的類別列表,我們就會劃出與每個預測類別更相關的區域 x。為簡單起見,作者假設每個輸入只能包含一個惡意物件。Algorithm 2 給出了從 x 中提取輸入區域的過程。

圖片


首先,使用 Grad-CAM 對輸入的 x 和預測的 y 提取掩模,同時還為每一個建議的類別 y_p 提取一個掩模。在其他的建議類別上執行 Grad-CAM,可以讓我們在對抗性攻擊之外找到影像的重要區域。此外,由於對抗性區域通常與非目標類別呈負相關性,熱圖主動避免突出影像的對抗性區域。我們可以使用這些熱圖來生成二級掩模,透過減去掩模重疊的區域來改進原始掩模。這能夠保證掩模只突出區域性攻擊,而不會突出影像中的其他 salient 區域。由圖 11 我們可以看到使用這種方法生成了一個更精確的掩模,其中只包含了大部分對抗性區域。

3.1.2  攻擊檢測 

攻擊檢測需要兩個步驟。首先,如上所述,SentiNet 提取可能包含對抗性補丁的輸入區域。然後,SentiNet 在一組良性影像上測試這些區域,以區分對抗性區域和良性區域。

測試- 一旦定位了輸入區域,SentiNet 就會觀察該區域對模型的影響,以確定該區域是對手的還是良性的。為此,SentiNet 將可疑區域疊加在一組良性測試影像 X 上。將測試影像反饋到網路中,網路計算被欺騙的樣本數量並用於對抗性影像。直觀地說,可能欺騙模型的變異影像數量越多,疑似區域就越有可能是對抗性攻擊。當恢復的掩模較小時,這種反饋技術能有效區分對抗性和良性輸入,因為小的良性物體通常不能影響到網路的預測。然而,這種方法的一個問題是,一個覆蓋了輸入影像較大區域的掩模在疊加到其他影像上時,很可能會造成錯誤的分類。例如,考慮一個輸入影像 x 的較大掩模,當疊加時,掩模內的特徵可能比外面的特徵相關性更強,這就提高了將變異的測試輸入分類為 y 的可能性。為了解決這一問題,作者引入了惰性模式(inert patterns),其作用是抑制掩模內部的特徵,從而提高網路對掩模外特徵的反應。

檢測的決策邊界- 有了這兩個指標(被欺騙的影像數量和平均惰性模式置信值),我們可以確定在哪些條件下輸入的 x 是對抗性的。下一步,作者希望引入一種技術,使我們能夠根據攻擊無關的指標,將未見過的對抗性輸入識別為攻擊。圖 12 給出一個示例,其中紅色的三角點代表的是在對抗性樣本中發現的指標,藍色的圓點是根據清潔樣本計算得到的。我們可以看到對抗性樣本大多聚集在圖中右上角的位置。

圖片

圖 12. 邊界檢測示例,左側,對抗性和良性指標分別被繪製成紅色三角形和藍色圓圈;右側,來自取樣點的曲線建議

作者提出,可以使用在清潔樣本上收集到的度量來近似一個曲線,其中位於曲線函式之外的點可以被歸類為對抗性攻擊。具體的,透過提取 x 間隔的最高 y 值的點來收集目標點,然後使用非線性最小二乘法函式來擬合生成目標曲線。然後,使用近似曲線計算曲線和點之間的距離(使用線性近似的約束最佳化(the Constrained Optimization by Linear Approximation,COBYLA)方法)並確定該距離是否在由位於曲線之外的清潔樣本的距離所估計的閾值之內,來實現對攻擊的分類。具體的邊界決策過程如 Algorithm 4 所示。

圖片


3.2 實驗分析

作者利用三個公共可用網路評估 SentiNet,其中包括兩個受損網路和一個未受損網路。受損網路包括一個用於閱讀標誌檢測的後門 Faster-RCNN 網路 [11] 以及一個用於人臉識別的 VGG-16 trojaned 網路[12]。未受損網路是在 Imagenet 資料集上訓練的 VGG-16 網路[13]。此外,SentiNet 還需要一個良性測試影像集 X 和一個惰性模式 s 來生成決策邊界。作者利用實驗中所選網路的每個測試集 X 生成良性測試影像集,以及使用隨機噪聲作為惰性模式。SentiNet 利用 Tensorflow 1.5 為未受損網路、利用 BLVC Caffe 為 trojaned 網路以及利用 Faster-RCNN Caffe 為汙染網路生成對抗補丁。為了能夠並行生成類別建議,SentiNet 利用了由 Fast RCNN Caffe 版本實現的 ROI 池化層。最後,作者透過收集每次攻擊的 TP/TN 和 FP/FN 比率從準確性和效能兩個方面衡量 SentiNet 的有效性和魯棒性。

首先,作者評估了 SentiNet 在保護選定的網路免受三種攻擊的有效性,即後門、特洛伊木馬觸發器和對手補丁。在實驗中,分別考慮了引入和未引入掩模改進的效果。對於對抗性補丁攻擊,作者考慮了另一種變體,即攻擊者同時使用多個補丁。實驗整體評估結果見表 9 所示。

圖片

表 9. SentiNet 對已知攻擊的有效性

接下來,作者考慮攻擊者已知 SentiNet 的存在及其工作機制情況下,可能避免 SentiNet 檢測的情況。作者具體考慮了 SentiNet 的三個元件的情況:熱圖建議、類別建議和攻擊分類。

1)攻擊區域建議(熱圖建議)

本文方法的關鍵是能夠使用 Grad-CAM 演算法成功定點陣圖像中的對抗性區域。Grad-CAM 演算法生成 salient 區域的熱圖進而生成分類結果。一旦攻擊破壞了 Grad-CAM 並影響區域的檢測和定位,那麼框架的後續元件將會失效。Grad-CAM 使用網路反向傳播來衡量區域的重要性。因此,理論上我們可以使用有針對性的梯度擾動來修改熱圖輸出。作者透過實驗表明,在作者給出的防禦背景下,Grad-CAM 對對抗性攻擊是穩健的,Grad-CAM 對區域的捕捉能力並不會輕易被操縱。

圖 13 左上為一張狗的影像,上面覆蓋著一個對抗性補丁。右側為對目標類別 "toast" 的 Grad-CAM 熱圖。我們從隨機噪聲開始,其中沒有任何 "toast" 類別的突出區域,對損失函式進行最佳化輸入。圖 13 證明了在收斂時生成的噪聲的熱圖輸出與原始熱圖在視覺上是一致的。這表明,Grad-CAM 的輸出是可以透過梯度最佳化來精確操縱的。然而,為了發動這樣的有效攻擊,攻擊者需要在整個影像上新增噪聲,這在實際上是不可行的。

攻擊者還有一種攻擊策略:生成一個誤導熱圖區域(heatmap region misdirection),在該圖中增加一個不覆蓋對手區域的區域,以擴大捕獲的區域或完全規避檢測。

攻擊者也有可能透過誤導熱圖區域,即熱圖提出一個不包括對抗區域的區域,以擴大定位的區域或完全避免檢測。但是這種操作在對手對整幅影像新增擾動噪聲時會失效,所以作者在實驗中限定攻擊者不能在區域性攻擊區域之外新增噪聲,Grad-CAM 擾動也必須限制在對手區域中。因此,我們要考慮的威脅是攻擊者可以在影像的一個區域中增加噪聲,從而增加不相交區域中的 Grad-CAM 輸出值。由圖 13 給出的實驗結果,如果噪聲區域與我們想要修改的 Grad-CAM 位置重疊,我們就能夠成功修改熱圖。圖 13 還顯示,如果噪聲區域與目標 Grad-CAM 區域不相交,則 Grad-CAM 最佳化無法實現視覺相似性或與之等效的最終收斂損失。這些實驗表明,區域性噪聲只會影響相應的 Grad-CAM 區域,同時表明不可能發生錯誤方向的攻擊。

圖片

圖 13. 計算每個輸入上標籤 “toaster” 的 Grad-CAM。第一行顯示疊加在狗影像上的對抗性補丁的 Grad-CAM 輸出。第二行為使用梯度擾動再現的 Grad-CAM 輸出。第三行顯示,如果補丁位於目標熱圖附近,仍然可以生成類似的熱圖。第四行顯示,如果不能在目標 Grad-CAM 位置上附加干擾噪聲,則無法直接影響 Grad-CAM 輸出

2)類別建議

類別建議模組是使用選擇性搜尋(Selective search)和一個根據包含 ROI 池化層的原始網路修改後得到的建議網路。選擇性搜尋是一種傳統的影像處理演算法,它使用基於圖形的方法根據顏色、形狀、紋理和大小分割影像。與 Faster-RCNN 中的網路生成建議機制不同,選擇性搜尋中不存在會被攻擊者擾亂的梯度成分,也不存在會嚴重限制攻擊者攻擊機制的會汙染的訓練過程。本文的選擇性搜尋演算法還設計用於捕獲對手類別以外的類別建議,攻擊者將無法影響對手區域以外的選擇性搜尋結果。此外,由於我們的建議網路使用原始網路權重,因此不會在原始網路和建議網路之間產生不同的行為。最後,攻擊者攻擊網路類別建議過程的動機是有限的,因為成功的攻擊將破壞攻擊檢測的準確性,而不是破壞整個過程。由此,作者得出結論:類別建議機制是魯棒的,因為各個元件的屬性會共同抵抗擾動或汙染攻擊。

3)攻擊分類

最後,透過分析攻擊分類的魯棒性,作者針對決策過程進行了實驗論證。本文的分類過程沒有使用梯度下降方法進行訓練,這就避免了使用梯度擾動來誤導分類的可能性。本文使用的閾值是根據可信資料集 X、X 誤導機率和 X 平均置信度確定的二維資料點。其中,X 平均置信度利用模式 s 來計算。

如果對手能夠操縱模型對惰性模式做出反應,那麼他們就可以繞過防禦後在良性輸入和對手輸入之間生成類似的輸出。作者透過使用標準隨機噪聲模式和一個新的棋盤格模式(如圖 14 所示),證明了我們可以保證模式 s 的隱私性。由表 9,我們可以看到隨機噪聲模式和棋盤格模式的 TP 和 TN 率在 ≤0.25% 範圍內。此外,防禦方始終能夠透過使用梯度下降找到惰性模式,以最小化所有類別的響應置信度。只要模式 s 是保密的,SentiNet 的這個元件就是安全的。

圖片

圖 14. 惰性模式:本文使用的惰性模式為左側顯示的隨機噪聲;可能使用的另一種模式是右側的棋盤格模式

如果攻擊者使用足夠大的補丁,X 上的平均置信度將降低,從而降低防禦的有效性。由圖 15 可以看出,對於對抗性補丁,攻擊的 avgConf 隨著補丁大小的增加而下降。透過增加補丁的透明度,我們可以將攻擊降低到閾值以下,同時保持非常高的攻擊成功率。

圖片

圖 15. 對抗性補丁大小分析

4、小結

我們在這篇文章中討論了多媒體領域的物理攻擊問題,包括影像領域、音訊領域等。與演算法攻擊相比,在影像或音訊上施加物理攻擊的難度性低,進一步損害了深度學習技術的實用性和可靠性。我們選擇了三篇文章從攻擊和防禦的角度分別進行了探討,同時包括了影像領域和音訊領域的攻擊。由於物理攻擊對於人類來說是易於發現的,所以從文章給出的實驗結果來看,不同方法的防禦效果都不錯。不過,幾篇文章中談到的防禦都是限定攻擊型別的防禦,如何對不可知的攻擊進行有效防禦仍值得進一步研究和探討。

分析師介紹:Jiying,工學博士,畢業於北京交通大學,曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域資訊化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。


本文參考引用的文獻
[1] Kevin Eykholt; Ivan Evtimov; Earlence Fernandes; Bo Li; Amir Rahmati; Chaowei Xiao; Atul Prakash; Tadayoshi Kohno; Dawn Son,Robust Physical-World Attacks on Deep Learning Visual Classification,CVPR 2018, https://ieeexplore.ieee.org/document/8578273(https://robohub.org/physical-adversarial-examples-against-deep-neural-networks/)
[2] Zirui Xu,Fuxun Yu; Xiang Chen,LanCe: A Comprehensive and Lightweight CNN Defense Methodology against Physical Adversarial Attacks on Embedded Multimedia Applications,25th Asia and South Pacific Design Automation Conference (ASP-DAC),2020,https://ieeexplore.ieee.org/document/9045584
[3] Chou E , F Tramèr, Pellegrino G . SentiNet: Detecting Physical Attacks Against Deep Learning Systems. 2020. https://arxiv.org/abs/1812.00292
[4] A. Kurakin, I. Goodfellow, and S. Bengio. Adversarial examples in the physical world. arXiv preprint arXiv:1607.02533, 2016.
[5] K. Eykholt, I. Evtimov, E. Fernandes, B. Li, D. Song, T. Kohno, A. Rahmati, A. Prakash, and F. Tramer. Note on Attacking Object Detectors with Adversarial Stickers. Dec. 2017.
[6] I. Goodfellow and et al., “Explaining and harnessing adversarial examples,” arXiv preprint arXiv:1412.6572, 2014.
[7] J. Hayes, “On visible adversarial perturbations & digital watermarking,” in Proc. of CVPR Workshops, 2018, pp. 1597–1604.
[8] Z. Yang and et al., “Characterizing audio adversarial examples using temporal dependency,” arXiv preprint arXiv:1809.10875, 2018.
[9] Q. Zeng and et al., “A multiversion programming inspired approach to detecting audio adversarial examples,” arXiv preprint arXiv:1812.10199, 2018.
[10] K. Rajaratnam and et al., “Noise flooding for detecting audio adversarial examples against automatic speech recognition,” in Proc. of ISSPIT, 2018, pp. 197–201.
[11] T. Gu, B. Dolan-Gavitt, and S. Garg, “Badnets: Identifying vulnerabilities in the machine learning model supply chain,” CoRR, vol. abs/1708.06733, 2017. [Online]. Available: http://arxiv.org/abs/1708.06733
[12] Y. Liu, S. Ma, Y. Aafer, W.-C. Lee, J. Zhai, W. Wang, and X. Zhang, “Trojaning attack on neural networks,” in NDSS, 2018.
[13] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” CoRR, vol. abs/1409.1556, 2014. [Online]. Available: http://arxiv.org/abs/1409.1556

相關文章