CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

機器之心發表於2020-05-07

行人再識別系統(re-ID)無處不在,可以在不同攝像頭拍攝的影片中精確地找出同一個人,但這種系統也很容易被對抗樣本所欺騙,因此檢驗 re-ID 系統抵抗對抗攻擊的魯棒性非常重要。來自中山大學、廣州大學和暗物智慧的研究者們透過提出一種學習誤排序的模型來擾亂系統輸出的排序,從而檢驗當前效能最佳的 re-ID 模型的不安全性,為 re-ID 系統的魯棒性提供了改進的方向。該論文已被 CVPR 大會接收為 oral 論文。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

行人再識別(re-ID)——一種個人身份鑑別技術和繼人臉識別之後的又一重要演算法,隨著深度學習的發展進入了一個新時代。在 Market-1501 上,各大公司玩命刷榜,甚至達到了超人類的識別水平。

日益成熟的 re-ID 技術也進一步夯實了天網工程、智慧安防系統等應用的理論基礎,為維護和管理城市秩序提供了技術支撐,為預防和打擊違法亂紀行為奠定了保障。

但是,作為視覺模式匹配的代表,re-ID 是否繼承深度神經網路的漏洞仍待探討。檢查 re-ID 系統的穩健性非常重要,因為 re-ID 系統的不安全性可能會造成嚴重損失,例如,犯罪分子可能會利用對抗性干擾來欺騙影片監控系統。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

圖 1:Market-1501 和 CUHK03 上 AlignedReID 被攻擊前後的 Rank-10 結果。綠色代表正確匹配。紅色代表錯誤匹配。

為了探究上述問題,來自中山大學、廣州大學和暗物智慧科技的研究者們透過提出一種學習誤排序的模型來擾亂系統輸出的排序,從而檢驗當前效能最佳的 re-ID 模型的不安全性。

由於跨資料集的可遷移性在 re-ID 域中至關重要,因此作者還透過構建新穎的多級網路體系結構進行半黑盒式攻擊,該體系結構將不同級別的特徵金字塔化,以提取對抗性擾動的一般和可遷移特徵。該體系可以透過使用可微分的取樣來控制待攻擊畫素的數量。為了保證攻擊的不顯眼性,作者還提出了一種新的感知損失,以實現更好的視覺質量。

在四個最大的 re-ID 基準資料集(即 Market1501,CUHK03,DukeMTMC 和 MSMT17)上進行的廣泛實驗不僅顯示了該方法的有效性,而且還為 re-ID 系統的魯棒性提供了未來改進的方向。例如,效能最好的 re-ID 系統之一的精度在受到該方法的攻擊後從 91.8%急劇下降到 1.4%。一些攻擊效果如圖 1 所示。相關研究以「Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking」為題被計算機視覺頂會 CVPR 2020 接收,屬於口頭報告(Oral)。程式碼已開源。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

  • 論文連結:https://arxiv.org/abs/2004.04199

  • 程式碼連結:https://github.com/whj363636/Adversarial-attack-on-Person-ReID-With-Deep-Mis-Ranking


背景

深度神經網路(DNN)的成功使許多計算機視覺任務受益,例如行人再識別(re-ID),這是一項旨在跨攝像機匹配行人的關鍵任務。特別是,DNN 在特徵學習和距離度量學習方面使 re-ID 受益匪淺,這將 re-ID 帶入了一個新時代。得益於 DNN,re-ID 在影片監控或為公共安全的犯罪識別中得到了廣泛的應用。

儘管從 DNN 獲得了令人印象深刻的收益,但是 re-ID 是否繼承 DNN 的漏洞仍待探索。具體而言,最近的工作發現 DNN 容易受到對抗性攻擊(對抗性攻擊是利用對抗樣本誤導系統)。在過去的兩年中,對抗性攻擊在欺騙基於 DNN 的系統(例如影像分類)方面取得了顯著成功。那麼基於 DNN 的 re-ID 系統能否抵抗攻擊?答案似乎並不樂觀。經驗證據表明,戴著包、帽子或眼鏡的人可能會誤導 re-ID 系統以輸出錯誤的預測。這些例子可以被認為是自然的對抗樣本

檢驗 re-ID 系統抵抗對抗攻擊的魯棒性非常重要。由於 re-ID 系統的不安全性可能會造成嚴重損失,例如在犯罪追蹤中,犯罪分子可能會透過在身體最適當的位置放置對抗性干擾(例如包、帽子和眼鏡)來掩飾自己,從而欺騙影片監控系統。透過研究 re-ID 系統的對抗樣本,我們可以識別這些系統的漏洞並幫助提高魯棒性。例如,我們可以確定人體的哪些部分最容易受到對抗性攻擊,並要求將來的 re-ID 系統注意這些部分。將來,我們還可以透過對抗訓練來改進 re-ID 系統。總之,儘管以前沒有做過任何工作,但建立一個對抗性攻擊者來攻擊 re-ID 是很有必要的。

由於現實中的人身份無窮無盡,被查詢人通常不屬於資料庫中的任何類別,因此 re-ID 被定義為排序問題而不是分類問題。用於影像分類、分割、檢測和麵部識別的現有攻擊方法不適合排序問題。此外,由於影像域在不同時間和不同相機中會有所不同,因此還應考慮透過使用跨資料集攻擊來檢查 re-ID 模型的魯棒性。但是,現有的對抗攻擊方法通常具有較差的可遷移性,即,它們通常僅針對任務域(例如,資料集 A)而設計,並且由於無法找到通用的攻擊特徵而無法重用於另一個域(例如,資料集 B)。此外,我們將重點放在對於檢查 re-ID 模型的不安全性的不起眼攻擊上。現有的對抗攻擊方法通常具有人類可以感知的視覺質量缺陷。

綜上所述,發明一個適合於 re-ID 的攻擊器來檢驗 re-ID 的安全性是很有必要的,且尚沒有工作進行這方面的研究。

方法

1. 整體框架

我們的方法的總體框架如圖 2(a)所示。我們的目標是使用生成器 G 為每個輸入影像 I 生成欺騙性噪聲 P。透過將噪聲 P 新增到影像 I,我們得到了對抗性示例\hat{I},透過該示例我們可以欺騙 re-ID 系統 T 來輸出錯誤的結果。具體地,re-ID 系統 T 認為匹配的影像對不相似,同時認為不匹配的影像對相似,如圖 2(b)所示。整個框架由具有生成器 G 和新穎鑑別器 D 的生成對抗網路訓練。
 

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

圖 2 整體框架圖

2. 學習誤排序模型 

我們提出了一種學習誤排序的公式,以擾亂系統輸出的排名。我們設計了一個新的誤排序損失函式來攻擊預測的排名,這非常適合 re-ID 問題。我們的方法趨向於使不匹配對的距離最小化,並同時使匹配對的距離最大化。我們有:

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

值得注意的是,使用誤排序損失有兩個優點。首先,誤排序的損失完全適合 re-ID 問題。如上所述,re-ID 在訓練和測試資料的設定方面與影像分類任務不同。在影像分類任務中,訓練集和測試集共享相同的類別,而在 re-ID 中,它們之間沒有類別重疊。因此,誤排序適合攻擊 re-ID。其次,誤排序損失不僅符合 re-ID 問題,它可能適合所有開放式問題。因此,使用誤排序損失也可能有益於攻擊者學習一般的和可遷移特徵。總而言之,我們基於誤排序的對抗攻擊者是對現有基於錯誤分類的攻擊者的完美補充。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

圖 3 我們的辨別器

3. 學習可遷移的攻擊特徵

正如已有文獻所暗示的,對抗性樣本是特徵而不是 bug。因此,為了增強攻擊者的可遷移性,需要提高攻擊者的表示學習能力以提取對抗性擾動的一般特徵。在我們的例子中,表示學習器是生成器 G 和鑑別器 D(見圖 2(a))。對於生成器 G,我們使用 ResNet50。對於判別器 D,由於最近的對抗性防禦器已使用跨層資訊來識別對抗性樣本,作為他們的競爭對手,我們開發了一種新穎的多級網路體系結構,增強判別器的特徵學習能力。具體來說,如圖 3 所示,我們的判別器 D 由三個完全卷積的子網路組成,每個子網路都包括五個卷積,三個下采樣和幾個歸一化層。這三個子網分別接收原始影像面積的 {1、1 / 2 ^ 2、1 / 4 ^ 2} 作為輸入。接下來,將來自這些具有相同大小的子網的特徵圖組合起來。由此我們得到一個階段金字塔,其一系列降取樣結果的比率為 {1 / 32、1 / 16、1 / 8、1 /4}。使用上一階段的特徵圖時,我們使用雙線性上取樣將空間解析度上取樣 2 倍,並附加 1x1 卷積層以減小通道數。在逐個元素相加並進行 3x3 卷積後,融合後的特徵將進入下一個階段。最後,該網路以兩個空洞卷積層和一個 1x1 卷積結束,以執行特徵重加權,然後將其最終響應對映 lambda 饋入下游取樣器 M。值得注意的是,這三個子網均透過遵循標準的反向傳播 (BP) 進行最佳化。

4. 控制攻擊的畫素數目

為了使我們的攻擊不引人注目,我們從兩個方面改進了現有的攻擊器。第一方面是控制要被攻擊的目標畫素的數量。通常,對抗攻擊是將給定影像的一組噪聲引入一組目標畫素,以形成一個對抗示例。噪聲和目標畫素均未知,攻擊者將對其進行搜尋。在這裡,我們介紹了攻擊器在搜尋目標畫素時的公式。為了使搜尋空間連續,我們將對所有可能畫素的畫素選擇鬆弛化,即 Gumbel softmax:

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

其中 i 和 j 表示特徵圖中畫素的索引。要選擇的畫素的機率 p_ij 由向量 lambda_ij 引數化。N_ij 是位置 (i, j) 處的隨機變數,該位置是從 Gumbel 分佈中取樣的。注意,tau 是一個溫度引數,當 tau 逐漸減小到零時,它會軟化從均勻分佈到分類分佈的過渡。因此,要被攻擊的目標畫素的數量由掩碼 M 確定:

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

其中,KeepTopk 是一種函式,透過該函式可將具有最高機率 p_ij 的前 k 個畫素保留在 M 中,而其他畫素在前向傳播期間將被丟棄。而且,向前和向後傳播之間的差異確保了可微分性。透過將掩模 M 和初始噪聲 P'相乘,我們得到具有可控制畫素數目的最終噪聲 P。M 的用法在圖 2 中詳細說明。

5. 視覺質量的感知損失損失函式 

除了控制被攻擊畫素的數量之外,我們還關注視覺質量,以確保攻擊器不引人注意。現有工作將噪聲引入影像中以欺騙機器,而沒有考慮影像的視覺質量,這與人類的認知不一致。受 MS-SSIM 的啟發,該模型能夠提供良好的近似值,以感知視覺感知的影像質量,我們在我們的方法中加入了感知損失函式以提高視覺質量。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

其中 c_j 和 s_j 分別是第 j 個尺度的對比度比較和結構比較的量度。L 是規模水平。基於視覺感知損失函式,可以進行大規模的攻擊,而不會被人類注意到。

6. 目標函式 

除了誤排序損失,感知損失之外,我們還有另外兩個損失,即誤分類損失和 GAN 損失。

誤分類損失。現有工作通常將可能性最小的類別誤差作為目標,以最佳化輸出機率與其可能性最小的類別之間的交叉熵。但是,模型可能會將輸入錯誤分類為除正確類別之外的任何類別。受 Szegedy 等人的啟發,我們提出了一種透過以下方式放鬆針對非目標攻擊的模型的機制:

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

其中 S 表示 log-softmax 函式,K 表示人員 ID 的總數,v 表示平滑正則化。實際上,這種平滑正則化提高了訓練穩定性和成功攻擊率。

GAN 損失。對於我們的任務,生成器 G 嘗試從輸入影像中產生欺騙性噪聲,而鑑別器 D 則儘可能地將真實影像與對抗性示例區分開。因此,GAN 損失為:

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

 
其中 D_1,2,3 是我們的多級鑑別器,如圖 2 所示。我們得到最終損失函式

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

 
其中 zeta 和 eta 是平衡損失的權重

實驗結果

我們首先介紹攻擊最先進的 re-ID 系統的結果,然後對我們的方法進行元件分析。然後,透過探索半黑盒攻擊來檢驗我們方法的泛化能力和可解釋性。

資料集。我們的方法在最大的四個 re-ID 資料集上進行了評估:Market1501,CUHK03,DukeMTMC 和 MSMT17。Market1501 是一個經過全面研究的資料集,包含 1,501 個身份和 32,688 個邊界框。CUHK03 包含 1,467 個身份和 28,192 個邊界框。CUHK03 包含 1,467 個身份和 28,192 個邊界框。為了與最新工作保持一致,我們遵循新的訓練/測試協議來進行實驗。DukeMTMC 提供了 16,522 個邊界框,其中有 702 個身份用於訓練,而有 17,661 個用於測試。MSMT17 涵蓋了室內和室外場景中 15 臺攝像機拍攝的 4,101 個身份和 126,441 個邊界框。我們採用標準的 mAP 度量標準和 rank-1/5/10/20 進行評估。請注意,與 re-ID 問題相反,較低的 rank-1/5/10/20 準確性和 mAP 表示攻擊問題中的成功攻擊率更高。

協議。有關訓練協議和超引數的詳細資訊,請參見文章。前兩個小節驗證了白盒攻擊,即攻擊器可以完全訪問訓練資料和目標模型。在第三小節中,我們探索了多種場景下的半黑盒攻擊以檢查我們方法的可遷移性和可解釋性,即攻擊者無法訪問訓練資料和目標模型。遵循文獻的標準協議,如沒有特殊說明,以下所有實驗都是透過帶有 varepsilon = 16 的 L 無窮邊界攻擊執行的,其中 varepsilon 是對確定攻擊強度和視覺質量的噪聲幅度施加的上限。

1. 攻擊最新的 ReID 系統

為了證明我們方法的通用性,我們將最新的 re-ID 系統分為以下三組。

攻擊不同的骨幹網。我們首先檢查了我們的方法在攻擊不同效能最佳的網路骨幹網中的有效性,包括:ResNet-50(即 IDE),DenseNet-121} 和 Inception-v3(即 Mudeep)。結果示於表 1(a)和(b)中。我們可以看到,在被我們的方法攻擊後,所有骨幹網的 rank-1 準確性都急劇下降至接近零(例如,對於 DenseNet 從 89.9%降至 1.2%),這表明不同的骨幹網無法防禦我們的攻擊。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

表 1 攻擊最新的 ReID 系統

攻擊基於零件的 re-ID 系統。許多效能最佳的 re-ID 系統透過考慮零件對齊方式來學習區域性和全域性相似性。但是,他們仍然無法捍衛我們的進攻(表 1(a)(b))。例如,效能最好的 re-ID 系統之一(AlignedReID)在受到我們方法的攻擊後,其準確性從 91.8%急劇下降至 1.4%。這種比較證明了測試技巧,例如 AlignedReID 中整合的額外區域性特徵以及 PCB 中的翻轉影像組合,都無法抵抗我們的攻擊。

攻擊增強型 re-ID 系統。許多最新的 re-ID 系統都使用資料增強的技巧。接下來,我們檢查模型在攻擊這些基於增強的系統中的有效性。與常規資料增強技巧(例如隨機裁剪,翻轉和 2D 翻譯)不同,我們檢查 GAN 這種最新的資料增加技巧的抗攻擊能力。評估是在 Market1501 和 DukeMTMC 上進行的。表 1(a)和(c)中的結果表明,儘管 GAN 資料增強可以提高 rre-ID 的準確性,但它們無法防禦我們的攻擊。相反,我們甚至觀察到,更好的 re-ID 準確性可能導致更差的魯棒性。

討論。對於重新考慮 re-ID 系統的耐用性以進行未來的改進,我們有三點評論。首先,到目前為止,尚無有效的方法來防禦我們的攻擊,例如,在我們攻擊之後,所有 rank-1 的準確性都降至 3.9%以下。其次,Mudeep 和 PCB 的堅固性最強。憑直覺,Mudeep 可能會受益於其非線性和較大的感受野。對於 PCB,在評估過程中重新處理查詢影像並隱藏網路體系結構可以提高魯棒性。第三,攻擊後 HACNN 的 rank-1 精度最低,這表明注意機制可能會損害防禦性。

2. 元件分析

我們進行了全面的研究,以驗證我們方法的每個組成部分的有效性。AlignedReID 在本文的其餘部分中被用作我們的目標模型,因為它在 re-ID 域中具有非凡的效果。

不同的損失函式。我們報告了四種不同損失函式的 rank-1 準確性,以驗證損失的有效性。結果示於表 2(a),其中四行代表:(A)常規誤分類損失;(B)我們的誤分類;(C)我們的誤排序損失;(D)我們的誤分類+誤排序損失。實際上,我們觀察到傳統的誤分類損失 A 與感知損失不相容,從而導致較差的攻擊效能(28.5%)。相比之下,我們的視覺誤排序損失 D 實現了非常吸引人的攻擊效能(1.4%)。我們還觀察到,我們的誤分類損失 B 和視覺誤排序損失 C 互惠互利。具體來說,透過將這兩個損失相結合,我們得到的損失 D 優於所有其他損失。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

 表 2 元件分析一

多級鑑別器。為了驗證我們的多級鑑別器的有效性,我們比較了以下設定:(A)使用我們的多級鑑別器,(B)使用常用的鑑別器。具體來說,我們用 PatchGAN 代替了多級鑑別器。表 2(c)顯示了在更改鑑別器之後攻擊效能的顯著下降,表明了我們的多階段鑑別器在捕獲更多細節以更好地進行攻擊方面的優越性。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

圖 4 使用 MS-SSIM

使用 MS-SSIM。為了展示 MS-SSIM 的優越性,我們將圖 4 中不同感知監督下的對抗示例形象化。我們可以看到,在同樣的高強度擾動幅度下(epsilon=40),在 MS-SSIM 的監督下生成的對抗示例要比在 SSIM 的監督下且沒有任何監督的對抗示例好得多(表現為行人著裝顏色與原圖基本保持一致)。該實驗結果很好地驗證了感知損失對於保留原始外觀至關重要。

不同的 epsilon 的比較。儘管使用感知損失對於大 epsilon 的視覺質量有很大的改善,但我們還提供了小 epsilon 的基線模型以進行全面研究。我們透過將 epsilon 作為超引數來手動控制它。表 2(b)中報告了不同 epsilon 的比較。即使 epsilon = 15,我們的方法也取得了良好的結果。圖 5 中可以看到具有不同 epsilon 的幾個對抗示例的視覺化。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

圖 5 不同 epsilon 的攻擊視覺化效果。(這張圖是真實環境下的攻擊,並非資料集中的圖)

要攻擊的畫素數。令 H 和 W 表示影像的高度和寬度。我們將要攻擊的畫素數分別控制在 {1、1 / 2、1 / 4、1 / 8、1 / 16、1 / 32、1 / 64} xHW 的範圍內。從表 3 中我們有兩個主要觀察結果。首先,當要攻擊的畫素數> HW / 2 時,攻擊肯定會成功。這表明我們可以透過僅使用 HW / 2 的噪聲數來完全攻擊 re-ID 系統。其次,當要攻擊的畫素數<HW / 2 時,成功攻擊率會大大下降。為了補償噪聲數量的減少,我們提出在不顯著影響感知的情況下提高噪聲大小。這樣,將被攻擊的最少畫素數減少到 HW / 32,這表明噪聲的數量和大小都很重要。
 

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

表 3 和表 4 元件分析二

可微取樣的有效性。為了證明我們學習到的噪聲在攻擊 re-ID 方面的有效性,我們在表 4 中的兩個方面,在 varepsilon = 40 的限制下將它們與隨機噪聲進行了比較。(A)隨機噪聲被施加在影像的隨機位置上。結果表明,隨機噪聲不如我們學習到的噪聲。(B)隨機噪聲被強加到我們學習到的影像位置上。有趣的是,儘管(B)的攻擊效能比我們所學的噪音差,但(B)的效能優於(A)。這表明我們的方法成功找到了要攻擊的敏感位置。

攻擊的可解釋性。在分析了我們學習到的噪聲的優勢之後,我們進一步視覺化了噪聲佈局,以探索我們在 re-ID 中攻擊的可解釋性。不幸的是,單個影像無法提供直觀的資訊。當噪聲數量等於圖 6 中的 HW / 8 時,我們統計地顯示查詢影像和蒙版,以進行進一步分析。從圖 6(b)中我們可以看到,網路具有攻擊平均影像上半部分的趨勢,該趨勢對應於圖 6(a)中人的上半身。這意味著網路能夠為 ReID 勾畫出影像的主要區域。為了將來提高 ReID 系統的魯棒性,應注意這一主要區域。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

圖 6 攻擊的位置分析 

3. 半黑盒攻擊

與上述白盒攻擊不同,半黑盒攻擊表示攻擊者無法訪問訓練資料和目標模型,這非常具有挑戰性。

跨資料集攻擊。跨資料集表示攻擊器是在已知資料集上學習的,但可以重新用於攻擊在未知資料集上訓練的模型。表 2(d)顯示了 AlignedReID 中我們的跨資料集攻擊的成功。我們還觀察到,跨資料集攻擊的成功率幾乎與幼稚的白盒攻擊一樣好。此外,MSMT17 是一個透過覆蓋多場景和多時間來模擬真實場景的資料集。因此,對 MSMT17 的成功攻擊證明了我們的方法能夠在不知道真實場景資料資訊的情況下,對真實場景中的 ReID 系統進行攻擊。

跨模型攻擊。跨模型攻擊表示攻擊器是透過攻擊已知模型來學習的,但可以重新用於攻擊未知模型。Market1501 上的實驗表明,現有的 re-ID 系統也受到我們的交叉模型攻擊的欺騙(表 2(e))。值得一提的是,PCB 似乎比其他 PCB 更堅固,這表明隱藏測試協議有利於提高魯棒性。

跨資料集跨模型攻擊(即完全黑盒)。我們會進一步檢查最具挑戰性的設定,即攻擊者無法訪問訓練資料和模型。在表 2(f)中隨機選擇資料集和模型。令人驚訝的是,我們已經觀察到,即使在這種極端條件下,我們的方法也成功欺騙了所有 re-ID 系統。請注意,Mudeep 僅受到 4,000 畫素的攻擊。

討論。對於 ReID 的未來改進,我們有以下評論。首先,儘管不同 re-ID 資料集中的資料分佈偏差降低了 re-ID 系統的準確性,但這並不是造成安全漏洞的原因,正如上面的跨資料集攻擊成功所證明的那樣。其次,跨模型攻擊的成功意味著網路漏洞應是安全漏洞的原因。第三,跨資料集跨模型攻擊的成功促使我們重新考慮現有 re-ID 系統的漏洞。第三,跨資料集跨模型攻擊的成功促使我們重新考慮現有 re-ID 系統的漏洞。甚至我們都不瞭解目標系統。我們可以使用公共可用的 re-ID 模型和資料集來學習攻擊者,利用它我們可以在目標系統中執行跨資料集跨模型攻擊。實際上,我們欺騙了一個真實世界的系統(見圖 5)。

CVPR 2020 Oral | 將SOTA行人再識別系統精度降至1.4%,中大、暗物智慧等向視覺模式匹配的魯棒性發起挑戰

表 5 與現有攻擊器比較

4. 與現有攻擊器的比較

為了展示我們方法的泛化能力,我們使用 CIFAR10 進行了影像分類的附加實驗。我們在對抗性示例社群中將我們的方法與四種高階白盒攻擊方法進行了比較,包括 DeepFool,NewtonFool,CW 和 GAP。我們採用經過對抗性訓練的 ResNet32 作為目標模型,並固定 varepsilon = 8。使用與 Nicolae 等人相同的預設設定來配置其他超引數。對於每種攻擊方法,我們都會在完整的 CIFAR10 驗證集上列出所得網路的準確性。表 5 中的結果表明,我們提出的演算法在攻擊分類系統方面也有效。請注意,將 varepsilon 更改為其他數字(例如 varepsilon = 2)並不會降低我們的方法相對於競爭對手的優勢。

總結

我們透過提出一種學習誤排序的模型來擾亂系統輸出的排名,從而檢驗當前 re-ID 系統的不安全性。我們基於誤排序的攻擊器是對現有基於誤分類的攻擊器的補充。我們還開發了一個多階段網路體系結構,以提取對抗性擾動的可遷移特徵,從而使我們的攻擊器可以進行半黑盒攻擊。透過控制被攻擊畫素的數量並保持視覺質量,我們專注於攻擊器的不起眼之處。實驗不僅顯示了我們方法的有效性,而且為 re-ID 的魯棒性的未來改進提供了方向。

參考文獻 :

  1. Hongjun Wang*, Guangrun Wang*, Ya Li, Dongyu Zhang, Liang Lin, Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking [C]. in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, Washington, USA, June 16 - 18, 2020.

  2. Nicholas Carlini and David Wagner. Towards evaluating the robustness of neural networks. In S&P, pages 39–57. IEEE, 2017. 4, 8

  3. Ian J. Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and harnessing adversarial examples. CoRR, abs/1412.6572, 2014. 3

  4. Shengyong Ding, Liang Lin, Guangrun Wang, and Hongyang Chao. Deep feature learning with relative distance comparison for person re-identification. PR, 48(10):2993– 3003, 2015. 2, 3

  5. XuanZhang,HaoLuo,XingFan,WeilaiXiang,YixiaoSun, Qiqi Xiao, Wei Jiang, Chi Zhang, and Jian Sun. Aligne- dreid: Surpassing human-level performance in person re- identification. CoRR, 2017. 1, 2, 5, 6, 7

相關文章