牛津大學&Emotech首次嚴謹評估語義分割模型對對抗攻擊的魯棒性

機器之心發表於2018-06-03

1 引言

計算機視覺已經發展到,用於大部分識別任務的深度神經網路(DNN)模型成為廣泛可用的商品。但是,儘管 DNN 的絕對效能得分非常高,但是它們對於對抗樣本依然非常脆弱 [11]。這導致對在安全性應用(如無人駕駛汽車或醫療診斷)中使用 DNN 的質疑越來越多,因為它們可能莫名其妙地將一個自然輸入錯誤分類,即使該輸入與網路之前正確分類的輸入樣本幾乎一樣。此外,這還有可能導致惡意智慧體攻擊使用 DNN 的系統的情況 [6]。因此,DNN 對對抗擾動的魯棒性可能與在乾淨輸入上的預測準確率同樣重要。

近期該現象引起了大量關注,但是大部分防禦方法都在某些方面進行了妥協 [2],且常常損害在乾淨輸入上的效能 [8]。據本論文作者所知,對抗樣本尚未在標準影像分類模型之外進行廣泛分析。因此,現代 DNN 在更復雜的任務(如在覆蓋不同領域的現實資料集上的語義分割)上對對抗樣本的脆弱性如何仍然不得而知。

語義分割模型通常新增空洞卷積、跳過連線、條件隨機場(CRF)和/或多尺度處理等額外元件來擴充套件標準影像分類架構,這些額外元件對魯棒性的影響尚未經過深入研究。就本論文研究者所知,本論文利用兩個大規模資料集首次嚴謹評估了對抗攻擊對現代語義分割模型的影響,並分析了不同模型架構、容量、多尺度處理和結構化預測的影響,結果表明很多基於分類模型的觀測結果未必會遷移到語義分割這一更復雜的任務中。此外,研究者還展示了深度結構化模型中的平均場推斷(mean-field inference)和多尺度處理如何自然地實現近期提出的對抗防禦方法。

2 實驗設定

資料集。本研究使用 Pascal VOC 和 Cityscapes 驗證集。Pascal VOC 共包含 21 個類別的網路影像,而 Cityscapes 包括一輛車捕捉到的 19 個類別的街景。

模型。本研究基於 VGG [10] 和 ResNet [4] 骨幹網路評估模型。研究者還考慮自定義 ENet 和 ICNet 架構用於實時應用。研究者選擇的網路展示了多種語義分割模型獨有的方法,如專門池化(PSPNet、DeepLab)、編碼器-解碼器架構(SegNet、E-Net)、多尺度處理(DeepLab)、CRF(CRFRNN)、空洞卷積(DilatedNet、DeepLab)和跳過連線(FCN)。

對抗攻擊。研究者使用 FGSM、FGSM ll 及其迭代變體,迭代次數牛津大學&Emotech首次嚴謹評估語義分割模型對對抗攻擊的魯棒性,步長 α = 1 [7]。擾動的牛津大學&Emotech首次嚴謹評估語義分割模型對對抗攻擊的魯棒性範數被設定為 {0.25, 0.5, 1, 2, 4, 8, 16, 32} 的每個值。

評估指標。由於模型在乾淨輸入上的準確率會發生變化,因此研究者使用 IoU 來調整相對指標 [7],衡量對抗魯棒性,從網路在對抗攻擊上的 IoU 到在整個資料集乾淨影像上的 IoU。

3 主要發現

架構。對不同架構的評估(圖 1)顯示,在 VOC 和 Cityscapes 資料集上,具有殘差連線的模型本身就比鏈狀網路具有更強的魯棒性。為實時嵌入式平臺設計的引數非常少的模型(E-Net 和 ICNet)也是如此,這與之前 [7, 8] 觀察到的情況相反。儘管本論文作者觀察到魯棒性和準確率之間具有相關性,但是準確率最高的網路(PSPNet)並不總是最魯棒的(Deeplab v2)。


牛津大學&Emotech首次嚴謹評估語義分割模型對對抗攻擊的魯棒性圖 1:在 Pascal VOC(a)和 Cityscapes(b)上,基於 ResNet 骨幹網路的當前最優模型對抗魯棒性通常更強。順序按照在乾淨輸入上的 IoU 增序排列。Image caption

多尺度處理。Deeplab v2 的多尺度處理使其更加魯棒。進一步的實驗結果表明,對抗攻擊在不同尺度下生成和處理時,未必是惡性的。這是因為 CNN 並不是尺度和許多其他變換的不變數。這一點透過評估攻擊的可遷移性(即在一個尺度上生成攻擊,在另一個尺度上評估攻擊)得到了證實。CNN 缺乏對大量變換的不變性,這也解釋了為什麼近期關於將 CNN 的輸入轉換為對抗防禦的論文 [12, 3] 很被看好。

CRF 與平均場推斷。直觀來看,定義對抗擾動的高頻成分(high frequency component)可以透過作為低通濾波器的 DenseCRF [5] 的成對項來減輕。對執行 DenseCRF 端到端平均場推斷的 CRF-RNN 的評估表明,它確實對無目標攻擊更加魯棒(圖 2a)。然而,這種魯棒性的原因在於,平均場推斷容易產生過度自信的預測(由每個畫素上邊緣分佈的熵和最大機率來衡量),這「掩蓋」了用於構造無目標對抗攻擊的梯度。因此,分割文獻中常用的技術自然會採用 [9] 提出的「梯度掩蔽」(gradient masking)防禦。這種影響可以透過執行黑箱(圖 2b)和目標攻擊(圖 2c)來規避,在這種情況下,CRF-RNN 與它所擴充套件的 FCN8s 網路一樣脆弱。

牛津大學&Emotech首次嚴謹評估語義分割模型對對抗攻擊的魯棒性圖 2:(a)在 Pascal VOC 資料集上的無目標攻擊中,CRF-RNN 的魯棒性顯著優於 FCN8s。(b)CRF-RNN 對來自 FCN8 的黑箱攻擊更加脆弱,因其「梯度掩蔽」會導致無效的白箱攻擊。(c)此外,CRF 對於目標攻擊並不「掩蓋」梯度,它的魯棒性和 FCN8s 不相上下。Image caption

4 結論

該論文首次嚴謹評估了現代語義分割模型對對抗攻擊的魯棒性,對抗攻擊無疑是 DNN 的重大挑戰。研究者進行了大量觀測,提出了很多問題,這有助於未來理解對抗樣本和開發更有效防禦方法(且不損害準確率)的研究。就短期影響來看,該研究的觀測結果表明,基於 ResNet、執行多尺度處理的 Deeplab v2 等網路內在魯棒性更強,更應該用於安全性應用中。由於在乾淨輸入上準確率最高的網路未必是最具魯棒性的網路,因此研究者推薦按照論文中的做法,在多種對抗攻擊上評估模型魯棒性,以尋找最佳的準確率和魯棒性組合,然後再應用到實踐中。

論文:On the Robustness of Semantic Segmentation Models to Adversarial Attacks

牛津大學&Emotech首次嚴謹評估語義分割模型對對抗攻擊的魯棒性

論文地址:https://arxiv.org/pdf/1711.09856.pdf

摘要深度神經網路(DNN)在大部分識別任務(如影像分類和分割)上的效能優異。但是,它們對對抗樣本具備很高的脆弱性。近期這種現象吸引了大量關注,但並未在多個大規模資料集和複雜任務上進行廣泛研究,如語義分割,它通常需要具備額外元件(如 CRF、空洞卷積、跳過連線和多尺度處理)的更專門化網路。

本論文利用兩個大規模資料集,首次嚴謹評估了對抗攻擊對現代語義分割模型的影響。我們分析了不同網路架構、模型容量和多尺度處理的影響,展示了分類任務上的很多觀測結果未必會遷移到更復雜的任務上。此外,我們展示了深度結構化模型中的平均場推斷和多尺度處理如何自然地實現近期提出的對抗防禦方法。我們的觀測結果將支援未來對理解和防禦對抗樣本的研究。就短期影響來看,我們根據分割模型的內在魯棒性,展示了哪種分割模型目前更適合安全性應用。牛津大學&Emotech首次嚴謹評估語義分割模型對對抗攻擊的魯棒性

公司簡介:Emotech 2014 年成立於英國倫敦,是全球首家致力於主動互動技術的⼈工智慧公司,也是極少數研發多模態整合的技術型公司。Emotech 在語音與計算機視覺領域擁有多項國際專利。團隊研究成果多次入選行業頂級會議如 CVPR,ECCV,ICASSP,INTERSPEECH,並獲獎如 2016 CVPR Visual Object Tracking Challenge Best Realtime Tracker,IEEE ICRA 2015 Best Computer Vision Paper Award Finalist,IEEE SLT 2014 Best Paper。

相關文章