CNN 擅長對亂序影象進行分類,但人類並非如此.複製程式碼
在這篇文章中,我將展示為什麼最先進的深度神經網路仍能很好地識別亂碼影象,以及這有助於揭示DNN似乎用來對自然影象進行分類的令人費解的簡單策略。這些發現發表在ICLR 2019,有許多分歧:首先,它們表明解決ImageNet比許多人想象的要簡單得多。其次,這些發現使我們能夠構建更具解釋性和透明度的影象分類流水線。第三,他們解釋了現代CNN中觀察到的一些現象,例如他們對紋理的偏見(參見我們在ICLR 2019的另一篇論文和我們相應的部落格文章)以及他們忽略了物件部分的空間排序。
好的ol'特色包模型
在過去,在深度學習之前,自然影象中的物件識別過去相當簡單:定義一組關鍵視覺特徵(“單詞”),識別每個視覺特徵在影象中的存在頻率(“包”)和然後根據這些數字對影象進行分類。因此,這些模型被稱為“特徵包”模型(BoF模型)。舉例來說,我們只有兩個視覺特徵,一個人眼和一個羽毛,我們想把影象分為“人”和“鳥”類。最簡單的BoF模型將如下工作:對於影象中的每隻眼睛,它將“人類”的證據增加+1。反之亦然,對於影象中的每個羽毛,它將增加“鳥”的證據+1。無論什麼類積累,影象中的大多數證據都是預測的。
這個最簡單的BoF模型的一個很好的特性是它的可解釋性和透明的決策制定:我們可以準確地檢查哪個影象特徵攜帶給定類的證據,證據的空間整合是非常簡單的(與深度非線性特徵整合相比)深度神經網路)所以很容易理解模型如何做出決定。
傳統的BoF模型在深度學習開始之前一直非常流行和最先進,但由於其低分類效能而很快就失寵了。但我們是否確定深度神經網路確實使用了與BoF模型截然不同的決策策略?
一個深刻但可解釋的特徵包網路(BagNet)
為了測試這一點,我們將BoF模型的可解釋性和透明度與DNN的效能結合起來。高階別戰略如下:
- 將影象分割成小的q x q 影象色塊
- 通過DNN傳遞影象塊以獲取每個影象塊的類證據(logits)。
- 對所有影象塊的證據求和,以達到影象級決策。
BagNets的分類策略:對於每個影象塊,我們使用DNN提取類證據(logits)並總結所有影象塊的總類證據。複製程式碼
為了以最簡單和最有效的方式實現這一策略,我們採用標準的ResNet-50架構,用1x1卷積替換大多數(但不是全部)3x3卷積。在這種情況下,最後一個卷積層中的隱藏單元每個只“看到”影象的一小部分(即它們的感受野遠小於影象的大小)。這避免了對影象的顯式分割槽,並且儘可能接近標準CNN,同時仍然實現概述的策略。我們稱之為模型結構BagNet-q,其中q代表最頂層的感受域大小(我們測試q= 9,17和33)。BagNet-q的執行時間大約是ResNet-50的執行時間的2.5。
在ImageNet上具有不同貼片尺寸的BagNets的效能。
即使對於非常小的貼片尺寸,BagNet上的BagNets效能也令人印象深刻:尺寸為17 x 17畫素的影象特徵足以達到AlexNet級別的效能,而尺寸為33 x 33畫素的特徵足以達到約87%的前5精度。通過更仔細地放置3 x 3卷積和額外的超引數調整,可以實現更高的效能值。
這是我們的第一個主要結果:您只需使用一組小影象功能即可解決ImageNet問題。物件形狀或物件部分之間的關系等遠端空間關係可以完全忽略,並且不需要解決任務。
BagNets的一大特色是他們透明的決策。例如,我們現在可以檢視哪個影象特徵對於給定的類最具預測性(見下文)。例如,通常用綠色背景上的手指識別丁字褲(非常大的魚)。為什麼?因為這個類別中的大多數影象都有一個漁民像獎盃那樣舉起了一張十字架。每當BagNet錯誤地將影象分類為tench時,通常是因為影象中某處的綠色背景上有一些手指。
影象功能具有最多的類證據。我們展示了正確預測類(頂行)的功能和預測錯誤類(底行)的分散注意力的功能。
同樣,我們還得到一個精確定義的熱圖,顯示影象的哪些部分有助於某個決定。
來自BagNets的熱圖顯示了確切的影象部分對決策的貢獻。熱圖不是近似的,而是顯示每個影象部分的真實貢獻
。ResNet-50與BagNets驚人相似
BagNets表明,基於本地影象特徵和物件類別之間的弱統計相關性,可以在ImageNet上達到高精度。如果這就夠了,為什麼像ResNet-50這樣的標準深網會學到任何根本不同的東西?如果豐富的本地影象特徵足以解決任務,為什麼ResNet-50應該瞭解複雜的大尺度關係,如物件形狀?
為了驗證現代DNN遵循與簡單的特徵包網路類似的策略的假設,我們在BagNets的以下“簽名”上測試不同的ResNets,DenseNets和VGG:
- 決策對影象特徵的空間改組是不變的(只能在VGG模型上測試)。
- 不同影象部分的修改應該是獨立的(就其對總類證據的影響而言)。
- 標準CNN和BagNets產生的錯誤應該類似。
- 標準CNN和BagNets應對類似功能敏感。
在所有四個實驗中,我們發現CNN和BagNets之間的行為非常相似。例如,在上一個實驗中,我們展示了BagNets最敏感的那些影象部分(例如,如果你遮擋那些部分)與CNN最敏感的那些基本相同。實際上,BagNets的熱圖(靈敏度的空間圖)比由DeepLift(直接為DenseNet-169計算熱圖)等歸因方法生成的熱圖更好地預測了DenseNet-169的靈敏度。當然,DNN並不完全類似於特徵包模型,但確實顯示出一些偏差。特別是,我們發現網路越深入,功能越來越大,遠端依賴性也越來越大。
超越功能包分類
將CNN的決策視為一種特色包策略可以解釋有關CNN的幾個奇怪的觀察。首先,它將解釋為什麼CNN具有如此強烈的紋理偏差。其次,它可以解釋為什麼CNN 對影象部分的混亂如此不敏感。它甚至可以解釋一般的對抗性貼紙和對抗性擾動的存在:人們可以在影象中的任何地方放置誤導訊號,並且無論這些訊號是否適合影象的其餘部分,CNN仍然可以可靠地接收訊號。
我們的工作核心是CNN利用自然影象中存在的許多弱統計規律進行分類,並且不會像人類一樣跳向影象部分的物件級整合。其他任務和感官方式也是如此。
我們必須認真思考如何構建我們的架構,任務和學習方法,以抵消這種弱統計相關性的趨勢。一個角度是將CNN的歸納偏差從小的區域性特徵改善為更全域性的特徵。另一個角度是刪除或替換網路不應該依賴的那些特徵,這正是我們在另一個ICLR 2019出版物中使用樣式轉移預處理去除自然物件紋理所做的。
然而,最大的問題之一當然是影象分類本身的任務:如果區域性影象特徵足以解決任務,則沒有動力學習自然界的真實“物理學”。我們必須以推動模型學習物件的物理本質的方式重構任務本身。這可能不僅僅是純粹觀察學習輸入和輸出特徵之間的相關性,以便允許模型提取因果依賴性。
總之,我們的結果表明CNN可能遵循極其簡單的分類策略。事實上,這種發現仍然可以在2019年完成,這突出了我們對深度神經網路的內部運作了解甚少。缺乏理解使我們無法從根本上發展出更好的模型和架構來縮小人與機器之間的差距。深化我們的理解將使我們能夠找到彌合這一差距的方法。這可能是非常有成效的:當我們試圖將CNN偏向物體的更多物理特性時,我們突然達到類似人類的噪聲穩健性。我期待更多令人興奮的結果,我們的CNN方式真正瞭解了我們世界的物理和因果性質。
更多文章歡迎訪問: http://www.apexyun.com
聯絡郵箱:public@space-explore.com
(未經同意,請勿轉載)