因此,至少從2009年開始,研究人員就開發了許多不同的方法來開啟深度學習的“黑匣子”,從而使基礎模型更容易解釋。下面,我們為過去十年中最先進的影像解釋技術整合了視覺介面,並對每種技術進行了簡要描述。我們使用了許多很棒的庫,但是特別依賴 Gradio 來建立你在下面的 gif 檔案和 PAIR-code 的 TensorFlow 實現中看到的介面。用於所有介面的模型是Inception Net影像分類器,可以在此jupyter筆記本和Colab上找到複製此部落格文章的完整程式碼。在我們深入研究論文之前,讓我們先從一個非常基本的演算法開始。 七種不同的解釋方法Leave-one-out (LOO) Leave-one-out (LOO) 是最容易理解的方法之一。如果你想了解影像的哪個部分負責預測,這可能會是你想到的第一個演算法。其思想是首先將輸入影像分割成一組較小的區域,然後,執行多個預測,每次都遮蔽一個區域。根據每個區域的「被遮蔽」對輸出的影響程度,為每個區域分配一個重要性分數。這些分數是對哪個區域最負責預測的量化。這種方法很慢,因為它依賴於執行模型的許多迭代,但是它可以生成非常準確和有用的結果。上面是杜賓狗的圖片示例。LOO是Gradio庫中的預設解釋技術,完全不需要訪問模型的內部——這是一個很大的優點。Vanilla Gradient Ascent [2009 and 2013]Paper: Visualizing Higher-Layer Features of a Deep Network [2009]Paper: Visualizing Image Classification Models and Saliency Maps [2013]這兩篇論文的相似之處在於,它們都通過使用梯度上升來探索神經網路的內部。換句話說,它們認為對輸入或啟用的微小更改將增加預測類別的可能性。第一篇論文將其應用於啟用,作者報告說,「有可能找到對高階特徵的良好定性解釋, 我們證明,也許是違反直覺的,但這種解釋在單位水平上是可能的,它很容易實現,並且各種技術的結果是一致的。」第二種方法也採用梯度上升,但是直接對輸入影像的畫素點進行探測,而不是啟用。作者的方法「計算特定於給定影像和類的類顯著性圖,這樣的地圖可以使用分類ConvNets用於弱監督的物件分割。」Guided Back-Propogation [2014]Paper: Striving for Simplicity: The All Convolutional Net [2014]本文提出了一種新的完全由卷積層構成的神經網路。由於以前的解釋方法不適用於他們的網路,因此他們引入了引導式反向傳播。該反向傳播可在進行標準梯度上升時過濾掉傳播時產生的負啟用。作者稱,他們的方法「可以應用於更廣泛的網路結構。」Grad-CAM [2016]Paper: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization [2016]接下來是梯度加權類啟用對映(gradient-weighted class activation mapping,Grad-CAM) 。它利用「任何目標概念的梯度,流入最後的卷積層,生成一個粗糙的定位對映,突出影像中的重要區域,以預測概念。」該方法的主要優點是進一步推廣了可以解釋的神經網路類(如分類網路、字幕和視覺化問答(VQA)模型) ,以及一個很好的後處理步驟,圍繞影像中的關鍵物件對解釋進行集中和定位。SmoothGrad [2017]Paper: SmoothGrad: removing noise by adding noise [2017]像前面的論文一樣,此方法從計算類評分函式相對於輸入影像的梯度開始。但是,SmoothGrad通過在輸入影像中新增噪聲,然後針對影像的這些擾動版本中的每一個來計算梯度,從而在視覺上銳化這些基於梯度的靈敏度圖。將靈敏度圖平均在一起可以得到更清晰的結果。Integrated Gradients [2017]Paper: Axiomatic Attribution for Deep Networks [2017]不同於以往的論文,本文的作者從解釋的理論基礎入手。它們「確定了歸因方法應該滿足的兩個基本公理——敏感性和實現不變性」。他們用這些原理來指導設計一種新的歸屬方法(稱為綜合梯度),該方法可以產生高質量的解釋,同時仍然只需要訪問模型的梯度; 但是它新增了一個「基線」超引數,這可能影響結果的質量。Blur Integrated Gradients [2020]Paper: Attribution in Scale and Space [2020]論文研究了一個最新技術—- 這種方法被提出來用於解決具體的問題,包括消除「基線」引數,移除某些在解釋中傾向於出現的視覺偽影。此外,它還「在尺度/頻率維度上產生分數」,本質上提供了影像中重要物體的尺度感。下面這張圖比較了所有這些方法: