可解釋性終極追問,什麼才是第一性解釋?20篇CCF-A+ICLR論文給你答案

机器之心發表於2024-08-04

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文作者為張俊鵬、任啟涵、張拳石,其中張俊鵬是張拳石老師的准入學博士生,任啟涵是張拳石老師的博士生。

本文首先簡單回顧了『等效互動可解釋性理論體系』(20 篇 CCF-A 及 ICLR 論文),並在此基礎上,嚴格推導並預測出神經網路在訓練過程中其概念表徵及其泛化性的動力學變化,即在某種程度上,我們可以解釋在訓練過程中神經網路在任意時間點的泛化性及其內在根因。

一、前言

長期以來,我們團隊一直在思考可解釋性領域的一個終極問題,即什麼才是解釋性領域的第一性原理?所謂第一性原理,目前沒有一個被廣泛接受的框架,世上本無路,我們需要逐漸去定義這樣一個路。我們需要在一個新的理論體系中,提出大量的公理性要求,得出一個可以從不同的角度全方位精確嚴謹解釋神經網路內在機理的理論。一套理論系統能嚴謹解釋神經網路的方方面面才叫 “第一性原理”

如果你真的在嚴謹地做 “科學”,那麼第一性原理一定不是想象中簡單,而是一個複雜的體系,需要研究照顧到深度學習中方方面面紛繁複雜的現象。當然,如果你主觀上不願意或者不信一個理論需要足夠嚴謹,那麼研究會變得簡單千萬倍。就像物理學的標準模型一定比牛頓定律複雜,取決於你希望走哪條路。

沿著這個方向,我們團隊獨立從頭構建了『等效互動可解釋性理論體系』,並基於此理論,從三個角度來解釋神經網路的內在機理。

1. 語義解釋的理論基礎:數學證明神經網路的決策邏輯是否可以被少量符號化邏輯所充分覆蓋(充分解釋)。『證明神經網路的決策邏輯是否可以被有限符號化邏輯解釋清楚』這一命題是解釋神經網路的根本命題。如果此命題被證偽,則從根本上講,神經網路的可解釋性將是無望的,所有的解釋性演算法只能提供近似的解讀,而無法精確地覆蓋所有的決策邏輯。幸運的是,我們找到了在大部分應用中神經網路都可以滿足的面向遮擋魯棒性的三個常見的條件,並且數學證明了滿足這三個條件的神經網路的決策邏輯可以被寫成符號化的互動概念。

參見 https://zhuanlan.zhihu.com/p/693747946

2. 尋找效能指標背後的可證明、可驗證的根因:將神經網路泛化性和魯棒性等終極效能指標的根因拆分具體少數細節邏輯。對神經網路效能(魯棒性、泛化性)的解釋是神經網路可解釋性領域的另一個重大問題。然而,目前人們普遍認為神經網路效能是對神經網路整體的描述,而神經網路無法像人類一樣將自己的分類判斷拆解成具象化的、少量的決策邏輯。在這方面,我們給出了不一樣的觀點 —— 將效能指標與具象化的互動之間建立起數學關係。我們證明了 1. 等效互動的複雜度可以直接決定神經網路的對抗魯棒性 / 遷移性,2. 互動的複雜度決定了神經網路的表徵能力,3. 並解釋神經網路的泛化能力 [1],和 4. 解釋神經網路的表徵瓶頸。

  • 參見1:https://zhuanlan.zhihu.com/p/369883667
  • 參見2:https://zhuanlan.zhihu.com/p/361686461
  • 參見3:https://zhuanlan.zhihu.com/p/704760363
  • 參見4:https://zhuanlan.zhihu.com/p/468569001

3. 統一工程性深度學習演算法。由於缺少基礎理論的支撐,目前深度學習演算法大都是經驗性的、工程性的。可解釋性領域的第一性原理應該可以承擔起將前人的大量工程性經驗總結為科學規律的任務。在等效互動可解釋性理論體系下,我們團隊既證明了 14 種不同的輸入重要性歸因演算法的計算本質在數學上都可以統一寫成對互動作用的再分配形式。此外,我們還統一了 12 種提升對抗遷移性的演算法,證明了所有提升對抗遷移性演算法的一個公共機理是降低對抗擾動之間的互動效用,實現了對神經網路可解釋性方向大部分工程性演算法的理論凝練。

  • 參見1:https://zhuanlan.zhihu.com/p/610774894
  • 參見2:https://zhuanlan.zhihu.com/p/546433296

在等效互動可解釋性理論體系下,我們的團隊在之前的研究中已經成功發表了 20 篇 CCF-A 類和機器學習頂級會議 ICLR 論文,我們已經從理論和實驗上充分解答了上述問題。

二、本文研究概述

沿著上述理論框架,在這篇知乎文章中,我們希望精確解釋出神經網路訓練過程中泛化性的變化規律,具體地涉及兩篇論文。

  • 1.Junpeng Zhang, Qing Li, Liang Lin, Quanshi Zhang,“Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features”,in arXiv: 2405.10262
  • 2.Qihan Ren, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu, Quanshi Zhang,“Towards the Dynamics of a DNN Learning Symbolic Interactions” in arXiv:2407.19198

圖片

圖 1:兩階段現象的示意圖。在第一階段,神經網路逐漸消除中高階互動,學習低階互動;在第二階段,神經網路逐漸建模階數不斷增大的互動。當神經網路訓練過程中測試損失和訓練損失之間的 loss gap 開始增大時,神經網路恰好也進入訓練的第二階段。

我們希望在等效互動框架裡提出新的理論,精確預測出神經網路每一個時間點上神經網路所學到的互動概念的數量、複雜度,以及泛化性變化的動力學規律(如圖 1 所示)。具體地,我們希望證明出兩方面結論。

第一,基於前人的證明(一個神經網路的決策邏輯可以被嚴格解構表示為幾十個互動概念效用的和的形式),進一步嚴格推匯出在整個訓練過程中,神經網路所建模的互動效用的變化動力學過程 —— 即理論需精確預測出在不同訓練階段,神經網路所建模的互動概念的分佈的變化 —— 推匯出哪些互動會在哪個時間點上被學習到

第二,尋找充分的證據,證明所推導的互動複雜度的變化規律客觀反映出神經網路在全訓練週期中泛化性變化的規律

綜上兩點,我們希望具體徹底解釋清楚神經網路的泛化性變化的內在根因。

與前人的關係:當然大家可能第一反應想到神經正切核(NTK)[2],但是神經正切核只是把引數的變化曲線解了出來,而沒辦法進一步深入到決策邏輯層面進行解釋,沒有將神經網路建模的概念表徵與其泛化性的關係建立起來,對泛化性的分析依然停留在特徵空間分析的層面,而沒有在【符號化概念邏輯】與【泛化性】之間建立起嚴格的關係。

三、兩大研究背景

誤會 1:神經網路的第一性表徵是『等效互動』,而不是神經網路引數和結構。單純從結構層面分析神經網路是人們對神經網路泛化根本表徵的誤解。目前大部分神經網路泛化性研究主要著眼於神經網路的結構、特徵、以及資料。人們認為不同的神經網路結構就自然對應不同的函式,並自然展現出不同的效能。

但是,事實上,如圖 2 所示,結構的區別只是神經網路表徵的表面形式。除去有明顯缺陷的對效能有明顯影響的神經網路,所有其他可以實現 SOTA 效能的具有不同結構的神經網路往往都建模了相似的等效互動表徵,即不同結構的高效能神經網路在等效互動表徵上往往都是殊途同歸的 [3, 4]。雖然神經網路其中層特徵內部是複雜的混亂的,雖然不同神經網路所建模的特徵向量大相徑庭,雖然神經網路中單個神經元往往建模了相對比較混亂的語義(不是嚴格清晰的語義),但是神經網路作為一個整體,我們從理論上證明神經網路的所建模的互動關係是稀疏的符號化的(而不是特徵的稀疏性,具體見 “四、互動的定義” 章節),而且面向相同任務的完全不同的神經網路往往建模了相似的互動關係。

圖片

圖 2:不同結構的神經網路所建模的等效互動往往是殊途同歸的。對於一個相同的輸入句子,面向兩個相同任務的兩個完全不同的神經網路建模往往相似的互動。

由於不同神經網路引數和訓練樣本不一樣,兩個神經網路中沒有任何一個神經元在表徵上具有嚴格的一一對應關係,且每一個神經元往往建模著不同語義的混合模式。相比之下,正如上段分析,神經網路所建模的互動表徵實際上是不同神經網路表徵中的不變數。因此,我們有理由認為神經網路根本表徵是等效互動,而不是其載體(引數和訓練樣本),符號化互動表徵可能代表了知識表徵的第一性原理(被互動的稀疏性定理、無限擬合性定理、以及殊途同歸現象所保證,見 “四、互動的定義” 章節,具體詳細研究見下面知乎文章。

參見:https://zhuanlan.zhihu.com/p/633531725

誤會 2:神經網路的泛化性問題是一個混合模型問題,而不是一個高維空間的向量。如圖 3 所示,傳統的泛化性分析總是假設單個樣本整體是高維空間的一個點,實際上神經網路對單個樣本的表徵是 mixture model 的形式 —— 實際上透過大量不同的互動來表達。我們發現簡單互動的泛化能力比複雜互動的泛化能力更強,所以不再適合用一個簡單標量來籠統表示整個神經網路在不同樣本上的泛化能力。相反,同一個神經網路在不同的樣本上建模了不同複雜度的互動關係,而不同複雜度的互動往往對應著不同泛化能力。通常情況下,神經網路建模的高階(複雜)的互動往往難以泛化到測試樣本上(測試樣本上不會觸發相同的互動),代表過擬合表徵,而神經網路建模的低階(簡單)互動往往代表泛化性較強的表徵,具體詳細研究見 [1]。

圖片

圖 3:(a)傳統的泛化性分析總是假設單個樣本整體是高維空間的一個點。(b)實際上神經網路對單個樣本的表徵是 mixture model 的形式,神經網路在單個樣本會建模簡單互動(可泛化的互動)和複雜互動(不可泛化的互動)。

四、互動的定義

讓我們考慮一個深度神經網路圖片和一個輸入樣本圖片,它包含圖片個輸入變數,我們用集合圖片表示這些輸入變數的全集。令圖片表示 DNN 在樣本圖片上的一個標量輸出。對於一個面向分類任務的神經網路,我們可以從不同角度來定義其標量輸出。例如,對於多類別分類問題,圖片可以定義為圖片,也可以定義為 softmax 層之前該樣本真實標籤所對應的標量輸出。這裡,圖片表示真實標籤的分類機率。這樣,針對每個子集圖片,我們可以用下面公式來定義圖片中所有輸入變數之間 “等效與互動” 和 “等效或互動”。

圖片

如圖 4(a)所示,我們可以這樣理解上述與或互動:我們可以認為與等效互動表示神經網路所編碼的圖片內輸入變數之間的 “與關係”。例如,給定一個輸入句子圖片,神經網路可能會在圖片之間建模一個互動,使得圖片產生一個推動神經網路輸出 “傾盆大雨” 的數值效用。如果圖片中的任何輸入變數被遮擋,則該數值效用將從神經網路的輸出中移除。類似地,等效或互動圖片表示神經網路所建模的圖片內輸入變數之間的 “或關係”。例如,給定一個輸入句子圖片,只要圖片中的任意一個詞出現,就會推動神經網路的輸出負面情感分類

神經網路所建模的等效互動滿足 “理想概念” 的三條公理性準則,即無限擬合性、稀疏性、樣本間遷移性。

  1. 無限擬合性:如圖 4,5 所示,對於任意遮擋樣本,神經網路在樣本上的輸出可以用不同互動概念的效用之和來擬合。即,我們可以構造出一個基於互動的 logical model,無論我們如何遮擋輸入樣本,這個 logical model 依然可精確擬合模型在此輸入樣本在任意遮擋狀態下的輸出值。
  2. 稀疏性:面向分類任務的神經網路往往只建模少量的顯著互動概念,而大部分互動概念都是數值效用都接近於 0 的噪聲。
  3. 樣本間遷移性:互動在不同樣本間是可遷移的,即神經網路在(同一類別的)不同樣本上建模的顯著互動概念往往有很大的重合。

圖片

圖 4:神經網路的複雜的推理邏輯可以被基於少量互動的邏輯模型圖片準確擬合。每個互動都是衡量神經網路建模特定輸入變數集合圖片之間非線性關係的度量指標。當且僅當集合中變數同時出現時才會觸發與互動,併為輸出貢獻數值分數圖片,集合圖片中任意變數出現時會觸發或互動。

圖片

圖 5:神經網路在任意的遮擋樣本上的輸出可以用不同互動概念的效用之和來擬合,即我們可以構造出一個基於互動的 logical model,無論我們如何遮擋輸入樣本,哪怕窮舉個輸入單元上種完全不同的遮擋方式,這個 logical model 依然可精確擬合模型在此輸入樣本在任意遮擋狀態下的輸出值。

五、新的發現與證明

5.1 發現神經網路在訓練過程中互動變化的兩階段現象

在這篇知乎文章中,我們關注神經網路解釋性領域的一個根本問題,即如何從一個解析分析的角度去嚴格預測出神經網路在訓練過程中泛化能力的變化情況,並且精確的分析神經網路欠擬合過擬合的整個動態變化過程及其背後的根本原因

首先,我們將互動的階數(複雜度)定義為互動中的輸入變數的數量,圖片。我們團隊之前的工作發現神經網路在某個特定樣本所建模的 “與或互動” 的複雜度直接決定了神經網路在這個樣本的泛化能力 [1],即神經網路建模的高階的(大量輸入單元之間的)“與或互動” 往往有較差的泛化能力,而低階的(少量輸入單元之間的)“與或互動” 具有較強的泛化能力。

因此,本篇研究的第一步是去預測出神經網路在訓練過程中不同時間點所建模的不同階 “與或互動” 的複雜度的一個解析解,即我們可以透過神經網路在不同時間點所建模的不同階 “與或互動” 的分佈去解釋神經網路在不同階段的泛化能力。互動的泛化能力的定義與神經網路整體泛化能力的定義請見 “5.2 神經網路所建模互動的階數和其泛化能力的關係” 章節。

我們提出兩個指標來表示不同階(複雜度)的互動的強度的分佈。具體來說,我們用圖片來衡量所有階正顯著互動的強度,用圖片來衡量所有圖片階負顯著互動的強度,其中圖片圖片表示顯著互動的集合,圖片表示顯著互動的閾值。

圖片

圖 6:從訓練不同輪次的神經網路中提取的不同階互動強度圖片圖片。在不同資料集上、不同任務上訓練的不同的神經網路的訓練過程都存在兩階段現象。前兩個選定時間點屬於第一階段,而後兩個時間點屬於第二階段。恰恰在進入神經網路訓練過程的第二階段不久,神經網路的測試損失和訓練損失之間的 loss gap 開始顯著上升(見最後一列)。這表明神經網路訓練的兩階段現象與模型 loss gap 的變化在時間上是 “對齊” 的。更多實驗結果請參見論文。

如圖 6 所示,神經網路的兩階段現象具體表現為:

  • 在神經訓練訓練之前,初始化的神經網路主要編碼中階互動,很少編碼高階和低階互動,並且不同階互動的分佈看起來呈現 “紡錘形”。假設具有隨機初始化引數神經網路建模的是純噪聲,我們在 “5.4 理論證明兩階段現象” 章節證明了具有隨機初始化引數神經網路建模的不同階的互動的分佈呈現 “紡錘形”,即僅建模少量的低階和高階互動,大量建模中階互動。
  • 神經網路訓練的第一階段神經網路編碼的高階和中階互動的強度逐漸減弱,而低階互動的強度逐漸增強。最終,高階和中階互動逐漸被消除,神經網路只編碼低階互動。
  • 神經網路訓練的第二階段神經網路在訓練過程中編碼的互動階數(複雜度)逐漸增加。在逐漸學習更高複雜度的互動的過程中,神經網路過擬合的風險也在逐漸提高。

上述的兩階段現象廣泛存在於不同結構的神經網路訓練於不同任務上的不同資料集的訓練過程中。我們在影像資料集(CIFAR-10 資料集、MNIST 資料集、CUB200-2011 資料集(使用從圖片中裁剪出來的鳥類影像)和 Tiny-ImageNet 資料集)上訓練了 VGG-11/13/16 和 AlexNet。我們在 SST-2 資料集上訓練了用於情感語義分類 Bert-Medium/Tiny 模型,我們在 ShapeNet 資料集中訓練 DGCNN 來分類的 3D 點雲資料。上圖顯示了不同的神經網路在不同訓練時期提取的不同階的顯著互動的分佈。我們在這些神經網路的訓練過程中都發現了兩階段現象,更多實驗結果及細節請參考論文。

5.2 神經網路所建模互動的階數和其泛化能力的關係

我們團隊之前的工作已經發現了神經網路所建模互動的階數和其泛化能力的關係,即高階互動比低階互動具有更差的泛化能力 [1]。某個具體互動的泛化性有清晰的定義 —— 如果一個互動同時在訓練樣本和測試樣本中頻繁的被神經網路所建模,則這個互動具有較好的泛化能力。在本篇知乎文章中,介紹了兩個實驗來證明高階互動具有較差的泛化能力,低階互動具有較強的泛化能力。

實驗一:觀察在不同資料集上訓練的不同神經網路所建模的互動的泛化性。這裡我們用被測試集所觸發的互動的分佈和被訓練集所觸發的互動的分佈的 Jaccard 相似性來度量互動的泛化性。具體來說,給定一個包含圖片個輸入變數的輸入樣本圖片,我們將從輸入樣本圖片提取到的圖片階互動向量化圖片,其中圖片表示圖片圖片階互動。然後,我們計算分類任務中所有類別為圖片的樣本中提取到的圖片階的平均互動向量,表示為圖片,其中圖片表示類別為圖片的樣本的集合。接下來,我們計算從訓練樣本中提取的階的平均互動向量圖片與從測試樣本中提取的圖片階的平均互動向量圖片之間的 Jaccard 相似性,以衡量分類任務中類別為圖片的樣本的圖片階互動的泛化能力,即:

圖片

其中,圖片圖片將兩個圖片維互動向量投影到兩個圖片維的非負向量上,以便計算 Jaccard 相似性。對於某一階的互動,如果此階互動普遍展現出較大的 Jaccard 相似性,則表示這一階互動具有較強的泛化能力。

我們進行了實驗計算不同階互動圖片。我們測試了在 MNIST 資料集上訓練的 LeNet、在 CIFAR-10 資料集上訓練的 VGG-11、在 CUB200-2011 資料集上訓練的 VGG-13,以及在 Tiny-ImageNet 資料集上訓練的 AlexNet。為了減少計算成本,我們僅計算了前 10 個類別的 Jaccard 相似性的平均值圖片。如圖 7 所示,隨著互動階數的增加,互動的 Jaccard 相似性不斷下降。因此,這驗證了高階互動比低階互動具有更差的泛化能力。

圖片 圖 7:從訓練樣本和測試樣本中提取的互動之間的 Jaccard 相似性。低階互動具有相對較高 Jaccard 相似性表明低階互動具有較強的泛化能力。

實驗二:比較神經網路在正常樣本和 OOD 樣本建模的互動的分佈。我們比較了從正常樣本中提取的互動與從分佈外 (OOD) 樣本中提取的互動,以檢查神經網路在 OOD 樣本上是否建模更多的高階互動。我們將少量訓練樣本的分類標籤設定為錯誤標籤。這樣,資料集中的原始樣本可以視為正常樣本,而一些帶有錯誤標籤的樣本則對應於 OOD 樣本,這些 OOD 樣本可能會導致神經網路過擬合。我們在 MNIST 資料集和 CIFAR-10 資料集上分別訓練了 VGG-11 和 VGG-13。圖 8 比較了從正常樣本中提取的互動的分佈和從 OOD 樣本中提取的互動的分佈。我們發現,VGG-11 和 VGG-13 在分類 OOD 樣本時建模了更多複雜的互動(高階互動),而在分類正常樣本時則使用了較低階的互動。這驗證了高階互動的泛化能力通常弱於低階互動。

圖片

圖 8:比較從正常樣本中提取的互動與從分佈外 (OOD) 樣本中提取的互動。神經網路通常在 OOD 樣本上建模的更高階的互動。

5.3 兩階段現象和神經網路訓練過程 loss gap 的變化相對齊

我們發現上述兩階段現象可以充分表示神經網路泛化性動力學。一個很有趣的現象是神經網路訓練過程中的兩階段現象和神經網路在測試集和訓練集的 loss gap 的變化在時間上是對齊的。訓練損失和測試損失之間的 loss gap 是衡量模型過擬合程度的最廣泛使用的指標。圖 6 顯示了不同的神經網路在訓練工程的測試損失和訓練損失之間的 loss gap 的曲線,還顯示了從不同訓練時期的神經網路中提取的互動分佈。我們發現當神經網路訓練過程中測試損失和訓練損失之間的 loss gap 開始增大時,神經網路恰好也進入訓練的第二階段。這表明神經網路訓練的兩階段現象與模型 loss gap 的變化在時間上是 “對齊” 的。

我們可以這樣理解上述現象:在訓練過程開始前,初始化的神經網路所建模的互動全部表示隨機噪聲,並且不同階互動的分佈看起來像 “紡錘形”。在神經網路訓練的第一階段,神經網路逐漸消除中階和高階的互動,並學習最簡單的(最低階的)互動。然後,在神經網路訓練的第二階段,神經網路建模了階數逐漸增大的互動。由於我們在 “5.2 神經網路所建模互動的階數和其泛化能力的關係” 章節中的兩個實驗驗證了高階互動通常比低階互動具有更差的泛化能力,因此我們可以認為在神經網路訓練的第二階段,DNN 首先學習了泛化能力最強的互動,然後逐漸轉向更復雜但泛化能力較弱的互動。最終一些神經網路逐漸過擬合,並編碼了大量中階和高階互動。

5.4 理論證明兩階段現象

理論證明神經網路訓練過程的兩階段現象共分為三個部分,第一部分我們需要證明隨機初始化的神經網路在訓練過程開始之前建模的互動的分佈呈現 “紡錘形”,即很少建模高階和低階互動,主要建模中階互動。第二部分證明神經網路在訓練的第二階段在建模階數逐漸增大的互動。第三部分證明神經網路在訓練的第一階段逐漸消除中階和高階互動,學習最低價的互動。

1. 證明初始化神經網路建模的 “紡錘形” 互動分佈。

由於隨機初始化的隨機網路在訓練過程開始之前建模的都是噪聲,所以我們假設隨機初始化的神經網路建模的互動的服從均值為圖片,方差為圖片的正態分佈。在上述假設下,我們能夠證明初始化的神經網路建模的互動的強度和的分佈呈現 “紡錘形”,即很少建模高階和低階互動,主要建模中階互動。

圖片

2. 證明神經網路訓練的第二階段的互動變化動態過程。

在進入正式的證明之前,我們需要做以下的預備工作。首先,我們參照 [5, 6] 的做法,神經網路圖片在特定樣本上的 inference 改寫為不同互動觸發函式的加權和

圖片其中,圖片為標量權重,滿足圖片。而函式圖片為互動觸發函式,在任意一個遮擋樣本圖片上都滿足圖片。函式圖片的具體形式可以由泰勒展開推導得到,可參考論文,這裡不做贅述。


根據上述改寫形式,神經網路在特定樣本上的學習可近似看成是對互動觸發函式的權重圖片的學習。進一步地,實驗室的前期工作 [3] 發現在同一任務上充分訓練的不同的神經網路往往會建模相似的互動,所以我們可以將神經網路的學習看成是對一系列潛在的 ground truth 互動的擬合。由此,神經網路在訓練到收斂時建模的互動可以看成是最小化下面的目標函式時得到的解:

圖片其中圖片表示神經網路需要擬合的一系列潛在的 ground truth 互動。圖片圖片則分別表示將所有權重拼起來得到的向量和將所有互動觸發函式的值拼起來得到的向量。


可惜的是,上述建模雖然能得到神經網路訓練到收斂時的互動,但是無法很好地刻畫神經網路訓練過程中學習互動的動態過程。這裡引入我們的核心假設:我們假設初始化神經網路引數上包含了大量噪聲,而這些噪聲的量級在訓練過程中逐步變小。而進一步地,引數上的噪聲會導致互動觸發函式圖片上的噪聲,且該噪聲隨著互動階數指數級增長 (在 [5] 中已有實驗上的觀察和驗證) 。我們將有噪聲下的神經網路的學習建模如下:

圖片

其中噪聲圖片滿足圖片。且隨著訓練進行,噪聲的方差圖片逐漸變小。

在給定的噪聲量級圖片的情況下最小化上述損失函式,可得到最優互動權重圖片的解析解,如下圖中的定理所示。

圖片

我們發現,隨著訓練進行(即噪聲量級圖片變小),中低階互動強度和高階互動強度的比值逐漸減小(如下面的定理所示)。這解釋了訓練的第二階段中神經網路逐漸學到更加高階的互動的現象。

圖片

另外,我們對上述結論進一步做了實驗驗證。給定一個具有 n 個輸入單元的樣本,指標圖片,其中圖片, 可以用來近似測量第 k 階互動和第 k+1 階互動強度的比值。在下圖中,我們可以發現,在不同的輸入單元個數 n 和不同的階數 k 下,該比值都會隨著圖片的減小而逐漸減小。

圖片

圖 9:在不同的輸入單元個數 n 和不同的階數 k 下,第 k 階互動和第 k+1 階互動強度的比值都會隨著噪聲量級圖片的減小而逐漸減小。這說明隨著訓練進行(即圖片逐漸變小),低階互動強度與高階互動強度的比值逐漸變小,神經網路逐漸學到更加高階的互動。

最後,我們對比了在不同噪聲量級圖片下的理論互動值圖片在各個階數上的分佈圖片和實際訓練過程中各階互動的分佈圖片,發現理論互動分佈可以很好地預測實際訓練中各時間點的互動強度分佈。

圖片

圖 10:比較理論互動分佈圖片(藍色直方圖)和實際互動分佈圖片(橙色直方圖)。在訓練第二階段的不同時間點,理論互動分佈都可以很好地預測和匹配實際互動的分佈。更多結果請參見論文。

3. 證明神經網路訓練的第一階段的互動變化動態過程。

如果說訓練的第二階段中互動的動態變化可以解釋為權重圖片的最優解在噪聲圖片逐漸減小時的變化,那麼第一階段就可認為是互動從初始化的隨機互動逐漸收斂到最優解的過程。

路漫漫其修遠兮,我們團隊是做神經網路可解釋性的第一性原理,我們希望在更多的方面把這個理論做紮實,能夠嚴格證明等效互動是符號化的解釋,並且能夠解釋神經網路的泛化性、魯棒性,同時證明神經網路表徵瓶頸,統一 12 種提升神經網路對抗遷移性的方法和解釋 14 種重要性估計方法。我們後面會做出更紮實的工作,進一步完善理論體系

[1] Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan, and Quanshi Zhang. Explaining generalization power of a dnn using interactive concepts. AAAI, 2024
[2] Arthur Jacot, Franck Gabriel, Clement Hongler. Neural tangent kernel: Convergence and generalization in neural networks. NeurIPS, 2018
[3] Mingjie Li, and Quanshi Zhang. Does a Neural Network Really Encode Symbolic Concept? ICML, 2023
[4] Wen Shen, Lei Cheng, Yuxiao Yang, Mingjie Li, and Quanshi Zhang. Can the Inference Logic of Large Language Models be Disentangled into Symbolic Concepts?
[5] Qihan Ren, Huiqi Deng, Yunuo Chen, Siyu Lou, and Quanshi Zhang. Bayesian Neural Networks Tend to Ignore Complex and Sensitive Concepts. ICML, 2023
[6] Dongrui Liu, Huiqi Deng, Xu Cheng, Qihan Ren, Kangrui Wang, and Quanshi Zhang. Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities. NeurIPS, 2023

等效互動理論體系

[1] Huiqi Deng, Na Zou, Mengnan Du, Weifu Chen, Guocan Feng, Ziwei Yang, Zheyang Li, and Quanshi Zhang. Unifying Fourteen Post-Hoc Attribution Methods With Taylor Interactions. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE T-PAMI), 2024.

[2] Xu Cheng, Lei Cheng, Zhaoran Peng, Yang Xu, Tian Han, and Quanshi Zhang. Layerwise Change of Knowledge in Neural Networks. ICML, 2024.

[3] Qihan Ren, Jiayang Gao, Wen Shen, and Quanshi Zhang. Where We Have Arrived in Proving the Emergence of Sparse Interaction Primitives in AI Models. ICLR, 2024.

[4] Lu Chen, Siyu Lou, Benhao Huang, and Quanshi Zhang. Defining and Extracting Generalizable Interaction Primitives from DNNs. ICLR, 2024.

[5] Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan, and Quanshi Zhang. Explaining Generalization Power of a DNN Using Interactive Concepts. AAAI, 2024.

[6] Dongrui Liu, Huiqi Deng, Xu Cheng, Qihan Ren, Kangrui Wang, and Quanshi Zhang. Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities. NeurIPS, 2023.

[7] Quanshi Zhang, Jie Ren, Ge Huang, Ruiming Cao, Ying Nian Wu, and Song-Chun Zhu. Mining Interpretable AOG Representations from Convolutional Networks via Active Question Answering. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE T-PAMI), 2020.

[8] Xin Wang, Jie Ren, Shuyun Lin, Xiangming Zhu, Yisen Wang, and Quanshi Zhang. A Unified Approach to Interpreting and Boosting Adversarial Transferability. ICLR, 2021.

[9] Hao Zhang, Sen Li, Yinchao Ma, Mingjie Li, Yichen Xie, and Quanshi Zhang. Interpreting and Boosting Dropout from a Game-Theoretic View. ICLR, 2021.

[10] Mingjie Li, and Quanshi Zhang. Does a Neural Network Really Encode Symbolic Concept? ICML, 2023.

[11] Lu Chen, Siyu Lou, Keyan Zhang, Jin Huang, and Quanshi Zhang. HarsanyiNet: Computing Accurate Shapley Values in a Single Forward Propagation. ICML, 2023.

[12] Qihan Ren, Huiqi Deng, Yunuo Chen, Siyu Lou, and Quanshi Zhang. Bayesian Neural Networks Avoid Encoding Perturbation-Sensitive and Complex Concepts. ICML, 2023.

[13] Jie Ren, Mingjie Li, Qirui Chen, Huiqi Deng, and Quanshi Zhang. Defining and Quantifying the Emergence of Sparse Concepts in DNNs. CVPR, 2023.

[14] Jie Ren, Mingjie Li, Meng Zhou, Shih-Han Chan, and Quanshi Zhang. Towards Theoretical Analysis of Transformation Complexity of ReLU DNNs. ICML, 2022.

[15] Jie Ren, Die Zhang, Yisen Wang, Lu Chen, Zhanpeng Zhou, Yiting Chen, Xu Cheng, Xin Wang, Meng Zhou, Jie Shi, and Quanshi Zhang. A Unified Game-Theoretic Interpretation of Adversarial Robustness. NeurIPS, 2021.

[16] Wen Shen, Qihan Ren, Dongrui Liu, and Quanshi Zhang. Interpreting Representation Quality of DNNs for 3D Point Cloud Processing. NeurIPS, 2021.

[17] Xin Wang, Shuyun Lin, Hao Zhang, Yufei Zhu, and Quanshi Zhang. Interpreting Attributions and Interactions of Adversarial Attacks. ICCV, 2021.

[18] Wen Shen, Zhihua Wei, Shikun Huang, Binbin Zhang, Panyue Chen, Ping Zhao, and Quanshi Zhang. Verifiability and Predictability: Interpreting Utilities of Network Architectures for 3D Point Cloud Processing. CVPR, 2021.

[19] Hao Zhang, Yichen Xie, Longjie Zheng, Die Zhang, and Quanshi Zhang. Interpreting Multivariate Shapley Interactions in DNNs. AAAI, 2021.

[20] Die Zhang, Huilin Zhou, Hao Zhang, Xiaoyi Bao, Da Huo, Ruizhao Chen, Xu Cheng, Mengyue Wu, and Quanshi Zhang. Building Interpretable Interaction Trees for Deep NLP Models. AAAI, 2021.

相關文章