AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

機器之心發表於2022-09-15

1 背景


近年來,學術界、工業界以及政府部門對 AI 倫理的重視程度日益加強,從 AI 倫理監管政策到 AI 倫理技術手段,提升 AI 倫理合規性和打造 AI 倫理技術工具、產品服務成為不斷提升 AI 市場競爭優勢的一個核心點。從工業界的具體實踐角度看,國外的主流科技公司,包括 IBM、微軟、Google 等,以及國內的騰訊、微博、美團等,都持續加大對 AI 倫理的研究和實踐,騰訊研究院還發布了業內首份《可解釋 AI 發展報告 2022—開啟演算法黑箱的理念與實踐》。

可解釋 AI 是一個非常龐雜的領域,除了涉及 AI 演算法 / 模型等技術,還涉及倫理、法律法規等問題。同時,追求可解釋 AI 還需要平衡 AI 的效率和效能的問題。因此,可解釋 AI 是一個有待進一步探索的長期問題,也是迫切需要解決的關鍵問題。從可解釋 AI 研究的切入點角度來說,目前主要可以分為兩類,一類是關注如何促進模型透明性,例如,透過控制或解釋 AI 模型 / 演算法的訓練資料、輸入輸出、模型架構、影響因素等,提高模型的透明性,使監管部門、模型使用者以及使用者能夠更加容易理解 AI 模型;另一類則是研究和開發可解釋性工具,即利用工具對已有的 AI 模型進行解釋,例如微軟的用於訓練可解釋模型、解釋黑盒系統的開源軟體包 InterpretML、TensorFlow 2.0 可解釋性分析工具 tf-explain、IBM 的 AI Explainability 360 toolkit 等。

本文聚焦於研究和開發可解釋性工具的內容,對 AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三類可解釋性工具 / 方法(區域性可解釋性、規則可解釋性、概念可解釋性)進行了解讀,重點了解可解釋性工具和方法的最新研究進展。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


在剛剛過去的 AAAI-2022 中,有一個專門的 tutorial 介紹互動式機器學習的可解釋性。整個 tutorial 由四名專家分別介紹了動機和挑戰、透過區域性解釋進行互動、透過基於規則的解釋進行互動和透過基於概念的解釋進行互動四部分內容[2],聚焦於可解釋性工具,即從技術角度上提升 AI 模型本身的可解釋性,使其對於使用者來說更加“透明”。

2 透過區域性解釋進行互動

透過區域性解釋進行互動的方法是最常見的可解釋 AI 方法,即給定一個預測器和一個目標決策,輸入屬性確定哪些輸入變數與決策 "最相關",我們比較熟悉的 SHAP 解釋模型(SHapley Additive exPlanation)、LIME 直譯器(Local Interpretable Model-agnostic Explanations)都屬於這一類方法。

基於區域性解釋方法的特點包括:

  • 使使用者能夠建立個別預測的心理模型;
  • 較難獲取足夠多的樣本來獲得模型決策過程的概況;
  • 可能會根據使用者觀察到的樣本而產生偏見。

本文從 AAAI-2022 的 tutorial 中選擇一種方法,即 FIND,來進行解讀。本文正式發表在 EMNLP 2020 中,相關程式碼已公佈 https://github.com/plkumjorn/FIND。

FIND: Human-in-the-Loop Debugging Deep Text Classifiers

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


由於獲得一個完美的訓練資料集(即一個相當大的、無偏見的、能很好地代表未見案例的資料集)幾乎是不可能的,許多現實世界的文字分類器是在現有的、不完美的資料集上訓練的。因此,這些分類器有可能具有不理想的特性。例如,它們可能對某些子群體有偏見,或者由於過度擬合而在實際環境中不能有效工作。本文提出了一個框架,使人類能夠透過禁用不相關的隱藏特徵來除錯深度學習文字分類器[3]。作者將這個框架命名為 FIND(Feature Investigation aNd Disabling,特徵調查和禁用)。FIND 利用一種解釋方法,即層級相關性傳播(layer-wise relevance propagation,LRP)[1],來理解分類器預測每個訓練樣本時的行為。然後,它使用詞雲彙總所有資訊,以建立一個模型的全域性視覺圖,使得人類能夠理解由深度分類器自動學習的特徵,然後在測試期間禁用一些可能影響預測準確性的特徵。

LRP 是一種基於深度泰勒分解的解釋方法,利用輸入特徵的重要性分數來解釋神經網路預測。LRP 利用深度泰勒分解技術,透過預先訓練的網路,將輸出的相關性向後分配,並確定節點對分類的貢獻。根據啟用度和網路權值,透過在下一層傳播相關性來獲得每層的相關性。直譯器給出了與輸入影像具有相同維數的畫素級熱圖,從而視覺化了輸入影像中對所選類別有貢獻的重要區域。


現代 NLP 模型通常是端到端的,沒有顯式編碼語義特徵,理解和分析它們的工作都不直觀,所以人們很想知道模型到底都學到了什麼。如圖 1 所示,NLP 黑盒模型很難清晰的表徵單詞 (x) 和類別機率 (p) 之間的關聯關係:

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

圖 1. 單詞 (x) 和類別機率 (p) 之間的關聯難以對映 (圖片來自 Tutorial slides, https://sites.google.com/view/aaai22-ximl-tutorial)

一般來說,深度文字分類器可以分為兩部分。第一部分進行特徵提取,將輸入文字轉化為代表輸入的密集向量(即特徵向量)。第二部分進行分類,將特徵向量透過密集層後,用 softmax 啟用來獲得預測的類的機率。這些深度分類器都是不透明的,因為人類無法解釋中間向量或用於特徵提取的模型引數的含義。這使得人類無法運用他們的知識來修改或除錯分類器。相反,如果我們瞭解每個特徵中捕獲了輸入的哪些模式或質量,就可以理解模型的整體推理機制,因為分類部分的密集層就變得可解釋了。本文透過引入 LRP,檢查每個特徵檢測到的輸入模式是否與分類有關。另外,這些特徵可以應用於密集層以支援正確的類別。圖 2 具體展示了 FIND 的架構。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

圖 2. FIND 除錯框架概述

考慮一個包含 | C | 個類別的文字分類任務,其中 C 是所有類別的集合,V 表徵語料庫(詞彙)中唯一的詞彙集合。給定訓練資料集 D = {(x_1, y_1), ..., (x_N, y_N)},其中 x_i 是第 i 個文件,包含 L 個詞的序列[xi1, xi2,..., xiL],y_i 為 x_i 的類別標籤。使用一個在資料集 D 上訓練的深度文字分類器 M 將一個新的輸入檔案 x 歸入其中一個類別 M(x) 。M 可以分為兩部分—特徵提取部分 M_f 和分類部分 M_c:

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


其中,f 為 x 的特徵向量,W 和 b 為 M_c 的層引數。最終輸出為預測機率向量 p。

為了瞭解模型 M 是如何工作的,作者分析了啟用每個特徵 f_i 的輸入模式或特徵。具體來說,使用 LRP,對於訓練資料集中的樣本 x_j 的每一個 f_i,我們計算一個相關性向量 r_ij,以表徵 x_j 中每個詞對於 f_i 值的相關性分數(貢獻)。具體的,對於一個一般的神經網路

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


  • z_ij 為神經元 i 神經元 i 與神經元 j 之間的權重
  • 把所有神經元到神經元 j 的 z_ij 合起來加上 bias term 偏置項,得到上一層所有神經元到神經元 j 的向量 zj
  • 經啟用函式 g 處理得到下一層神經元 xj

瞭解特定神經元與分類決策函式 f(x)的相關性 R_j ^( l + 1 ),希望根據傳送到前一層的神經元的訊息來獲得這種相關性的分解,將這些訊息記作 R_ (i ← j)。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


l + 1 層的某個神經元 j 的相關性 = l + 1 層的神經元 j 給 l 層所有神經元的相關性之和。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


x_j 和 f_i 的相關性向量 r_ij 可以依上式計算得到。

在對訓練樣本的所有 d 個特徵執行上述操作後,可以生成詞雲來幫助使用者更好地理解模型 M。這樣就做到了:不清楚潛在特徵是什麼意思,但清楚它是如何對映到每個類別的,即模型的可解釋性。

詞雲: 對於每個特徵 f_i,建立(一個或多個)詞雲,以視覺化輸入文字中高度啟用 f_i 的模式。這可以透過分析訓練資料中所有 x_j 的 r_ij 並在詞雲中顯示獲得高相關性分數的詞或 n-grams 來實現。作者表示,不同的模型架構可能有不同的方式來生成詞雲,以有效地揭示特徵的行為。

本文選擇 CNN 作為分類器,來自訓練樣本的每個特徵都有一個包含 n-grams 的詞雲,由 CNN 的 max-pooling 選擇。如圖 3,對應於過濾器大小為 2 的特徵,給出了 bi-grams(例如,“love love”, “love my”, “loves his” 等),其字型大小與 bi-grams 生成的特徵值的大小相對應。這與之前的工作分析 CNN 特徵的方式類似,相當於使用 LRP 對輸入的特徵值進行反向傳播,並裁剪出 LRP 得分不為零的連續輸入詞,顯示在詞雲中。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

圖 3. 來自 CNN 的一個特徵的詞雲(或字面意思是 n-gram)

如前所述,我們想知道學到的特徵是否有效,是否與分類任務相關,以及它們是否從下一層獲得適當的權重,可以透過讓人類考慮每個特徵的詞雲並告訴我們該特徵與哪個類別相關來實現。

不過,在實際場景中這樣的直接應用還是存在問題。如果一個詞雲接收的答案與它真實的類別(表徵為 W)不同,則表明該模型存在問題。例如,假定圖 3 中的詞雲表徵情感分析任務中的特徵 f_i,但 W 的第 i 列暗示 f_i 分類為“負面情感類別(negative sentiment class)”,則我們可以判斷這個模型是不正確的。如果這個詞雲出現在產品分類任務中,這也是有問題的,因為詞雲中的短語對任何產品類別都不具有鑑別性,是無法給出正確的分類結果的。因此,作者進一步修正該方法,為使用者提供了禁用與任何有問題的詞雲相對應的特徵的處理方式。將 M_c 修正為 M’_c:

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


Q 是一個掩碼矩陣,⊙是一個元素相乘的運算子。最初,Q 中的所有元素都是能夠實現特徵和輸出之間所有連線的元素。為了禁用特徵 f_i,將 Q 的第 i 列設定為零向量。禁用特徵後,凍結 M_f 的引數並微調 M’_c 的引數 (除了掩碼矩陣 Q) 在最後一步用原始訓練資料集 D 進行微調。

作為示例,作者在 Yelp 資料庫中進行了實驗。Yelp 庫用於預測餐廳評論的情緒(正面或負面),作者抽出 500 個樣本作為 Yelp 的訓練資料。使用 MTurk 上的人類反應來給特徵分配等級。由於每個分類器有 30 個原始特徵(d = 30),作者將它們分為三個等級(A、B 和 C),每個等級有 10 個特徵。預計排名 A 的特徵對預測任務最相關、最有用,而排名 C 的特徵最不相關,可能會破壞模型的效能。

圖 4 顯示了來自 Yelp 資料集的三個 CNN 樣本之一的平均特徵分數的分佈。圖 5 給出了每個等級的詞雲的示例。我們可以清楚地看到這三個特徵的不同質量。一些參與者回答說,圖 5 中的等級 B 特徵與正面類別相關(可能是由於 "delicious" 這個詞),W 中這個特徵的權重也是如此(正面:負面 = 0.137:-0.135)。有趣的是,圖 5 中的等級 C 特徵得到了負分,因為一些參與者認為這個詞雲與正面類別有關,但實際上模型將這個特徵作為負面類別的證據(正面:負面 = 0.209:0.385)。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

圖 4. 在 Yelp 資料集上訓練的 CNN 模型的平均特徵分數的分佈

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

圖 5. 排名 A、B、C 的 CNN 特徵的詞雲示例

3 透過基於規則的解釋進行互動

透過基於規則的解釋可以看做是一種基於全域性解釋的方法。基於全域性解釋方法的特點包括:

  • 能夠提供一個概述圖;
  • 能夠避免表述性偏見;
  • 這種全域性簡化的概述處理是以忠實性為代價的。

規則可以直接從資料中學習(白盒模型),也可以從模型的替代物中學習(黑盒模型)。現有基於規則的解釋方法的區別主要在於“規則的複雜性、準確性、非重疊性” 這三方面。此外,他們在展示規則的方式上也有差異(決策列表、決策集)。為了準確反映決策邊界,規則必須涵蓋越來越窄的資料片 / 集,而這反過來會對可解釋性產生負面影響。我們也從 tutorial 給出的方法中選擇一篇進行深入解讀。

Machine Guides, Human Supervises: Interactive Learning with Global Explanations

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


本文是 AAAI 2021 中的一篇文章,提出瞭解釋性引導學習(explanatory guided learning,XGL),這是一種新型的互動式學習策略,在這種策略中,機器引導人類監督者為分類器選擇資訊豐富的樣本。這種引導是透過全域性解釋來提供的,全域性解釋總結了分類器在樣本空間的不同區域的行為,並暴露出其缺陷。與其他由機器發起並依賴區域性解釋的解釋式互動學習策略相比,XGL 的設計是為了應對機器提供的解釋超過分類器質量的情況。此外,XGL 利用全域性解釋來開啟人類發起的互動的黑匣子,使監督員能夠選擇挑戰所學模型的資訊樣本。XGL 最大的優勢在於:規則可以是簡單的,同時用來指導人類的反饋[4]

令 H 表徵一類黑盒分類器 h,即神經網路或核心機。我們的目標是從資料中學習一個分類器 h。最初我們可能只能獲得一個小的訓練集 S_0,隨後可以透過 supervisor 獲取更多的樣本。為了便於理解和控制,還要求機器以專家 supervisor 可以理解的方式解釋自己的信念(belief),這將有助於識別預測器邏輯中的錯誤。解釋式主動學習(explanatory active learning,XAL)就是這一類代表方法。在 XAL 中,機器從一個未標記的樣本池中選擇 queries x,並要求 supervisor 對其進行標記,此外,XAL 還給出對 queries 的預測結果以及對預測結果的區域性解釋。這些解釋揭示了生成這些預測結果的原因,例如特徵相關性,並與預測結果一起構建一個 narrative。此外,supervisor 還可以透過對解釋提供反饋來控制 predictor,例如,可以指出 predictor 錯誤地依賴了哪些特徵。

不過,由於區域性解釋側重於 queries,XAL 輸出的 "narrative" 忽略了未知數(unknown unknowns,UU),根據定義,機器在這種情況下表現得很差。UU 可能會誘使機器向使用者過度推銷自己的效能,特別是當它們與高成本相關聯時。這就導致了敘述性偏見(narrative bias,NB)。直觀地說,NB 衡量的是 queries x1,...,X_T 傳達給使用者的效能與真正的風險 R_T。使用者感受到的效能是 XAL 的 narrative 隨著時間推移所暴露的損失的函式。圖 6(左)具體展示了這個問題,合成資料的設計是為了誘發未知的 UU。將紅色的樣本分組為間隔均勻的叢集,而藍色的樣本則均勻地分佈在其他地方。主動 RBF SVM 經過 140 次不確定性取樣迭代後選擇的 queries 被圈在黃色的地方,背景是決策面。queries 明顯集中在已知的紅色叢集周圍,在這些區域中分類器的預測和解釋(如特徵相關性或梯度資訊)效能都較好。queries 完全忽略了模型在未知的紅色叢集上的糟糕表現,因此也被 XAL 的輸出 narrative 所忽略。


AL(active learning)在存在未知數(unknown unknowns,UU)的情況下,也就是分類器會犯高置信度錯誤的區域,工作效果很差。這在類別偏移和概念漂移的情況下是很常見的,而當與高錯誤標記成本相關時,尤其具有挑戰性。圖 6(左)說明了這個問題,合成資料的設計是為了誘發未知的未知數 UU。將紅色的樣本分組為間隔均勻的叢集,而藍色的樣本則均勻地分佈在其他地方。主動 RBF SVM 經過 140 次不確定性取樣迭代後選擇的查詢被圈在黃色的地方,背景是決策面。查詢明顯集中在已知的紅色叢集周圍,該區域中分類器在預測和解釋(如特徵相關性或梯度資訊)方面都已經表現良好。模型在未知的紅色叢集上的糟糕表現完全被查詢所忽略,因此也被 XAL 的表述輸出所忽略。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展
圖 6. 左圖:基於不確定性的 AL 查詢已知紅色聚類周圍的點(黃色圈出)而忽略了未知的聚類;中圖:XGL 發現了大多數的紅色叢集;右圖:HINTER 從肝炎資料集中提取的規則樣本(類別為活體、死體):醫生只需花費很少的精力就能理解和(驗證)這樣的規則

本文提出使用由人類發起的互動學習作為解決敘述性偏見(NB)的方法。該方法的出發點是:如果 supervisor 能看到並理解 h 的決策面,她就能識別已知和未知的錯誤—從而確定 predictor 是否行為不當—並明智地選擇可以糾正這些錯誤的例子。當然,在實際應用的場景中 h 是非常複雜的,所以本文所討論的問題是理想狀態下的,真正的挑戰是如何使其可行。

本文提出了一種使用人類發起的互動學習作為應對錶述性偏見的方法,即 XGL。如果一個有動力的、有知識的監督者能看到並理解 h 的決策面,她就能識別已知和未知的錯誤,從而確定預測者是否有錯誤行為,並智慧地選擇糾正這些錯誤的樣本。當然,由於 h 的決策面可能非常複雜,這種策略純屬在理想狀態下的措施。因此,應用這種策略的關鍵性挑戰在於如何使其實用。

作者提出透過利用全域性解釋以一種緊湊和可解釋的方式概括 h 來解決這個問題。全域性解釋是一個可解釋的 h 的替代品 g,通常是一個淺層決策樹或一個規則集。這些模型能夠分解成簡單的原子元素,如簡短的決策路徑或簡單的規則,從而可以獨立描述和視覺化,並與個別樣本相關聯。圖 6(右)展示了一個樣本模組。通常 g 是透過模型蒸餾得到的,即,透過使用一個全域性直譯器π將 h 投影到 G 上:

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


其中,P 是 ground-truth 分佈,M 為損失函式,Ω用於衡量解釋的複雜度,λ>0 控制忠實於 h 和簡單性之間的權衡。期望值通常由一個經驗性的蒙特卡洛估計所取代,該估計使用來自 P 的新的 i.i.d. 樣本或使用任何可用的無標籤樣本。

XGL 的虛擬碼如 Algorithm 1 所示。在每次迭代中,在當前訓練集 S 上擬合一個分類器 h,並使用全域性解釋 g=π(h)進行概括。然後,將 g 提交給 supervisor。每條規則都被翻譯成 visual artifact 或文字描述,並與它所涵蓋的樣本一起展示。按照規則對樣本進行標註。然後要求 supervisor 提供一個或多個解釋有誤的樣本,將這些樣本新增到訓練集 S 中。迴圈往復,直到 h 足夠好或查詢 budget 用完。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


在實踐中,supervisor 可以透過以下方式查詢錯誤:

  • 掃描樣本,每個樣本都與預測和規則一起顯示,並指出一個或多個錯誤;
  • 搜尋錯誤的規則,然後為其提供反例。

第一種策略模仿的是引導式學習(guided learning,GL):在 GL 中,給定一個關於某些目標概念的文字描述和一個透過搜尋引擎獲得的樣本列表,使用者必須在列表中識別該概念的樣本。不同的是,在 XGL 中,樣本與相應的預測結果和解釋一起呈現,這使得使用者有可能識別實際的錯誤並理解模型。從這個角度講,XGL 之於 GL,就像 XAL 之於 AL 一樣:一種讓無互動的東西變得不透明的方法。樣本可以按規則分組,以便於對它們進行掃描。鑑於 GL 已經成功地部署在工業應用中,作者認為 XGL 也可以做到。第二種策略是針對有能力識別不良規則並識別或合成反例的專家。由於規則通常比樣本少得多(在本文實驗中,通常是 5-30 條規則 vs 數百或數千條樣本),這種策略可能效率更高。透過對規則進行適當的規範化,可以促進規則的可解釋性。

XGL 的設計是為了抵禦敘述性偏見(NB),同時使專家 supervisor 能夠識別錯誤。作者強調,簡單地將全域性解釋與機器啟動的互動式學習結合起來,並不能達到同樣的效果,因為 queries 的選擇仍然會受到 UU 的影響。XGL 的另一個好處是,它原生支援在每次迭代中選擇成批的例項,從而降低了 queries 成本。作者在本文中將討論和實驗限制在 one example-per-query 的情況下,以簡化與競爭對手的比較。

將選擇例子的責任轉移給人類 supervisor 也存在風險。全域性性的解釋可能是一個太粗略的總結,或者可能被 supervisor 誤解。這一問題同樣影響了 AL 和 XAL。所以,作者表示,應將 XGL 應用於不太可能出現這些問題或其影響可以忽略的環境中。

XGL 的主要缺點無疑是全域性解釋的認知和計算成本。計算成本可以透過隨著 h 的更新而遞增地更新 g 來減少。認知成本可以透過以下幾種方式改善:可以將全域性解釋限制在例項空間的那些區域中;根據需要調整全域性解釋的解析度,例如可以先向 supervisor 提供粗略的規則 g,然後允許他完善 g,並 "放大" 那些看起來可疑的區域或子空間。不管怎麼說,全域性解釋必然比區域性解釋或不解釋要求更高。像其他互動協議一樣,XGL 涉及一個 human-in-the-loop 的步驟,supervisor 必須參與進來並在其中投入時間和注意力。作者的論點是:在高估錯誤模型的代價很大的應用中,這種額外的努力是合理的。

作者將本文基於規則的 XGL 的實現方法命名為 HINTER(Human-INiTiated Explanatory leaRning),並在幾個 UCI 資料集上使用標準的二元分類器(SVM 和梯度提升樹)與幾個由人類和機器發起的替代方案進行了比較。作者在圖 6 所示的合成資料集以及來自 UCI 儲存庫的幾個分類資料集中進行了實驗,實驗結果見圖 7。在大多數資料集中,HINTER 的預測結果與競爭對手的預測結果相同或更好。在特別難的合成資料上,效能差異相當明顯,XGL 比競爭對手高出近 20% 的 F1 分數。作者分析這也是由於 UU 的原因。AL 和隨機抽樣只是很少查詢紅色類別的樣本,這就是他們在圖 7(左)中顯示的進展緩慢的原因,而 GL 對少數類別過度抽樣。在所有原始資料集和所有 "+uu" 變體中,XGL 的表現與所有競爭對手相似或更勝一籌。表現最差的是 german 資料集,無論選擇何種基礎分類器,XGL 在 F1 方面的表現都很差,但在表述性偏見(NB)方面仍然表現最好。綜上所述,結果表明,在存在 UU 的情況下,XGL 傾向於學習更好的分類器,而如果 UU 的問題不大,XGL 的表現也是合理的。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展
圖 7:在三個有代表性的資料集上,當查詢次數增加時,所有競爭者的 F1 得分(上)和表述偏見(下,越低越好):合成任務(左),banknote(中)和 german(右)

4 透過基於概念解釋進行互動

本節重點討論基於概念解釋的互動方法,包括基於概念的模型(Concept-based models,CBMs)和神經符號模型(Neuro-symbolic models), 這些模型注重模型解釋的更高語義水平的優勢。前述的區域性或基於規則的方法難以訪問模型內部、概念層面的原因,特別是對於黑箱模型而言。而基於概念解釋的方法則試圖從概念和語義的角度分析 AI 模型的工作機理。文獻 [5] 為 tutorial 中提及的一篇文章,我們對其加以解讀。

Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations  

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


本文最新發表在 CVPR 2022 中,主要研究目的是透過弱監督和人機互動在原型離散的潛在空間上學習視覺概念。本文提出了互動式概念交換網路(interactive Concept Swapping Networks,iCSNs),這是一個透過弱監督和隱性原型表徵來學習以概念為基礎的表徵的新框架[5]。這種以語義為基礎的、離散的潛在空間有利於人類理解和人機互動。

由於概念學習的複雜性,同時受到心理學和認知科學領域中關於概念原型的研究結果的啟發,作者研究了原型表徵在學習人類可理解和可修訂的概念表徵方面對神經概念學習者的優勢。為此,本文提出了 iCSN,它透過弱監督方式來學習隱含地將語義概念與原型表徵結合起來。這種結合是透過離散的距離估計和配對資料樣本之間的共享概念表徵的交換來實現的。iCSN 允許查詢和修訂其學習的概念(如圖 8),並整合關於未見過的概念的知識(如圖 9)。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

圖 8. 一個經過訓練的模型(左)詢問人類使用者(右),如果它從資料中提取的概念與使用者的知識相吻合。隨後,該模型可以接受來自使用者的修改意見

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

圖 9. 用於學習新概念的人機互動。使用者查詢一個物件,並在必要時引導機器的原型建議

iCSN 的完整框架見圖 10。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

圖 10.  互動式概念交換網路。iCSN 基於一個確定性的自動編碼器結構,提供一個最初的 entangled latent encoding(1)read-out 編碼器;(2)從潛在空間中提取相關資訊,並將其提取的概念編碼與一組原型插槽進行比較;(3)透過一個加權的、基於 softmax 的點積;(4)生成一個離散程式碼,表明每個概念編碼的最相似的原型插槽。iCSNs 是透過簡單的重建損失、透過匹配配對的弱監督和互動方法來訓練的;(5)共享概念的潛在概念表徵,強制將語義資訊與特定的原型表徵結合起來

基於原型的概念架構。給定輸入 x_i,為了簡單起見,下述表述中會從符號中刪除樣本索引 i,並用 x 表示整個影像。在本文框架中,x 也可以是影像子區域的潛在表徵。透過預處理步驟,例如透過分割演算法或合成生成場景模型,可以隱式或顯式地從影像中提取該子區域。此外,假設每個 x 包含幾個屬性,例如顏色、形狀和大小。將這些屬性的實現稱為基本概念,例如 “藍色” 或“三角形”。將 “顏色” 稱為一個範疇概念,或者在認知和心理科學領域中經常被稱為上位概念(superordinate concept)。由此,每個影像 x 都有 ground-truth 基本概念 c,J 表示上位概念的總數。作者做了一個必要的假設,即每個上位概念 x 只能包含一個基本概念實現。為了簡單起見,進一步假設每個上位概念包含相同數量的基本概念 K,這些概念在實踐中可能會有所不同。

假設編碼器 - 解碼器結構,定義一個輸入編碼器 h(·),它接收影像 x 並將其編碼為潛在表徵 h(x)=z。iCSN 沒有像許多基於自動編碼器的方法那樣直接從 z 重建,而是首先將幾個 read-out 編碼器 Mj(·)應用於潛在表徵 z,從而生成 Mj(z)=φ_j。將編碼φ_j 稱為概念編碼。每個 read-out 編碼器的目標是從糾纏的潛在空間 z 中提取與上位概念(例如顏色)相對應的相關資訊。我們將在下面討論如何強制提取特定於概念的資訊。iCSN 的一個核心元件是一組程式碼本,每個程式碼本包含多個原型插槽(prototype slots)。將這個集合定義為Θ:=[p_1,…,p_j]。其中,p_j 表示程式碼本,每個程式碼本包含一組有序的可訓練、隨機初始化的原型插槽。

為了將每個概念編碼φ_j 分配給 p_j 的一個原型插槽,將相似度分數 S_dot(·,·)定義為其兩個輸入的點積上的 softmax。透過這種方式,得到概念編碼φ_j 和特定原型插槽(p_j)^k 之間的相似度:

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


得到的相似度向量 s_j 包含類別 j 的每個原型插槽的相似度得分,對應的概念編碼為φ_j。為了進一步離散化和將概念繫結到各個原型插槽,引入第二個函式 Sτ(·),將加權 softmax 函式應用於相似度分數:

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


本文實驗中,逐步降低τ以逐漸加強資訊的繫結。在τ的極端情況下,∏j 類似於一個獨熱向量(在 j>1 的情況下,多標籤獨熱向量),以表徵概念編碼φ_j 最類似於第 j 個類別的哪個原型插槽。最後,將每個類別的加權相似性分數連線到一個向量中,以接收最終的原型距離碼 y,並將其傳遞給解碼器 g(·),以重建影像。

概念交換和弱監督。在訓練之前,即初始化之後,還沒有語義知識繫結到原型插槽。然而,在收斂的 iCSN 中發現的語義知識是透過弱監督的訓練過程和簡單的互動技巧間接學習的。本文采用匹配配對方法,這是一種實用的弱監督訓練過程,以克服無監督解糾纏的問題。在這種方法中,觀察到一對影像 (x,x’),它們共享資料中潛在變化因素的已知子集的值,例如顏色,而共享因素的總數可以在 1 到 J− 1 之間變化。透過這種方式,模型可以使用配對的附加資訊來約束和指導其潛在表徵的學習。以前關於弱監督訓練(特別是 VAEs)的工作恢復方法主要是在共享因子 ID 處應用 x 和 x’的編碼器分佈的乘積或平均值,而 iCSN 則是在成對錶徵之間使用一個簡單的交換技巧。具體來說,當 v 是影像對(x,x’) 之間的共享因子 ID 時,相應的相似度分數 (∏_v, ∏’_v) 在最終對應的原型程式碼之間交換:

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


這種交換過程具有直觀的語義,它迫使 iCSN 從第一幅影像中提取資訊,用於表徵第二幅影像的類別 v 的屬性

訓練目標。iCSN 最終透過在大小為 N 的批次中每對影像的單畫素重建損失進行訓練:

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展


該損失項與之前關於原型學習的幾項工作形成對比,之前的這些工作會透過額外的一致性損失來加強語義繫結。iCSN 則透過將語義繫結隱式地包含到網路體系結構中,減少了引入額外超引數以及對多個目標進行更復雜的最佳化過程的需要。

與 iCSNs 互動。iCSNs 的目標,尤其是與 VAEs 相比,不一定是學習底層資料分佈的生成潛在變數模型,也可以是學習人類可以理解和互動的原型概念表徵。因此,自編碼器結構是達到目的的一種手段,而不是必要條件。然而,iCSN 不是在收斂後丟棄解碼器,而是可以呈現輸入樣本對每個概念最接近的原型重建。因此,透過在測試時查詢這些原型重建,人類使用者可以確認預測的概念是否有意義,並可能檢測到不想要的模型行為。透過定義測試時重構誤差的閾值,iCSN 可以給出其在識別新樣本中概念的確定性的啟發式指示。

由於存在離散且語義受限的潛在程式碼 y,人類使用者可以透過將 y 視為多標籤獨熱編碼與 iCSNs 互動。例如,邏輯陳述∀img. ⇒ ¬hasconcept(img, p 11 ) or ∀img. isin(img, imgset) ⇒ hasconcept(img, p 12 ),使用者可以制定邏輯約束,分別讀作“從未檢測到原型 p 11 所代表的概念”“對於這組影像中的每一幅影像,你都應該檢測到原型 p 12 所代表的概念。”。使用者可以以互動方式管理一組表現不正確的影像。

最後,iCSNs 的模組化特點還具有互動式線上學習能力。例如,當模型提供包含新概念的資料樣本時,或當資料中存在的一個因素最初被認為不重要,但在初始學習階段被認為很重要時,在這兩種情況下,互動的方法取決於要學習的概念的層次結構,即它是基本概念還是上位概念。假設人類使用者對 iCSN 之前的概念表示滿意,並且 J(每個程式碼本的原型槽總數)被設定為高估,使用者可以簡單地透過相關類別的一個未使用的原型插槽給出反饋以表示新的基本概念。如果需要學習一個新的上位概念,可以在初始訓練階段透過新增額外的 read-out 編碼器來實現。與其他 read-out 編碼器相比,該編碼器不對映到原型插槽的空間。最終,可以訓練 iCSN 的初始潛在空間 z 來表徵完整的資料分佈。為了包含最初被認為不相關的概念,可以只擴充套件 J,這意味著新增一個新的 read-out 編碼器 m_J+1(z)=φ_J+1 和程式碼本 P_J+1 到 iCSN。然後,m_J+1 學習將新的基本概念從 “新的” 上位概念繫結到 p_J+1,p_J+1 只需要新的資料對來舉例說明以前不重要的概念。

本文提出了一個新的基準資料集:基本概念推理(Elementary Concept Reasoning,ECR),如圖 11。ECR 由恆定顏色背景上二維幾何物件的 RGB 影像(64×64×3)組成。物件的形狀(圓形、三角形、正方形和五邊形)、大小(大小)和顏色(紅色、綠色、藍色、黃色)可以不同。為每種顏色新增均勻的抖動,從而產生不同的色調。每個影像都包含一個固定在影像中心的物件。對影像進行配對處理,使單個影像中的物件至少共享 1 個、最多共享 J− 1 個共有屬性。ECR 包含 5000 個影像對和 2000 個用於驗證的影像的訓練集。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

圖 11. 基本概念推理資料集樣本。每張樣本影像(左)描繪了一個居中的二維物體,具有三種不同的屬性:顏色、形狀和大小。對影像進行配對,使得這些物體共享一個和兩個概念(右)

在本文實驗中,作者將 iCSN 與幾個基線方法進行比較,包括無監督訓練的β-VAE 和使用編碼器分佈的算術平均值的 Ada-VAE。為了與透過共享匹配配對訓練的 iCSN 和 Ada-VAE 進行公平的比較,最初將 Ada-VAE 作為一種較弱的監督形式引入,作者也用已知的共享因子 ID 訓練 Ada-VAE。這個基線本質上類似於β-VAE,在已知的共享因子 ID 處對影像進行編碼器分佈的平均化。這一方法在本文實驗結果中表示為 VAE。最後,作者將 iCSN 與一個離散化的 VAE 方法進行比較,該方法透過 Gumbel-softmax 技巧使用分類分佈(Cat-VAE)。Cat-VAE 的訓練方式與 VAE 相同,即透過份額配對和編碼器分佈的平均化。

作者透過線性探測研究每個模型的潛在編碼。表 6(上)中的結果記錄了不同模型在五次隨機初始化過程中所進行驗證集的平均精度和標準偏差。我們觀察到,CSN 的潛在編碼具有近乎完美的預測效能,並且超過了所有變分方法。重要的是,CSN 的表現甚至超過了 VAE 方法(VAE 和 Cat VAE),後者與 CSN 在同樣型別的弱監督下接受訓練。β-VAE 的平均效能比弱監督模型差。然而,Ada-VAE 的表現比β-VAE 差。此外,Cat VAE 的離散潛在表徵也比 CSN 表現差。Cat VAE 執行情況表明效能存在較大偏差,同時表明多個 Cat VAE 執行收斂到次優狀態。總之,儘管 ECR 資料集僅包含單個 2D 幾何物件的變化,但基線模型的效能不如 CSN,即使使用相同數量的資訊進行訓練。

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

表 6. 透過決策樹(DT)和邏輯迴歸(LR)進行線性探測。(上)對 iCSN 模型和各種基線的 latent codes 進行探測。(下)透過對 Cat-VAE 的 latent codes 進行探測,並進行編碼器分佈交換和 iCSN 概念編碼平均化的消融研究。所有的分類準確率都是在測試集上計算出來的

iCSN 的語義約束離散潛在空間的一個優點是,人類使用者可以直接識別次優概念表徵,見上文所示的圖 8。在識別正確或錯誤學習的概念後,使用者可以在這個離散的概念空間上應用簡單的邏輯反饋規則。具體來說,在透過弱監督進行訓練後,建議機器和人類使用者討論所學的概念,並確定這些概念是否與使用者的知識一致,或者是否需要修改。例如,iCSN 可以學習在幾個原型插槽上表示顏色,或者透過一個插槽表示兩個形狀,這表明它錯誤地認為這些形狀屬於同一個概念。然後,iCSN 可以透過兩種方式傳達其學到的概念。首先,它可以根據推斷出的離散原型距離程式碼對共享一個概念的新影像進行分組,並詢問人類使用者分組後的影像是否確實共享一個共同的基本概念,如圖 8 所示。其次,利用解碼器,它可以呈現每個學習概念的原型重建,例如,呈現具有藍色原型陰影的物件,參見上文所示的圖 9。在確定了潛在的次優概念表徵之後,人類使用者可以透過邏輯規則在 iCSNs 的離散化潛在空間上進行互動,並進一步改進表徵。

對於之前所有的 vanilla CSN 配置,人工檢查了 32 個可能的概念組合中的一個示例的概念編碼 y,並確定了在每個單獨概念的大多數示例中 “啟用” 的原型插槽(主插槽),此外,根據概念識別那些在示例子集(輔助插槽)中從未啟用或很少啟用的原型插槽。接下來,在 y 上應用 L2 損失,使用原始重建損失和該額外 L2 損失微調原始訓練集上的先前執行結果。這種反饋的語義是,應該只由主要原型槽來表示概念。此外,在兩次執行中,修改了一個觀察到的次優解,即五邊形和圓繫結到同一原型插槽。因此,在訓練集的所有五邊形樣本上提供反饋,以繫結到另一個空的原型插槽,並再次透過額外的 L2 損失約束最佳化。

5 小結

我們在這篇文章中從可解釋性工具的研發角度討論了可解釋 AI 問題,討論的依據是 AAAI-2022 tutorial 中提及的最新研究成果。目前,國內外關於可解釋 AI 真正落地的應用還比較少,主要集中在幾個超大型公司,而學術界對這一問題的關注也遠不如其它 AI 領域多。但是隨著數字經濟的重要性越來越高,平臺企業的合規性發展成為了下一步 AI 演算法 / 模型應用的關鍵。此外,從監管端來說,促進可解釋 AI 的發展也是有效監管數字經濟的重要抓手。最後,可解釋 AI 也是我們廣大使用者應用 AI 模型的定心石。隨著越來越多國內大型企業對可解釋 AI 的重視度不斷提升,相信可解釋 AI 會很快在大量的應用場景中使用,可解釋性工具的研發也會受到更多研究人員的關注。

本文參考引用的文獻

[1] Bach S , Binder A , Montavon G , et al. On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation, PLOS ONE, 2015, 10

[2] Tutorial on Explanations in Interactive Machine Learning,AAAI 2022,https://sites.google.com/view/aaai22-ximl-tutorial

[3] Lertvittayakumjorn et al., 2020, FIND: Human-in-the-Loop Debugging Deep Text Classifiers, EMNLP 2020

[4] Teodora Popordanoska, Mohit Kumar, Stefano Teso, Human-in-the-Loop Debugging Deep Text Classifiers,AAAI 2021

[5] Stammer, W. , et al. "Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations." CVPR 2022

相關文章