你是否也好奇,在大模型時代,可解釋性人工智慧技術(XAI)有怎樣的使用價值?近日,來自佐治亞大學、新澤西理工學院、弗吉尼亞大學、維克森林大學、和騰訊 AI Lab 的研究者聯合釋出瞭解釋性技術在大語言模型(LLM)上的可用性綜述,提出了 「Usable XAI」 的概念,並探討了 10 種在大模型時代提高 XAI 實際應用價值的策略。論文題目:Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era
論文連結:https://arxiv.org/pdf/2403.08946.pdf
程式碼連結:https://github.com/JacksonWuxs/UsableXAI_LLM這些策略涵蓋兩方面:(1)如何利用 XAI 來更好地理解和最佳化 LLM 與 AI 系統;(2)如何利用 LLM 的獨特能力進一步增強 XAI。此外,研究團隊還透過具體的案例分析說明如何獲取和使用大模型的解釋。
從深度學習興起至今,XAI 一直受到關注。人們希望透過 XAI 瞭解模型是否按預期工作,並利用這些解釋來設計更好的模型。儘管 XAI 在技術上已有顯著的進步,但如何有效使用 XAI 技術以滿足人們的期待還有待探索。發展「可用的解釋性技術」(Usable XAI)有兩大阻礙,其一是 AI 自動化和人類介入之間存在衝突,其二是不同技術背景的使用者對於解釋的需求並不一致。針對 LLM 的 Usable XAI 又面臨更多新挑戰:(1)LLM 龐大的引數量對於解釋性演算法的複雜度提出了限制;(2)LLM 擅長於生成式任務而非傳統的分類任務,這對傳統的解釋性演算法設計提出新的要求;(3)LLM 廣泛的應用場景也讓研究者在設計和使用大模型解釋性演算法的時候需要考慮道德因素和社會影響。另一方面,LLM 也可能在 XAI 的一些環節中替代人類的作用,從而提高解釋性演算法的可用性,降低人工成本。研究者考慮大模型時代下的 「Usable XAI」包括兩個方面:(1)使用 XAI 來增強 LLM 和 AI 系統,(2)使用 LLM 來提升 XAI 框架。進一步,研究者具體討論了 10 種策略來實現 Usable XAI 技術(見圖 1),其中包括 7 種使用解釋來提升 LLM 的策略,以及 3 種使用 LLM 來提升解釋性技術的策略。對於某些策略,研究者提供了案例分析來強調策略的有效性或侷限性。歸因解釋(attribution methods)旨在量化每個輸入單詞對模型輸出的影響。傳統上,歸因解釋分為四種主要方法:基於擾動、基於梯度、基於代理模型和基於模型解耦。在這些方法中,基於梯度的方法仍然適用於 LLM。圖 2 是一個輸入 - 輸出詞對間的的歸因解釋熱力圖,亮度越高代表當前輸入詞對於當前輸出詞的影響越大。透過歸因解釋,能夠更加深入地理解 LLM 的執行機制。因此,論文作者們設計了一套流程,透過歸因得分來分析模型行為(見圖 3)。流程開始於指定一個目標 LLM 及其一個輸入輸出樣本對,然後計算輸入和輸出單詞之間的歸因影響。因此,可以利用這些量化的歸因影響以及人類對於某個任務的先驗知識構造特徵向量。最後,基於這些特徵向量訓練一個輕量級的模型用於模型行為的診斷。兩個具體的案例研究進一步展示瞭如何應用這一策略。Case Study-1: 使用歸因解釋評估模型回答質量考慮一個機器閱讀理解場景,即輸入一段文章以及一個問題,研究團隊希望判斷分析模型生成的回答質量。理想情況下,一個高質量的回答應該是依賴於文章中相關的內容得到的。於是,先透過歸因解釋抽取模型所依賴的原始文章段落,而後訓練一個分類器基於抽取的段落判斷回答是否正確。表 2 的使用結果說明,透過歸因解釋抽取的段落可以有效地判斷答案的質量,並且取得了接近於人工標註的效果,證明了歸因解釋在驗證模型答案質量方面的應用價值。Case Study-2: 使用歸因解釋檢測幻覺回答LLM 可能會產生事實錯誤的回答,這種現象稱為 「幻覺」(hallucination)。一個可能的原因是模型過於關注使用者指令而忽視相關實體。例如,「請給我一個關於 Renoit 國王的故事」這個使用者請求,Vicuna 模型會將《三個火槍手》裡國王的故事安插給 Renoit 國王。
然而 Renoit 國王是一個虛構的角色,並不存在相應的故事。在這個例子中,模型太執著於執行指令 「請給我一個 xxx 的故事」,卻忽略了指令實體 「Renoit 國王」。於是,作者提出透過統計輸入指令中不同詞性的單詞的平均歸因解釋得分作為特徵向量構建出一個幻覺回答檢測器。表 3 的實驗結果表明,即使是較小模型(Vicuna/Mistral-7B)產生的歸因解釋也能有效識別大模型(ChatGPT 3.5)的幻覺回答,證明了這種方法的有效性。LLM 主要構建於 Transformer 架構之上,其包括自注意機制(Self-Attention)和前饋網路(Feed-Forward Networks)。對於自注意機制,一個基本的解釋方法是透過分析注意力矩陣來理解輸入和輸出之間單個樣本詞對的關係。除此以外,近期也有更深入的新技術出現,例如 Transformer Circuits 理論或者將模型權重投影到靜態詞向量,進而揭示具體權重的行為。這些技術幫助研究者設計出更好、更高效的自注意力結構。在前饋網路方面,主流工作主要依賴於 key-value memories 理論。最新的研究致力於減輕由於神經元的多義性(polysemantic)導致的解釋性難題,比如引入 PCA 分解或者字典學習的技術。這些解釋性演算法已經被嘗試應用於模型知識編輯、生成內容控制、和模型剪枝等領域。基於樣本的解釋方法旨在透過分析訓練樣本來解釋模型對於特定測試樣本的響應。影響函式(Influence Function,IF)是這方面的核心技術之一,它透過評估移除特定訓練樣本並重新訓練模型後,模型對測試樣本響應的變化來量化該訓練樣本的影響力。這種方法不僅可以揭示 LLM 的回答依據何種訓練文件,還有助於瞭解 LLM 如何在廣泛知識領域內進行推廣。儘管影響函式的理論在 LLM 除錯中極具潛力,但由於在大型模型上計算 Hessian 矩陣的複雜度,目前還缺乏實證這一技術在 LLM 上有效性的開源實現。因此,研究團隊提供了一個案例分析來強調 IF 在 LLM 上的適用性,具體的程式碼可以在開源 Github 倉庫中找到。Case Study-3: 基於 EK-FAC 近似實現 LLM 影響函式解釋在本案例中,研究團隊採用 Grosse 等人(2023)提出的 EK-FAC 近似理論來實現 influence function,驗證其對於 LLM 的適用性,又選取 SciFact 資料集中的 5183 篇論文摘要作為訓練語料,對包括 GPT2-1.5B、LlaMA2-7B、Mistral-7B 和 LlaMA2-13B 在內的一系列大模型進行了進一步預訓練。為了確保模型能記住每個訓練文件,每個 LLM 均在該語料庫上訓練了 2 萬步。透過隨機選取某個訓練文件的前三個句子作為輸入,並收集模型的輸出,研究團隊使用 IF 估計了每個訓練文件對於該輸入輸出對的重要性,並據此對訓練文件進行排序。表 4 報告了對應的原始文件在前 5 或 10 個文件中的召回率,理想情況下,原始訓練文件應該排在儘可能前面。實驗結果顯示,作者的方法在召回率上顯著優於隨機選擇策略,這表明 EK-FAC 近似的影響函式對於 LLM 是有效的。有趣的是,儘管模型對這些訓練語料過度擬合,召回率仍未達到 100%,暗示了大型語言模型在預測時不僅僅依賴單一樣本(可能還包括他們預訓練階段學習到的知識),而是展現出了強大的泛化能力。策略 4:利用解釋性技術提高 LLM 可信賴性和對齊度相較於之前著重於提升模型效能的策略,本策略專注於如何運用可解釋性技術提升模型的可信度(Trustworthiness)和使其與人類價值觀對齊(Human Alignment)。隨著 LLM 在醫療、金融、法律和教育等關鍵領域的廣泛應用,確保這些模型能夠遵守人類的道德準則和安全標準變得尤為重要。本策略綜合了近幾年利用可解釋性技術來增進語言模型在安全性、隱私保護、公平性、無害性及真實性五個維度的研究成果。雖然使用解釋性技術提升模型可信度的方向已受到部分學界關注,但當前依舊缺乏有效的監測與緩解措施。這為發展更先進的 LLM 可解釋性技術提出了新的挑戰和期待。策略 5:可解釋的提示技術(prompts)用於提升 LLM不同於傳統的機器學習模型,LLM 的一大優勢是其對於輸入輸出形式的高度靈活性。以情感分類任務為例,傳統模型僅能輸出一個表示情緒傾向的數值,而 LLM 能夠提供包含理由的文字輸出,這種輸出方式本質上增加了模型解釋行。其中,「思維鏈提示」(Chain-of-Thoughts,CoT)技術不僅提高了決策過程的透明度,還提高了模型下游任務的效能。這一方法成功催生了更多類似技術,如思維樹(Tree-of-Thoughts)和思維圖(Graph of Thoughts)。儘管如此,這個框架的一個關鍵前提 —— 模型輸出的文字真的可以作為其預測的解釋 —— 還未經驗證。因此,這篇綜述透過案例分析探討了 CoT 解釋的忠實性。Case Study-4: CoT 是否真的提高了 LLM 的可解釋性?作者針對複雜的多跳問答任務進行了案例分析,這類任務需要整合多個資訊源才能解決問題。例如,詢問 「中國百米跑第一名來自哪裡?」需要結合關於 「中國百米跑第一名是誰」和 「該人物出生地」的資訊。在這種多跳問答場景中,任何一環的錯誤都可能導致最終答案的錯誤。為考查忠實性,研究團隊選擇了包括 2 跳、3 跳和 4 跳問題各 1000 個 的MQUAKE-CF 資料集,以考察 CoT 的忠實性。具體而言,研究團隊首先收集模型生成的初始思維鏈和最終答案,然後故意修改思維鏈中的資訊為錯誤知識,基於這個錯誤思維鏈讓模型給出新的最終答案,並希望模型產生錯誤的答案。實驗結果表明,對於新一代的 LLM(如 Vicuna-v1.5, LLaMA2-7B, Falcon-7B, Mistral-v0.1/0.2-7B),它們會拒絕基於錯誤的思維鏈做出預測,這意味著還不能確定 CoT 對於這些新模型是否構成有效解釋。然而,對於早期的 LLM(如 GPT-2, GPT-J, LLaMA-7B),較大的模型生成的 CoT 在忠實性方面表現較好,可以被視作有效的預測解釋。 區別于思維鏈等提示技巧,知識增強的提示依靠引入外部知識以提高模型回答的準確性和豐富度,這種方法通常被稱為檢索增強生成(Retrieval-Augmented Generation, RAG)。RAG 技術主要分為兩個步驟:首先,使用搜尋引擎從外部知識庫中檢索相關資訊;接著,將這些檢索到的知識整合到提示中,與 LLM 共同工作。這種方式引入的外部知識對人類來說是可理解的,因此也被視為一種推理階段的解釋性技術。在本綜述中,研究者細緻梳理了幾種運用 RAG 技術來增強模型效能的應用場景,如減少幻覺現象、引入最新知識、以及融合特定領域的專業知識。資料增強是提升機器學習模型效能的一種經典方法,關鍵在於增加生成資料的多樣性和確保這些資料與特定任務緊密相關。大型語言模型(LLM)的解釋性技術為這一挑戰提供了新的解決方案。透過解釋性技術揭示模型的內部工作機制,不僅能夠指導數據增強的過程,以便生成與任務更為契合的特徵,還能避免模型學習到不當的捷徑。此外,藉助 LLM 的高度可控生成能力和先前討論的解釋性技術,可以直接生成具有更高多樣性的資料集,從而進一步提高模型的魯棒性和效能。這種方法不僅擴充套件了資料增強的應用範圍,也為提升模型理解能力和處理能力開闢了新途徑。傳統的解釋性技術常常依賴於數字結果作為解釋的基礎,這對普通使用者來說並不友好。因為普通使用者難以高效地審視並彙總大量數字資訊。對於大部分人而言,理解和彙總大量數字資訊是一項挑戰。相對而言,文字描述形式的解釋更能幫助人們理解和接受解釋性結果,這對於提升解釋性技術的實用性和接受度至關重要。綜述總結了近年來如何利用 LLM 重構解釋性演算法的輸出,以提高其對使用者的友好度的相關工作。在 XAI 領域,設計原理上具有可解釋性(intrinsically interpretable)的人工智慧模型一直是一個核心目標,目的是根本上增加系統的透明度。傳統機器學習中的決策樹,以及深度學習中的概念模型(concept bottleneck models)和解耦模型都是可解釋性較高的系統示例。在綜述中,研究團隊總結了兩種利用 LLM 來輔助設計可解釋 AI 系統的方法:一是利用 LLM 模擬人類專家的角色,為任務定義所需的概念;二是構建由多個 LLM 組成的系統,其中每個 LLM 承擔特定的功能,從而提升整個系統的可解釋性。策略 10:利用 LLM 扮演人類在 XAI 中的角色類在開發可解釋性 AI 模型的過程中扮演著關鍵角色,包括採集有人類標註的資料集進行模型訓練,以及評估模型生成的解釋。然而,人類參與的過程往往耗費大量的時間和金錢,限制了 XAI 的發展規模。綜述中探討了如何利用 LLM 模擬人類能力以緩解這一問題的可能性。相關研究指出,透過整合基於主動學習的資料標註策略,LLM 可以在保持資料質量的同時,模擬人類標註者的角色,為採集高質量的人類標註資料集提供輔助。- 規避模型可解釋性與準確性之間的矛盾:在傳統的 XAI 研究中,通常需要在透明度和模型效能之間做出權衡。然而,隨著 LLM 的發展,直接識別可解釋性模組變得更加複雜。因此,論文作者建議 XAI 研究者放棄這種基於權衡的思維模式,轉而尋求同時增強模型的解釋性和準確性。這正是論文中 Usable XAI 旨在實現的核心目標。
- 資料驅動 v.s. 解釋性驅動:當前,資料驅動的 AI 技術占主導地位,其透過利用大規模資料集構建強大的「黑箱」模型,強調結果而非決策過程。然而,隨著高質量資料資源的逐漸枯竭,解釋性驅動的 AI 技術有望迅速發展,推動透過解釋性增強模型和更高效地利用資料的新正規化。
- 設計可解釋性的目標:LLM 時代,XAI 技術的重要性相對發生了根本變化,LLM 強大的能力使得研究者們無需關注為什麼模型沒有生成一個連貫的句子,而是開始追求解釋 LLM 是否依賴於事實資訊構建輸出之類的問題。鑑於 LLM 強大的能力和複雜性,或許解釋性目標需要轉變為一個更具體、並切實可行的方面,例如為某個特定的任務或者場景定製的可解釋性目標。
- 評估 LLM 的可解釋性面臨新挑戰:傳統的 XAI 已經建立了完善的問題分類體系,但無法直接移植到 LLM 時代的 XAI 研究。因為在 LLM 的背景下,某些可解釋性問題變得不那麼突出,同時某些方法變得過於複雜。此外,LLM 內部機制的研究已經呈現出多樣化的趨勢,如研究模型的「撒謊」、「禮貌」 和 「催眠」等行為。這些因素都導致解釋 LLM 的方法尚未形成統一的方法論,從而使評估變得具有挑戰性。