AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文主要作者來自LMMs-Lab團隊與新加坡南洋理工大學,分別是張愷宸、沈逸飛、李博,指導老師為MMLab@NTU劉子緯教授。LMMs-Lab是一個由學生,研究人員和教師組成的團隊,致力於多模態模型的研究,主要研究方向包括多模態模型的訓練以及全面評估,此前的工作包括多模態測評框架 LMMs-Eval,以及多模態模型 LLaVA-OneVision,長影片理解模型LongVA等。
多模態大模型(LMMs)給語言模型裝上了 “眼睛”,讓 AI 更接近通用智慧。但它們的大腦裡每個神經元到底在幹啥?南洋理工大學 LMMs-Lab 團隊用 “模型看模型” 的方法,成功解鎖了數十萬神經元的秘密。
以 GPT4V 為代表的多模態大模型(LMMs)在大語言模型(LLMs)上增加如同視覺的多感官技能,以實現更強的通用智慧。雖然 LMMs 讓人類更加接近創造智慧,但迄今為止,我們並不能理解自然與人工的多模態智慧是如何產生的。
像 LLaVA 一樣的開源模型是理解多模態智慧的一個契機。但這些模型(在未來)可能比人類更加聰明,如何去理解他們的智力呢?來自南洋理工大學的 LMMs-Lab 團隊給出的解決方案是:問問 LLaVA 自己是怎麼說的。
LMMs-Lab 團隊使用 LLaVA-OV-72B 對 LLaVA-NeXT-8B 中的神經元進行了自動解讀,獲得了非常多有趣的結果。
傳統的可解釋性的研究是人工去檢查每個神經元並且解讀他們的含義。這樣的操作很難擴充到多模態大模型上:其一,多模態大模型的神經元數量是傳統模型的成百上千倍,人工檢查成本過於高昂;其二,根據神經科學中的分散式表示原理,一個神經元可能會有多個含義,一個語義可能分佈在多個神經元當中。
在大語言模型中,OpenAI 和 Anthropic 提出了使用稀疏自編碼機來解離特徵表示,或者用更大的語言模型來解讀小模型裡面的神經元。比如使用 GPT-4 解讀 GPT-2。但這些工作尚未被應用到多模態模型當中,影像作為比語言更加自然的訊號,解讀影像與文字的互動能讓人們更加理解智慧的產生。LMMs-Lab 基於這些工作對於 LLaVA-NeXT-8B 做出了初步的嘗試:使用稀疏自編碼機(SAEs)來把多語義神經元解離為單語義神經元,並且用 LLaVA-OV-72B 對單語義神經元進行自動解釋,解釋能夠接近人類水平。
論文地址:arxiv.org/abs/2411.14982 程式碼:EvolvingLMMs-Lab/multimodal-sae: Auto Interpretation Pipeline and many other functionalities for Multimodal SAE Analysis. 5k 個神經元解讀樣例:lmms-lab/llava-sae-explanations-5k・Datasets at Hugging Face
這個專案能夠讓自動挖掘多模態大模型中神經元的語義資訊,讓後續研究工作可以透過修改神經元的啟用來改變模型行為,包括減少幻覺和增加安全性。
(a) 把 SAE 放在 Llava 的某一層並且在 Llava-NEXT 所有資料上訓練;(b) 找到一個神經元的最大啟用的圖片和區域,讓 Llava 找出公共點;(c) 刺激神經元可以改變模型行為
具體方法
使用 LMMs 解釋 LMMs 分為以下個步驟:
步驟一:用 SAEs 獲得單語義神經元
SAE 是一個可以追溯到 1996 年的經典解釋性的方法 [1] ,其本質是對特徵找到一組互相關性很小的基,把特徵分解為這組基的一個稀疏表示。因為基的互相關性很小,所以這些基很可能是單語義的。這篇文章使用了 OpenAI 的兩層 SAE 實現:
其中 z 是稀疏表示也是 SAEs 的神經元,W_2 是一組基。
步驟二:使用 LLaVA 解釋單語義神經元
對於上一步當中 SAE 的每個神經元 z,獲得訓練集裡面啟用最大的 K 張圖片,以及啟用最大的影像區域,把這些影像給 LLaVA-OV-72B 找出共同點。
模型對神經元生成的解釋:炸薯條。
步驟三:刺激對應的神經元
把 SAE 神經元的啟用值調高,看看模型如何表現。
可以看到,無論是否包含影像輸入或者是純文字輸入,LMM 與 LLM 的不同之處在於能夠理解視覺輸入,我們在稀疏編碼器的神經元中也找到了許多與 LLM 不一樣的地方。在進行神經元探測時,我們發現不同於先前的 LLM 工作,往往啟用最強烈的神經元並不是與高層級概念直接相關的,而是許多低層級的感知神經元。這體現了模型的思考步驟,先看懂物體是什麼,再去思考更高層級的抽象概念,譬如情感等概念。
LMMs 獨特的神經元
低層級感知神經元:對線條形狀紋理啟用的神經元
物體神經元
感情與共情神經元
這種方法找到了很多情感神經元,在刺激這些神經元之前,模型是一個冰冷的 AI,刺激這些神經元能夠引發模型的共情。
多模態一致性神經元
對動作場景,以及對應文字影像都啟用的神經元。下圖描繪了對於吃和 hungry 文字都啟用的神經元,這樣的神經元在人腦中也存在 [2] 。
定位模型錯誤原因
LMM 在實際應用使往往會產生許多幻覺,上面便是 LLaVA-NeXT-8B 在實際場景下產生幻覺的一個例子,圖片中並未標註玻利維亞但模型仍舊回答了 “Yes”。為了研究為何產生這一現象以及如何透過刺激神經元的方式抑制這一現象,我們效仿了 [3,4] 的方法進行探究。
透過探究發現,造成模型輸出 Yes 的罪魁禍首並不在影像的理解能力上,模型能夠很好的找到需要關注的點,並準確的找到各個國家的名字。然而,在文字上面,我們發現模型過分的關注了 Bolivia 這一詞,導致了最後的輸出產生幻覺。透過這一探究,我們思考如何能夠抑制這一幻覺現象並展開了實驗。
我們展示了兩個例子用刺激神經元的方式成功抑制了這一現象。我們嘗試啟用 OCR 相關的神經元,強行讓模型關注點集中在影像上,而這成功使得模型 “回心轉意”,不再依賴文字的輸出。
可能的應用以及侷限性
因為這超出了文章的範圍,這篇文章只給出了一個應用:找到引起幻覺的神經元並糾正。在未來,這樣的方法可以找出模型有危害、不誠實行為的原因並加以修正,真正達到可控的 AGI。但到達這個目標還有很多問題需要一一攻克:
1. 更高效的自動可解釋流程 —— 由於稀疏編碼器中的神經元數量眾多且需要快取大量啟用值,解釋所有神經元在目前代價十分高昂。
2. 自動啟用神經元的流程 —— 自動且高效地尋找並刺激神經元從而達到控制模型輸出的目的
3. 更準確的自動解釋流程 —— 由於模型的侷限性,許多神經元的解釋往往存在錯誤,隨著多模態大模型的推理能力逐漸增強,我們相信這一問題將會被慢慢攻克
參考文獻
[1] Bruno A Olshausen and David J Field. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381 (6583):607–609, 1996.
[2] R Quian Quiroga, Leila Reddy, Gabriel Kreiman, Christof Koch, and Itzhak Fried. Invariant visual representation by single neurons in the human brain. Nature, 435 (7045):1102–1107, 2005.
[3] Neel Nanda. Attribution patching: Activation patching at industrial scale. https://www.neelnanda.io/mechanistic-interpretability/attribution-patching,2023.Accessed: 2024-09-30.
[4] Adly Templeton, Tom Conerly, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, C. Daniel Freeman, Theodore R. Sumers, Edward Rees, Joshua Batson, Adam Jermyn, Shan Carter, Chris Olah, and Tom Henighan. Scaling monosemanticity: Extracting interpretable features from claude 3 sonnet. Transformer Circuits Thread, 2024