上海交大張拳石:思維鏈只是表象,DeepSeek憑什麼更強 | 智者訪談

机器之心發表於2025-03-09
圖片

一線 AI 洞察,智者深度思考

深入產業變革,共創 AI 未來

圖片

DeepSeek-R1 等模型透過展示思維鏈(CoT)讓使用者一窺大模型的「思考過程」,然而,模型展示的思考過程真的代表了模型的內在推理機制嗎?在醫療診斷、自動駕駛、法律判決等高風險領域,我們能否真正信任 AI 的決策?

本期《智者訪談》邀請到上海交通大學張拳石教授,他在神經網路可解釋性研究領域開創了新的理論框架。

不同於傳統的工程技術層面的解釋方法,張教授提出了「等效與或互動」解釋性理論,用嚴謹的數學符號化方式證明神經網路的內在表徵邏輯,為理解泛化性、魯棒性和過擬合提供了新的視角。

面對大模型發展的各種挑戰,張教授強調了理論創新的重要性。他說:「所謂十年磨一劍,相比用十年時間去最佳化一個複雜系統,更多是用十年去等待一個真正值得投入的問題。」上海交大張拳石:思維鏈只是表象,DeepSeek憑什麼更強 | 智者訪談
時間戳

01:20 思維鏈是模型的真實思考過程嗎?
05:39 將表徵邏輯嚴謹解釋為符號化互動概念
14:16 幻覺、欺騙與創意:本質相同
20:49 結果導向,模型的自我糾正與提升:潛在風險
28:00 從表徵角度理解泛化性、魯棒性的根因
31:56 過擬合的內在機理
38:43 大模型的質量評估、安全與商業發展
46:06 從 Scaling 的維度到維度的 Scaling
50:10 用 CoT 資料反哺訓練的潛在風險
52:36 如何在 AI 研究中找到真正的「大問題」

訪談文字整理

機器之心:張拳石教授好,歡迎做客《智者訪談》。要說最近 AI 圈的熱點,可能是全球科技界的熱點,毫無疑問就是 DeepSeek 了。

DeepSeek-R1 在「深度思考」模式下,會把它的「思考過程」,也就是思維鏈(Chain-of-Thought, CoT)以文字的方式展示出來。這不僅大幅提升了使用者的體驗,也讓模型的可解釋性再一次成為關注的焦點。實際上,深度學習可解釋性作為研究方向,在學界一直備受重視。它不僅關乎 AI 的應用,尤其是在醫療、自動駕駛等對於安全和可靠性極度敏感的行業的應用,更事關深度學習成為一門科學的基礎。

您鑽研深度學習的可解釋性多年,並且開創了新的理論,也即使用數學的、嚴謹的、符號化的方式去解釋深度神經網路的內在表徵,可以說是對傳統觀點的一種挑戰。非常高興與您一同探討 AI 可解釋性這個話題。

張拳石:感謝機器之心,很高興來這裡參與討論。像 OpenAI、DeepSeek 這些知名的大模型公司都紛紛提供了思維鏈(功能),這是很好的趨勢,大家逐漸意識到不僅要利用大模型提供輸出結果,而且需要知道大模型輸出結果的內在機理,思維鏈可以作為非常好的視窗,讓我們去看到大模型是如何處理資訊的。但是從可解釋性的角度,究竟能否把思維鏈視為大模型嚴謹的推理機制,這是存疑的。

首先需要承認,思維鏈肯定是有作用的。但是從模型的內在機理看,它跟傳統的沒有思維鏈的生成語言沒有本質區別,依然是對人類問答資料的經驗性擬合。這種經驗擬合有沒有作用呢?肯定有作用,但以什麼形式、什麼角度、什麼機制產生作用,我們是不清楚的。

如果沒有一個嚴謹的解釋性理論去嚴格分析其內在推理到底是如何執行,就沒有辦法探討更深入的問題。

機器之心:從您的角度看,不同模型展示出來的思維鏈為什麼會有這麼大的區別呢?

張拳石:思維鏈,從它的根本數學機理來說,就是大模型端對端的輸出。有些大模型給出的思維鏈看上去很好看,只能說提供的 QA 訓練資料的擬合質量可能更好。

解釋性領域實際有兩類解釋性演算法:第一類想要是迎合人的主觀認知的解釋,第二類是從數學上對神經網路內在資訊處理機制的嚴謹客觀的解釋。大模型的思維鏈,以及其他一些事後解釋,這些方法某種意義上都是對人類認知的一種擬合,就是說解釋出來的結果人能讀懂。

我問大模型你究竟是怎麼去做推理的?大模型可能事後說「我的推理依據是 1、2、3、4……」,但大模型真的是基於這些原因去做的嗎?我們並不清楚,這就帶來很大潛在風險。

所以要真正做到從數學機制層面保證大模型的解釋是嚴格的、可靠的,但是很多人認為大模型內部引數那麼多,特徵那麼複雜,不可能解釋清楚。但我們必須把這看似矛盾的兩者統一起來,提出可靠的檢驗方法,對大模型的資訊處理進行內觀與總結。

可解釋性新理論:
證明對神經網路表徵邏輯符號化解釋的嚴謹性

機器之心:既然很難從數學上符號化地證明模型內在表徵,您是如何做到這一點的呢?

張拳石:對神經網路解釋的客觀性和理論的紮實性,這是整個可解釋性領域最重要的問題,沒有之一。長期以來人們普遍認為這是不可能的,且不說大模型,就是一個深度神經網路,其內部的連線機制和特徵是很混亂的。我們希望的解釋是清晰的、稀疏的、簡潔的,甚至是符號化的因果推理,所以很多人第一反應這是不可能的。當然,並非沒有人從符號化的概念語義層面去解釋,但這些技術無一例外都是對大模型或神經網路輸出結果的一種近似擬合。

如果沒有辦法對大模型進行事後的嚴謹解釋,在自動駕駛、醫療診斷、法律判案這些重大、嚴謹的應用中是不能運用大模型的。因此,需要定義新的理論體系,定義解釋的客觀性與可靠性。

我們提出了一個叫做「等效與或互動」的神經網路可解釋性理論:給定任意一個神經網路,可能是大模型,可能是其他的神經網路,都可以用符號化的「與或圖模型」去解釋。
圖片
基於「等效與或互動」的神經網路可解釋性理論,證明可以將神經網路精細表徵邏輯嚴謹地解釋為符號化互動概念。

具體來說,對於一個包含 n 個輸入 token 的句子,存在 2n 種遮擋狀態。我們證明,任何神經網路在這 n 個 token 上的輸出置信度,都可以用符號化的「與或圖模型」精確擬合。

「與或圖模型」包含「與互動」和「或互動」的結構。以 “he is a green hand” 這個句子為例,“green hand” 就體現了「與互動」,它並非「綠顏色的手」,而是「新人」,這句話的意思是 “他是一位新人”。這種情況下,單個詞的效用與兩個詞共同產生的效用,是 1 + 1 大於 2 的,也即湧現出新的意義,對輸出結果的置信度會產生一個數值效應,比如說 0.2,當去掉 green 或 hand 任意一個,這個 0.2 得分就會消失。

「或互動」表示詞之間存在並列關係,比如 “他興高采烈、蹦蹦跳跳、眉飛色舞地去做某件事”,這三個詞都表示 “很高興”,它們之間的關係就構成了「或互動」。必須這三個單詞都不出現,輸出結果中 “很高興” 的數值效應才會消失。

我們可以從給定的大模型與給定的資料中,提取出 100 多個這樣的「與或互動」,加合起來在數值上正好等於這個大模型在這個句子上的輸出。

不僅如此,我們發現等效與或互動理論具有幾個關鍵特性。首先是「無限擬合性」,假設有 n 個單詞,與或圖模型可以完美擬合其 2n 個不同遮擋狀態下的輸出。其次是「稀疏性」,給定 n 個單詞或 n 個 token 的輸入句子,建模的互動數量通常在 150 個左右的量級,保證了內在解釋的簡潔性。

這是一個通用理論,不僅適用於自然語言生成模型,也適用於影像分類、三維點雲分類、表格資料分類等各類神經網路模型。任何神經網路都可以得到稀疏的符號化的解釋,這是基礎理論的突破。

目前 AI 研究中有個領域叫機制可解釋性(Mechanistic Interpretability),其主要目標是闡釋神經網路中各個神經元的功能和作用,致力於理解每個神經元的啟用模式所表徵的特徵或類別。但我認為這個方法是不嚴謹的,因為無法保證神經網路內部千千萬萬個神經元,每個神經元的語義都是嚴謹的。

還有特徵視覺化(Feature Visualization)或網路視覺化(Network Visualization),也就是去視覺化神經網路所建模的一些形象或特徵並加以分析或最佳化,這些方法都無法嚴格定義語義的邊界。基於互動的解釋理論避開了這些問題,提供了一個等效的、可靠的符號化解釋框架。

什麼才能真正擔當起大模型未來發展的根本性的第一性的解釋?

前面提到的兩個特性,無限擬合性與稀疏性,看似相互衝突,但能同時證明出來,就代表這是很強的一個證明。此外,我們的理論還展示出很多值得關注的特性,例如,遷移性。以人臉識別為例,如果某個互動(比如雙眼與鼻子之間的關係)在訓練樣本中出現頻率為 50%, 在測試樣本中出現頻率為 48%,說明該任務具有良好的遷移性,如果測試樣本中出現頻率僅為 1% 或 2%,則代表遷移性差。我們發現,那些具有強烈數值效應的互動通常具有很強的遷移性。

第四個特性更有趣,不同規模的語言模型,比如 7B 和 20B、30B 的大模型,在處理相同輸入時,其建模的互動有 70%~80% 是類似的。前者並非後者的蒸餾模型,而是兩個企業各自發布的模型。這種「殊途同歸」的現象表明,儘管模型結構、引數量和訓練資料都不相同,但它們最終趨向於相似的表徵方式。事實上,我們觀察到模型規模越大,建模的互動越稀疏,而小模型則可能包含更多噪聲互動。

在探討神經網路的發展方向時,通常關注三個主要維度:損失函式的最佳化、資料處理方法的改進,以及網路結構的創新。然而,我們需要思考一個更為根本的問題:這些不同的技術路徑最終應當在何處實現統一?

我們的觀察表明,儘管技術路徑各異,但不同方法在表徵層面呈現出「殊途同歸」的特性。這促使我們思考:內在表徵互動是否在某種意義上就是神經網路的第一性解釋?這也為我們理解神經網路的本質,包括重新思考泛化性、魯棒性、資訊表達能力等,提供了關鍵視角。
圖片
等效與或互動理論具有幾個關鍵特性:稀疏性、無限擬合性、遷移泛化性,以及不同方法在表徵層面呈現出殊途同歸的特性。這促使我們思考:內在表徵互動是否在某種意義上就是神經網路的第一性解釋?

機器之心:為什麼這些互動都集中在這 100 多個左右?

張拳石:需要指出,這並不是說神經網路或大模型等效於一個只有 100 多個節點的圖模型。實際上,對於不同的輸入句子或圖片,每次觸發的具體互動是各不相同的。我們只能事後基於模型輸出來分析它建模了哪些與或互動,無法提前預知,也當然無法用簡單的圖模型替代神經網路。

幻覺、欺騙與創意:
本質都是內在短鏈混亂互動的整合

機器之心:Anthropic 的安全性報告顯示大模型會出現有意識的欺騙行為,從可解釋性的角度,這代表了什麼問題?

張拳石:目前關於大模型的觀點呈現兩極分化:一方面,人們驚歎於它解決複雜數學競賽題的能力;另一方面,又質疑它在一些簡單問題上的表現(比如三位數乘法)。從與或互動的解釋框架看,這兩者其實是並行不悖的。

雖然從人類視角看,大模型似乎展現出複雜的推理能力,但解釋發現,其中約 70%-80% 的建模互動實際是基於簡單關聯的「盲猜」。例如在 Llama 1 中,輸入 “愛因斯坦提出廣義相對論,認為重力是什麼的扭曲?" 這個問題時,模型能正確輸出 "spacetime"(時空)。
圖片
表面上看,模型似乎理解了深刻的物理概念,但實際分析發現,它主要依賴 "Einstein-of" 這樣的一個簡單與互動。也就是說,只要句子中同時出現 "愛因斯坦" 和 "of",就會觸發對 "space" 這個 token 的高置信度預測,其次是 “time” 這個 token。類似的,"相對論"、"光速"、"物理學" 等詞也存在這種簡單關聯。很多這些區域性的短鏈盲猜疊加在一起,才呈現出看似複雜的推理能力。

這種解釋方法能幫助我們發現模型的內在表徵錯誤。例如,在法律大模型評測中,有這樣一個案例:張三走在路上用磚頭打了李四,造成輕傷,第二天李四又遇到王五,王五跟李四有仇,心生歹念,然後用刀子刺傷李四,造成李四死亡。模型輸出判定張三犯故意傷害罪,王五犯故意殺人罪,兩個判決都是正確的。但透過解釋發現,對張三量刑影響最大的與互動竟然是 "心生歹念" 這個描述王五心理活動的詞,這顯然是錯誤的判案依據。
圖片

評測法律大模型決策邏輯:輸出結果正確,但內在邏輯張冠李戴。由上圖可見,LLM 輸出「故意傷害罪」,影響最大的與互動是 “心生歹念”,並且大量與互動都和 “死亡” 有關。也就是說,王五造成李四死亡這一結果,很大程度上影響了 LLM 對張三的判決。

在自動駕駛領域也存在類似問題。即便在非常簡單的行人檢測任務中,我們也發現許多相互抵消的噪聲互動,一半支援 "是行人" 的判斷,另一半卻支援相反結論。這些高階互動都構成了潛在風險。
圖片
基於等效互動概念解釋,評測行人檢測的可靠性:分類結果的極高正確率不代表神經網路決策邏輯完全正確。從上圖可見,神經網路推理依賴的是魯棒性低的高階互動,而且互動中有很多正負抵消,體現了過擬合,並且建模的互動還覆蓋了錯誤的影像區域。

因此,評估大模型不應僅關注端到端的正確率,更要從機理層面審視潛在風險。這些風險不僅體現在錯誤決策中,更潛藏在正確決策的過程中。

對 AI 統治人類的恐懼
實質是一個數學問題

張拳石:至於大模型的欺騙行為,人們為什麼會對 AI 統治感到恐懼?這不僅是社會學和倫理學問題,很大程度上實際是數學問題:兩個智慧體之間能否建立有效溝通?能否將各自的內在推理機制轉化為清晰、簡潔的符號化系統並實現交流與對接?

人類也會撒謊。但對於機器,我們可以透過技術手段深入分析其內在邏輯,相當於把電極插在機器的「大腦」裡,在這個意義上,機器反而比人類更加透明、可信,因為它的撒謊行為是可以被直接檢測和理解的。

機器之心:您提到愛因斯坦的例子時,我想這可能基於統計規律——由於資料中存在大量 “愛因斯坦” 與 "時空"、"重力"、"物理學" 等詞的關聯,透過統計得出正確答案是可以理解的。但當您談到法律大模型用不相關人員的心理行為來判定他人案情時,即便最終結果正確,其中的邏輯卻是混亂的,這確實令人擔憂。

張拳石:人工智慧實際上包含兩套系統:第一套是自底向上的系統,典型代表就是神經網路,直接從資料中得出結果;第二套是自頂向下的系統,目前主要是基於知識庫和圖模型的傳統方法。雖然這些傳統方法效能不佳,但我認為這可能是對第二套系統的錯誤認知——在深度學習之前,傳統圖模型效果不好,是因為過分依賴人類預設的規則。

從人類智慧的發展來看,我們最初也沒有高階的認知和因果推理能力,都是從自底向上的應激反應開始。隨著經驗的積累,透過自我內觀和總結,從大腦神經系統中提煉出理論來概括世界。人類做決策時通常是同時運用這兩套系統。例如解數學奧賽題,並非一拿到題目就知道該用什麼定理,而是先讀題後產生直覺,覺得這個形式像什麼,可能適用於什麼定理,然後進行嘗試,如果證明成功就說明路子對了,否則就需要新的直覺再去探索,直到解決問題,這是自底向上的感覺摸索和自頂向下的檢驗查證相結合的過程。

但目前的大模型只有第一套自底向上的系統。我們做可解釋性研究,不僅僅是解釋問題,實際上是在構建人工智慧的第二套系統——自頂向下的系統,以獲得真正的可靠性。我們需要用簡潔的符號化互動來總結神經網路中的各種變化,這是第一步。第二步則是判斷這些互動是否正確,比如在司法案例中,是否存在不同犯罪嫌疑人行為的張冠李戴。

當前人工智慧發展在概念上缺少第二套系統,需要透過可解釋性研究來發現問題。僅僅依靠不斷收集新的資料、清洗資料,然後反覆試驗、訓練的方式並不高效。

透過符號化互動表徵
解釋神經網路泛化性和魯棒性的根因

機器之心:DeepSeek R1的創新點之一是直接評估推導結果而非用價值函式對推導過程進行評估,這也給了大模型自我糾錯的可能,包括 DeepSeek R1-Zero 的 Aha Moment,模型 CoT 的自動湧現。不少專業人士認為,對於愈加複雜且開放性的推理問題,基於規則邏輯的評估難以勝任,需要用結果導向替代過程導向的評估機制。這種觀點您怎麼看?

張拳石:基於結果導向的評估存在兩個主要問題。首先,它無法保證內部機理的正確性,僅能確保最終答案正確。其次,當前這種端對端的訓練和端對端的評測效率極低,在大模型階段已經到了需要用全網資料訓練,花費數千萬甚至上億美金訓練一個基座模型的地步。

目前深度學習領域存在一個問題:總是直接將技術與效能對接,認為有了某項技術就能提升效能,沒有就會導致效能下降。這個認知是不完整的。嚴格來說,應該是技術與知識表徵建立關係,知識表徵再與效能建立關係,這是一個三者關係。但由於知識表徵難以量化,我們難以確定資料清洗或思維鏈對錶徵的具體影響。現在更可靠的做法是:第一,明確技術與互動表徵的關係,即哪些技術能提升互動的數量和質量;第二,研究表徵與效能之間的關係,例如互動數量的提升是否帶來效能提升,互動複雜度的提高是否影響魯棒性等。

機器之心:在進行多模態資料對齊和融合時,有時不同資料之間會相互矛盾,提升一種資料的效能可能導致另一種資料效能下降。透過內在機制的理解是否有助於解決這個問題?

張拳石:這個問題恰恰反映了當前深度學習領域的困境,也即缺乏準確的視角去理解問題的本質。我建議從互動的角度來看:當多個模態的資料結合後,表徵數量是增加還是減少?這些表徵是關注到正確的互動還是錯誤的互動?比如法律大模型的張冠李戴問題,在表徵上是可以明確區分的。可以透過表徵的數量變化、質量變化和複雜度變化來判斷效能下降的原因,而不是簡單地說某些資料無法同時訓練。

實際上,這個問題可能與資料無關。同樣結構的神經網路,在不同的初始化狀態下,可能會在相同任務上表現出不同的效能。這涉及到神經網路底層引數對特定型別任務或樣本的天然建模能力,類似於「彩票理論」所描述的情況。這是神經網路內在難以克服的特性。同樣的資料,在網路訓練的不同階段,表現也完全不同,不能一概而論。

解釋性研究的一個重要部分是解釋預訓練神經網路的知識表徵,進而解釋其效能,包括泛化性、魯棒性等。這比單純去解釋知識表徵更重要,因為我們通常更關心的是如何提升效能。

關於泛化性,我們發現互動的階數越高,泛化性越差。二階互動指兩個單詞之間的關係,五階則指 5 個單詞的關係。比如像「白日依山盡,黃河入海流」這樣需要多個字詞精確匹配的高階互動,其泛化性就很差。當我們將表徵對映到 100-150 個互動時,這個問題就變成可計數的。例如,當某個互動(如人臉識別中眼睛和鼻子的關係)在訓練樣本中出現頻率為 50%,在測試樣本中也有接近的出現頻率(如 49%),那麼這個互動的泛化性就很高。

這樣一來,泛化性評測就變成類似於對考試知識點掌握情況的評測,有多少個互動泛化了,就掌握了多少個知識點,不僅如此,還能清晰看到什麼時候泛化性好,哪些互動泛化性好。神經網路整體的泛化性的內在機理並不在於測試樣本的正確率,而是可以透過各個互動的泛化性來解釋。
圖片
關於對抗魯棒性,既然神經網路的分類置信度可以表示為約 120 個互動的和,那麼每個互動的對抗敏感度就可以解釋整體的對抗敏感度。我們發現,低階互動(一兩個 token 之間的互動)對抗敏感度較低,而高階互動的敏感度呈指數級增長。對此,我們有完整的數學證明。這就從根本上解釋了神經網路魯棒性的內在機理。

互動解釋反饋指導模型訓練
增加對模型和工程技術的可控性

張拳石:從實用角度說,我們也在創業,希望這套理論能夠切實幫助大模型公司解決實際問題。其中最關鍵的是要回答:在什麼時候停止訓練模型才是最合適的,也就是說,什麼時候模型已經獲得了正確的表達能力。
圖片
證明併成功預測了神經網路(擬合階段與過擬合階段)兩階段現象:神經網路在第一階段消除高階互動,最終只學習最低階的互動;第二階段學習階數逐漸增大的互動。

我們可以從理論上證明,任何神經網路的訓練都可以分為兩個階段。第一階段始於神經網路的引數隨機初始化時期,此時網路還不存在有意義的表徵,所有表徵都如同一團亂麻,充滿噪聲。這時模型會建立大量複雜的互動關係,但這些互動大多是無序的。神經網路中的複雜互動呈紡錘形分佈:中等複雜度的互動數量最多,而極高複雜度和極低複雜度的互動相對較少。神經網路的學習過程可以分為兩個階段:

  • 第一階段是互動去噪階段。系統會逐步刪除那些不具備泛化性的噪聲互動,專注於學習最可靠、最簡單的互動。在這個階段,訓練損失和測試損失的值基本保持一致。
  • 第二階段是複雜度提升階段。由於訓練資料的複雜性,僅依靠簡單互動無法完成分類任務,系統開始逐漸提升互動複雜度,從兩個單詞到 3、4 個單詞的組合,複雜度不斷升高以處理更復雜的資料。在這個階段,訓練損失和測試損失的差值會逐漸擴大。雖然互動數量在增加,但互動質量和泛化性在下降。

這個兩階段現象恰好反映了神經網路內在的學習可靠性和泛化性機理。傳統方法是透過損失函式來評估泛化性:測試損失與訓練損失的差值越大,表示過擬合(over-fitting)程度越高。我們發現,第一階段向第二階段的轉折點,恰好是訓練損失與測試損失開始從接近於零的差值逐漸擴大的時刻。

這個機制對大模型訓練極其重要。用擲骰子來打個比方:假設有 6 個骰子,代表 6 個不同的資料集或任務。傳統訓練方法就像是盲目搖骰子,可能最終得到 4 個點數為 6,2 個點數為 1、2 的結果,意味著在 4 個任務上表現優秀,2 個任務上表現很差。但再訓練成本過高且結果也無法保證,只能接受這個並非最優的結果。

但如果能夠實時觀測大模型在不同資料集上的兩階段現象,情況就不同了。因為每個資料集的擬合點是不同的:有些資料集很快就進入第二階段,有些可能訓練了三四周還停留在第一階段,還有些可能已經過擬合需要停止訓練。這就像對訓練過程進行 CT 掃描,讓我們能夠看到模型在每個資料集上的動態變化,知道哪些資料已經過擬合,哪些還欠擬合。

回到擲骰子的比喻,這種方法相當於能夠透視骰子,每當看到搖出一個 6 就及時停下來保留,再接著繼續搖,直到全部骰子都是 6,而不是盲目接受一次性的隨機結果。

我們正在與工業界的多家大模型公司開展產業合作,並開發出一套成熟的軟體系統,用於動態跟蹤和比較大模型的表徵質量。即使兩個大模型之間存在很多相似的互動模式,我們依然能夠量化它們之間的差異。例如,有些互動是千問大模型獨有而 DeepSeek 沒有的,反之亦然。雖然大部分知識是共通的,但這些獨特的互動模式恰恰體現出模型間的差異。這種評測方法就像 CT 掃描,雖然不直接治療疾病,但能準確定位問題所在,這是最關鍵的。
圖片

[上圖] 相比於 LLaMA-7B,原始的 Aquila-7B 建模更多高階互動,表徵質量更差:兩模型建模了相似的低階互動,Aquila-7B 建模了大量高階互動,LLaMA-7B 沒有建模相似的高階互動。[下圖] 新訓練的 Aquila2-34B 建模了更多的低階互動,表徵質量更好:兩模型建模了相似的低階互動,LLaMA-7B 建模的大量高階互動沒有被 Aquila2-34B 建模。

我們不能繼續採用「開盲盒」的方式,只是一味投入更多資金、使用更多顯示卡來訓練。正所謂知己知彼,百戰不殆。透過這套系統,可以清晰地看到模型在同一資料集上,訓練一天前後或幾小時前後的變化:是高階複雜互動在增長,還是第一階互動在增長?模型是處於第一階段的去噪階段,還是第二階段的過擬合階段?這些資訊能夠直接反映模型訓練質量和訓練效率,實現對大模型泛化性變化趨勢的實時監控和訓練指導。

機器之心:您開發的這套軟體系統已經能夠準確觀察到這些現象了嗎?

張拳石:是的。雖然我們還沒有在大規模的模型上進行測試,但在各種中小型模型的測試中都清晰地觀察到這種現象。而且,這背後有嚴格的理論支撐,大量證據都證明了這種兩階段現象的存在。

有人可能會擔心,獲取不同遮擋狀態下的所有輸出會帶來直接蒸餾的風險。實際上我們並不需要大量樣本來進行評測。當錯誤率在 30% 左右時,30.5% 還是 30.3% 的差異並不顯著,可能只需要幾百個樣本就足夠評測。理論上講,僅憑這幾百個樣本是無法完成知識蒸餾的,因此可以保證安全性。

更重要的是,我們的軟體系統已經相當成熟。如果客戶的任務或大模型涉及商業機密,可以直接將軟體部署到客戶的本地裝置上執行,確保資料安全。

給大模型評測一個硬核指標

機器之心:對商業公司,特別是領先的大模型公司來說,可解釋性似乎與效能並無直接關聯。比如用您剛才提到的法律大模型例子,如果輸出結果都是正確的,但用您的軟體檢測發現內部邏輯存在問題,公司可能就沒有動力公佈這種檢測結果。另外,在一些不需要嚴謹性的應用場景下,比如小說創作,我們可能更需要天馬行空的想象力。這種情況下,您如何看待可解釋性的價值?

張拳石:從商業發展的大方向來看,當前大模型領域是存在嚴重問題的。雖然大模型被視為高科技產業,但卻缺乏一個權威的硬核指標來嚴格評價整個領域的所有大模型。現有的評價方式主要依賴於正確性測試(benchmark)、價值對齊評估,以及使用者的主觀使用體驗。

這種評價體系存在明顯缺陷,比如榜單評測可以透過針對性訓練來「應試」,大模型公司有充足的資源去收集資料刷榜,導致評測的可靠性大打折扣。最終導致我們難以準確判斷哪個大模型更優秀。

這種情況不利於整個行業的發展:

  • 對大公司而言:比如 DeepSeek 做得很好,但除了幾位大佬的認可外,沒有硬性指標能證明它在哪些方面領先了幾個世代。現有的各種 benchmark 都可能被應試攻克,使公司難以建立起紮實的技術壁壘。
  • 對小公司而言:他們可能在特定領域(如金融、法律)的效能確實超過了知名大模型,但由於傳統榜單的不可靠,使用者仍然傾向於選擇使用知名大模型。這使得小公司即便做出了優質產品也難以獲得認可。

我們需要從內在機理的角度建立新的評測體系。雖然可以透過應試教育讓輸出的答案正確,但要修正內在表徵的邏輯混亂、張冠李戴問題卻很難做到。這種穩定的評測體系能夠:

  • 準確顯示與前沿大模型的差距
  • 幫助優秀的小公司脫穎而出
  • 讓領先的大模型鞏固競爭優勢

其次,傳統評測主要關注錯誤率,但真正的威脅在於那些表面正確但存在潛在風險的案例。比如在法律領域,明顯錯誤的判決容易被發現(比如偷東西判死刑),但我們更需要檢測那些看似正確的判決背後的潛在倫理風險。還有自動駕駛的行人檢測,每一次將出事故又沒出事故時,需要檢測並識別其潛在的危害。

第三,從政府採購和市場準入的角度看,一旦模型的內部機制被解釋清楚,人們的態度就會發生改變。人類作為整體需要擁有知情權,而且當問題出現時需要明確責任歸屬。透過可解釋性分析,我們能夠確定問題的具體原因:

  • 如果出現張冠李戴,說明資料清理不夠
  • 如果某些應該學習的互動沒有學到,說明資料量不夠
  • 如果特徵單一,說明資料多樣性不足

未來,大模型的發展需要新的評測角度和硬核指標。因為切實提升效能需要消耗大量成本,而僅僅追求表面效果,比如說某個大模型靠說俏皮話、編段子來博得關注從而獲取使用者,這是一種非常危險的訊號。到那時各家人工智慧公司應該追求什麼?我們需要更深入地評估模型的底層機制。

解釋性技術:大模型訓練的「CT 掃描」

機器之心:從您的思路來看,這似乎是一條完全不同於傳統 Scaling 的路線。2025 年大家關注提升大模型的推理能力,無論是增強思維鏈還是增加推理時計算,從您的分析看,是不是意味著所有這些訓練方法都要推倒重來?

張拳石:當前很多技術確實有效,這不是一個新理論能夠輕易撼動的。我認為解釋性技術應該與傳統技術形成互補關係。傳統的經驗性技術優勢在於能實打實地提升效能,但缺乏可控性——它並不能保證在每個任務、每個大模型、每個時刻都一定能像 1+1=2 那樣穩定地提升效能。

解釋性技術正好可以彌補這一點,增加模型的可控性。雖然我們無法預知某種方法是否一定有效,但我們能夠清楚地看到,當使用思維鏈或引入新資料後,模型的表徵在互動數量和複雜度上的變化。這就像醫院的 CT 檢查,雖然 CT 本身不能治病,但沒有 CT 就難以準確診斷和治療。

我們的目標是從當前的端對端學習,發展為交流式學習。理想狀態下,這種學習方式類似於人類交流,我們能夠透過中層的知識表達指標來觀察問題,從而量化不同經驗性演算法的有效性。本質上,我們需要建立起經驗性演算法、知識表徵和效能這三者之間的關係,而不是簡單認為某種方法(比如加入思維鏈或資料清洗)一定能提升效能。

我們的方向是將黑盒訓練轉變為灰盒訓練,透過實時觀測來判斷訓練何時該停止、何時開始過擬合,這可能是未來的發展趨勢。

機器之心:AlphaZero 證明了 AI 在沒有人類干預的情況下能夠超越人類。您提到的交流式學習會不會某種程度上限制了 AI 超越人類的可能?

張拳石:這種反饋式交流學習與監督學習是不同的。監督學習是強制性地讓大模型擬合人類的思維、知識和推理結構。我們的方法只是去排除最明顯的錯誤,至於具體學習哪些互動,這是由大模型自主決定的,我們只是觀察者,並沒有在實質上限制它的表徵。

有了這樣的理論技術,討論就不僅限於大模型是否好或是否能超越人類這樣的二元問題,而是能看到大模型在不同階段面臨的根本問題,以及相同資料集在不同大模型上的具體問題,然後真正讓大模型學得越來越好。

機器之心:您剛才多次提到長鏈、嚴謹的思維鏈,對於數學和程式碼大模型,其推理天然就是一步一步可驗證的。有觀點認為可以使用大模型的這種 CoT 資料來反哺訓練,您覺得這種方法是否可行?存在哪些潛在的風險?

張拳石:使用大模型生成思維鏈去反哺訓練是很好的,但從更嚴謹的角度看,當資料規模達到一定量級後,討論資料的簡單複雜、質量高低、多樣性等問題就變得完全不同了,並不存在通常意義上的簡單樣本、複雜樣本。

同一個神經網路在不同初始化狀態下的表現可能完全不同:某些樣本在第一次訓練中產生可泛化的互動,但在第二次訓練中卻產生難以泛化的高階的奇怪互動。這說明樣本的質量、泛化性和可靠性並非其固有屬性,而是需要與神經網路的契合程度搭配起來一同考慮。

我們需要將話語權交給神經網路,讓它告訴我們哪些樣本可靠,哪些樣本不可靠。解釋性技術就是在做這項工作,而不是簡單地看資料集。經驗性技術的好壞需要有一套嚴格的演算法體系來量化和評測,而不是盲目地認為加入思維鏈、加入更多資料就一定會帶來效能提升。

十年磨一劍:
如何找到 AI 研究中的「大問題」

機器之心:對於想要深入研究 AI 可解釋性的年輕學者,您有什麼建議?

張拳石:我從 2015 年開始轉向解釋性研究。當時還沒有大模型,雖然深度學習蓬勃發展,神經網路展現出了完全不同的智慧形式,效能也在大幅提升,但我注意到一個潛在問題:人類可操作的維度在不斷減少,對知識的掌控在不斷喪失。

傳統神經網路時代,我們基本上只能做兩件事:調整網路結構和損失函式。到了大模型時代,由於巨大的訓練成本,對絕大多數研究者而言,連這兩點都難以調整了。現在的研究者只能專注於蒐集資料、資料清洗和提示詞工程。儘管從事 AI 研究的人爆炸性增長,但都擠在很小的研究空間裡,發展的維度在不斷降低。

我選擇做解釋性研究,是因為它是一種自頂向下的系統,是對神經網路的補充。我認為研究可以分為兩類:一類是工程性研究,重點在於如何把問題做好,把效能提升到極致;一類是理論性研究,重點在於問題的選擇,選好問題的重要性遠遠超過把效能提高。

那對於理論性研究,如何選擇好的問題呢?我給自己定了三個標準:

  1. 要找到共性問題。不是表面上的問題(如訓練成本高、精度不夠),而是能覆蓋領域中大部分問題根本原因的交叉點。找到這樣的問題本身就是一項異常艱鉅的任務,但一旦找到,別人就無法忽視你的工作。
  2. 這個問題必須能進行數學建模,有明確的邊界,能夠被證明或證偽。回顧神經網路發展歷史:最初殘差網路被視為最強,現在是 Transformer,未來可能還會有新的結構;生成網路方面,從 VAE 到 GAN 再到 diffusion model。隨大流看似安全,但從根本意義上說,這更像是一種賭博——當問題沒有嚴格的證明或證偽機制時,風險反而更大。
  3. 必須走一條前人很少走的路。成功的根本不在於比拼智商或投入,而在於找到沒有人走過的路。就像解釋性研究,我不僅要解釋知識表徵,還要解釋泛化性、魯棒性等等一系列,很多工作我並沒有在這裡講,但這是一條很長的路線圖,你需要規劃出來,這樣才能建立起自己的影響力。

在我看來,所謂十年磨一劍,相比用十年時間去最佳化一個複雜系統,更多是用十年去等待一個真正值得投入的問題,一個同時滿足這三個條件的問題,然後再花 10 年乃至 20 年去證明一些結論,解決這個問題。

機器之心:如果花了 10 年時間沒等到這樣的問題,或者最後發現等錯了該怎麼辦?假如用互動理論解釋神經網路內在表徵最終被證明是錯的,您會怎麼辦?

張拳石:這是個很好的問題,實際上很多學生也這樣問我。世界上沒有 100% 正確或錯誤的方向,我前面提到的三個條件,正是確保你的努力不會付諸東流的保障。

2017 年我在知乎首次發文,討論可解釋性與深度學習的未來發展,當時就發現這是一個大家公認很重要但又無從下手的問題。雖然相關論文數不勝數,但真正從理論嚴謹性角度直面這個問題的卻少之又少。

這中間有很長一段時間我也在探索,一直在探索,因為被時代大浪潮裹挾,很容易就迷失方向。做研究不是隻做一年兩年,要在科研道路上走得長遠,可能需要 10 年、20 年,關鍵是要找到一個契機,讓自己有資格去定義問題。雖然找到一個既是本質性、又能進行數學建模、還能開闢新路徑的問題很難很難,但這是切實推動領域發展的必經之路。

嘉賓簡介

張拳石,上海交通大學電院電腦科學與工程系長聘教軌副教授,博士生導師,入選國家級海外高層次人才引進計劃,獲 ACM China 新星獎。2014 年獲得日本東京大學博士學位,2014-2018 年在加州大學洛杉磯分校(UCLA)從事博士後研究。在神經網路可解釋性方向取得了多項具有國際影響力的創新性成果。擔任 TMLR 責任編輯,NeurIPS 2024 領域主席,承擔了 IJCAI 2020 和 IJCAI 2021 可解釋性方向的 Tutorial,並先後擔任了AAAI 2019, CVPR 2019, ICML 2021 大會可解釋性方向分論壇主席。


往期訪談
  • 小米 Daniel Povey:後語音識別時代,人工智慧走向何方?
  • 清華翟季冬:DeepSeek 百倍算力效能背後的系統革命
  • 北大王立威:理論視角看大模型,湧現、泛化、可解釋性與數理應用
  • 騰訊王迪:萬億 MoE 大模型系統工程之道
  • 上海交大盧策吾:關於具身智慧,Scaling Law 和大模型

相關文章