北大王立威:理論視角看大模型,為什麼AI既聰明又愚蠢 | 智者訪談

机器之心發表於2024-09-08
圖片

人工智慧的卓越發展

源於對技術與產業本質的洞察

機器之心全新影片欄目「智者訪談」

邀請領域專家,洞悉 AI 核心技術與行業趨勢

為從業者量身打造

深化行業認知,激發創新思考

與智者同行,共創 AI 未來

圖片

以英偉達為代表,近期美股科技巨頭市值蒸發超過萬億,引發了市場對 AI 泡沫破裂的擔憂,特別引發焦慮的是大模型領域,甚至有人將其與網際網路泡沫相提並論。

我們驚歎於當前 AI 的成果,但若深究其過程則往往感到失落。在生成式 AI 盛行的當下,這種矛盾心理尤為突出。

大語言模型(LLM)的通用能力是一個意外的收穫,為了改進機器翻譯序列處理而提出的 Transformer,效能是如此強大,已經成為語音、文字、影像領域事實上的基礎架構,並且展現出一統模態的巨大潛力。從 GPT-3 到 GPT-3.5(即 ChatGPT),模型能力似乎有了質的飛躍,但二者在訓練方式上並沒有本質區別,這是否意味著更多的資料、更大的模型是通往智慧的正確路徑,更好地「預測下一個詞」最終能讓我們創造出會思考的機器?

今天,大模型已經開始走向產品階段,人工智慧正滲透到千行百業,我們在享受智慧化所帶來的便利的同時,也面臨一系列現實問題。現有的理論還難以解釋深度學習的許多重要問題,導致實踐無法系統且高效的進行。大模型的出現,給機器學習理論提出了全新的課題。在技術創新飛速發展、知識創造相對滯後的當下,理論研究該如何應對挑戰、抓住機遇?

本期機器之心《智者訪談》邀請到北京大學智慧學院教授王立威,從機器學習理論視角看大模型的能力邊界,探討理論對 AI 未來發展的影響。

王立威教授指出,很多人都將今天的人工智慧與工業革命相類比,但我們是否想過,蒸汽機雖是傳世的發明,卻鮮有與其設計相關的理論流傳下來。如果僅僅只停留在解釋具體現象的層面,如今的機器學習理論研究是否也會面臨同樣的命運?

當 AI 技術實踐不斷突破而理論認知未能同步提升時,技術創新的風險也將被放大,甚至阻礙其真正價值的實現。

王立威教授鼓勵青年學者挑戰現有框架,探索未知領域,大模型不是人工智慧的全部,機器學習也不止一條路徑,只有看得更深、更加本質,才能發現足以傳世的「AI 領域的能量守恆定律」,進而指導未來的研究和實踐。

他說,探索需要勇氣,承擔一定風險,很多事情都無法預測,但這也正是探索的樂趣。北大王立威:理論視角看大模型,為什麼AI既聰明又愚蠢 | 智者訪談

時間戳

01:05 為什麼如今的 AI 既聰明又愚蠢

06:25 用 ML 解決數學和科學問題的潛力

14:55 理論視角看思維鏈(CoT)

26:22 大模型並不存在所謂的「湧現」

34:35 幻覺是 LLM 的固有特性

39:07 The Bitter Lesson & Scaling Law

44:28 關於可解釋性

50:25 重新定義泛化

54:15 大模型時代的理論研究

訪談文字整理

機器之心:王立威教授好,非常高興您做客機器之心的《智者訪談》。我們知道您深耕機器學習領域多年,尤其關注基礎理論方面的研究。在如今這個技術飛速發展、應用日新月異的時代,對基礎理論的洞察尤其重要,我們希望今天能與您探討機器學習理論相關的內容,以及理論對於未來 AI 領域發展的影響。

王立威:很高興參加機器之心的活動,分享一些我個人的看法。

為什麼如今的 AI 既聰明又愚蠢?

機器之心:都說現在的 AI 聰明得驚人又蠢得出奇。我們見到了有 Google DeepMind 研發的 AlphaGeometry 系統,能夠解奧賽級別的幾何證明題,並且獲得了 IMO 銀牌。同時前段時間熱議的,很多大模型連 9.11 和 9.9 在數值上的大小都分不清,為什麼會出現這種情況,您能從原理上給我們解釋一下嗎?

王立威:首先我想跟大家澄清一點,今天的 AI 系統,我們應該具體地去看,而不是籠統地去看。比如你剛才舉的兩個例子,一個是 Google DeepMind 研發的以 AlphaGeometry 以及後來的 AlphaProof 為代表的,這是一類系統,還有另一類是以 OpenAI 的 ChatGPT 這種語言大模型為代表的系統。

這兩類系統雖然都是 AI 系統,但它們是截然不同的,無論從自身的結構、原理到進行機器學習的方式,再到處理的問題,各自的擅長與弱點,都非常不一樣。大家可能用過 OpenAI 的 ChatGPT 或者其他的一些語言大模型,這類 AI 系統主要處理的是語言對話,而且是非常寬泛、普適的場景,其優點是可以處理大量的問題,但缺點和不足是邏輯性稍有欠缺,對於需要嚴密邏輯推理的問題,比如說數學或一些科學問題,這不是它的所長,也跟這類系統的原理密切相關。

剛才講的另一類系統,比如說 AlphaGeometry,以及後來的 AlphaProof,用的是深度強化學習這種方法,而深度強化學習不是今天語言大模型的主要技術方案。它們還有一大特點,也是區別於語言大模型的,是專注於解決特定型別的封閉世界問題(closed-world problem)。

選擇封閉世界問題,並利用深度強化學習去解決,這套思路與 DeepMind 在幾年前用 AlphaGo下圍棋的方法一脈相承。今天我們已經開發出很多的這種解決特定問題的 AI 系統,它們各自擁有獨特的優勢和技術路線,在功能和應用上也有所區別。

機器之心:後來 DeepMind 又推出了升級版的 AlphaGeometry 2,說是基於 Google 的 Gemini 大模型進行了訓練,並且效能得到了提升。在您看來,這個具體提升在哪裡呢?

王立威:我個人認為大模型在裡邊應該沒有起到什麼太重要或者本質的幫助,可能更多是吸引大家關注,因為畢竟大模型現在是一個熱點。

AlphaGeometry 其實是基於我們中國已故的著名數學家吳文俊先生所做的「數學機械化」方法,去做平面幾何的定理自動證明。有很多研究者都在從事這方面的工作,比如中國科學院數學研究所的高小山老師等等,他們已經深耕了很多年。

AlphaGeometry 是建立在這樣一系列工作的基礎上,又做了一定的改進,你可以把這些改進概括為「神經符號系統」這樣的名詞,但其本質還是使用 DeepMind 所擅長的那套較為標準和成熟的深度強化學習方法。AlphaGeometry 的論文已經正式發表,它相較於吳方法已經做到一個什麼水平,例如在 f 值、m 值之上加了幾個新的成分,每一個成分加進去可以提升多少,都有非常清楚的描述。

所以我覺得 AlphaGeometry 好,首先在於選擇了平面幾何這個很對的研究問題。但是,平面幾何早在吳文俊先生那個時代我們就已經知道,這條路是可以走,並且可以走得很好的,今天 AlphaGeometry 只是把它做到更好,接近完美的一個水平。

使用機器學習解決數學和科學問題的潛力

機器之心:您近年來也關注使用機器學習方法解決數學和科學問題,顯然看中了其潛力,您能再展開談一談嗎?

王立威:用機器學習、人工智慧的方法解決數學或者科學問題,在我看來確實非常具有潛力。當然我們也要辯證地看這個問題,不是說有了機器學習和人工智慧就能包打天下,就能替代我們的科學家、數學家去解決科自然科學、數學領域的問題。

應該說今天的機器學習、人工智慧在這方面是一個有力的工具,但在可預見的未來還無法替代人類。我個人認為未來發展路徑可能是:人類科學家仍然要做頂層設計,但是其中的某些環節或部分可以用機器學習和人工智慧方法更高效地完成,因為很多時候需要處理大量的資料,尤其是一些不是很規律的、很複雜的表示。

我經常和我組裡面的學生講,我用一個詞叫 regular,就是有規律性,人類比較擅長發現或處理一些特別 regular 的物件。今天的機器學習可能在處理一些沒那麼 regular 的物件,甚至發現一些沒那麼 regular 的規律方面比人更強一點,但如果是非常偉大的發現,我覺得可能單純靠今天的機器學習困難是很大的,人和機器學習必須要更有機地結合起來才行。

機器之心:說到用機器學習解決數學問題,我們很容易想到陶哲軒教授,他認為 AI 一定能為我們帶來巨大的突破。對此您是怎麼看的呢?

王立威:今天用機器學習和人工智慧去解決數學問題,實際上有幾個不一樣的技術路線,應該說是非常不一樣的技術路線,一種就是剛才我們談到的 Google DeepMind,他們用以深度強化學習為代表的方法去解決一些非常特定的領域裡面的問題。

以陶哲軒為代表,還有很多數學家,包括另一位著名的菲爾茲獎得主舒爾茨,他們其實在做一個叫「數學形式化」的工作,形式化本身並不涉及 AI,沒有 machine learning,它其實是想把今天人類在寫數學論文時所用的數學語言,翻譯成一種非常標準的,每一步都按部就班的,甚至類似於程式碼的這樣一種語言,其好處是由於人在寫數學證明的時候其實是容易犯錯的,甚至中間有一些 gap 數學家自己都意識不到。但是如果翻譯成形式化的語言,每一步可以自動地由計算機去驗證,這樣就能保證數學證明裡不會存在潛在的漏洞。

在這個過程當中,既然計算機可以直接去讀,直接去驗證,甚至直接去進行一些邏輯上的推演,那麼這個時候 AI、machine learning 就有可能進入進來。實際上早在幾十年前就有一個領域叫做定理的自動證明,目標就是希望用計算機來自動完成定理的證明。

今天由於有了機器學習和人工智慧,所以大家希望從這條路去做一些事情,在形式化後,是不是有可能透過機器學習的方式,對於一個想要證明的定理,自動地去發現它的證明過程,更準確地說,是在證明的過程中,每一次我走到一步,下一步應該去做什麼、去證明什麼,這樣一步一步從命題到最終結論,全部自動完成。

這是陶哲軒等人在探索的技術路徑。就我個人而言,我傾向於認為形式化加定理自動證明這條路,需要很長的時間去走,而且有很大的難度,不僅是技術上的難度,還有很多條件上的難度,比如說資料等問題。

今天的語言大模型,無論是 ChatGPT 還是其他模型,實際上已經把網際網路上幾乎所有的資料全部用到了。然而,在數學或者一些自然科學領域,我們需要的並非海量的簡單文字,而是高質量的專業資料,比如人類數學家撰寫的數學論文和與之對應的形式化語言表達這樣的配對。就好比機器翻譯,今天大模型在自然語言翻譯上取得顯著成果,其根源在於大量的雙語語料庫,比如中文和英文的配對。

然而,數學是一個高度專門化且深奧的領域,儘管我們有大量的數學論文,但與之對應的形式化語言表達卻非常匱乏,因為將自然語言的數學論文轉換為形式化語言,需要耗費大量的人工成本,並且必須由數學領域的專家來完成。我知道有很多學者正致力於這方面的研究,他們嘗試透過人工、半自動或自動化的方法,將人類的數學語言轉換為形式化的數學語言,但這需要一個長期的積累過程。

機器之心:報導稱 AlphaGeometry 使用合成資料,從頭開始訓練,您如何看待合成資料的前景?

王立威:我自己也曾嘗試利用合成資料來提升標準自然資料的表現。然而,這一方法的關鍵在於,即使生成了新的資料,仍然需要人工介入,運用專業知識進行校對和糾正,這樣才能真正輸入新的資訊。熟悉資訊理論的聽眾應該瞭解,單純的合成資料並不能提供任何新的資訊量,除非有新的 input,那麼這種新的 input 是什麼呢?就可能是專家對合成資料進行的檢驗和校正。因此,我認為利用合成資料是一個可行的方向,但單純依靠合成資料是難以取得突破的。

機器之心:這跟 AlphaGo 自我對弈並從中學習的區別是什麼呢?

王立威:AlphaGo 解決的是圍棋問題,自我對弈之所以能夠帶來新的資訊,是因為每一盤棋結束後,勝負結果都可以根據規則明確判斷,而每一次的勝負結果都提供了新的資訊。因此,如果我們所研究的問題也能夠產生類似的反饋機制,那麼利用合成資料並結合這種反饋,就有可能取得成功。

理論視角看思維鏈:
Transformer 是一種電路

機器之心:回到大語言模型,您團隊在 NeurIPS 2023 上面有一篇 oral 論文,首次從理論視角研究了思維鏈(Chain of Thought,CoT)提示的作用。您能談一談這篇論文的結論和啟示嗎?

王立威:好的,我從幾個方面來談。首先,無論是解決數學任務還是進行邏輯推理,大語言模型最終都需要完成特定任務。我們可以從幾個層面來理解模型是如何完成任務的。

第一個層面是模型本身的結構,比如我們剛才談到的 Transformer。除了結構之外,如何使用結構也很重要,思維鏈本質上就是一種使用 Transformer 這種結構的方式。無論是模型結構本身,還是使用結構的方式,都與模型的表達能力密切相關。大家可以想象,如果 Transformer 或者說大模型的神經網路結構過於簡單,那它的表達能力必然很弱,很多複雜邏輯或運算就無法表達。所以,我們這篇論文就是從表達能力的角度出發,研究思維鏈與 Transformer 結合後的效果。

我們的主要結論是,如果只用 Transformer 而不使用思維鏈,那麼 Transformer 這種結構的表達能力實際與電路非常接近。電路大家都很熟悉,比如邏輯電路、數位電路,它們由一些邏輯閘組成,例如與門、或門、非門等,邏輯閘之間透過線路連線。

我們可以將神經網路與邏輯電路進行類比:神經網路中的神經元對應電路中的邏輯閘,神經元之間的連線對應電路中的連線。兩者唯一的區別在於,邏輯閘的計算操作和神經元的計算操作有所不同。但我們的研究發現,這種區別並不本質,它們之間可以相互轉化,因此可以近似地認為兩者是差不多的。

所以,如果只是一個單純的深度神經網路,比如 Transformer,我們就可以將其視為一種電路,並從電路的角度來分析它的計算能力,也就是它處理數學問題的能力。早在上世紀 70 年代,人們就已經對各種電路的計算能力進行了深入的研究。因此,我們可以很清楚地說,如果僅僅使用 Transformer 神經網路來處理數學問題,至少從表達能力的角度來看,它的能力是有限的。

但是,我們的論文進一步分析了,如果引入思維鏈,情況就會發生變化。思維鏈相當於讓神經網路進行一步一步的推演,每一步的輸出都會作為下一步的輸入,形成一種迴圈迭代。這種迴圈迭代相當於反覆利用了神經網路,在某種意義上可以認為是擴大了神經網路的規模,從而提升了它的表達能力和計算能力。因此,使用了思維鏈的 Transformer 神經網路在處理數學問題時,就能夠解決更復雜、更困難的問題。

但是,要構建一個真正能夠解決很多數學問題的大模型,僅僅依靠表達能力是不夠的,還需要考慮模型的學習能力,包括如何從資料中學習,還有泛化能力,也即模型能否能夠把從已有資料中學習到的知識應用到新的、沒有見過的資料上。我們這篇論文還沒有涉及這些方面的內容,但這對於大模型能否成功解決數學或邏輯推理問題至關重要,也是未來研究的重要方向。

機器之心:Transformer 本身表達能力有限,但堆疊到萬億乃至十萬億、百萬億等更大的規模後,模型的表達能力是否足以解決數學或者科學問題呢?

王立威:雖然現在的大模型已經達到萬億引數級別,但很多人認為,與人腦相比仍然相差甚遠,可能還有幾個數量級的差距。不過,如果從理論角度來分析,我們不能簡單地用引數量來衡量模型的能力,還有一個重要的指標是模型的增長速度,看模型的複雜度是呈多項式級別增長,還是指數級別增長。

所謂多項式複雜度,指的是隨著輸入規模的增大,模型規模的增長速度可以用一個關於輸入規模的多項式來描述。比如,如果輸入規模為 x,那麼模型規模的增長速度可能是 x² 或 x³ 等等。而指數複雜度指的是模型規模的增長速度隨著輸入規模的增大呈指數級增長,比如 2 的 x 次方。

一般從理論角度認為,如果模型複雜度是多項式級別的增長,那麼模型的規模是可以控制的,因為多項式級別的增長速度遠低於指數增長。但是,如果模型複雜度是指數級別的增長,那麼模型的規模將會非常龐大,實現起來非常困難。因此,在討論模型規模的時候,通常會限定在多項式複雜度增長的範圍內。

我們之前的分析表明,如果僅僅使用一個規模按照多項式級別增長的 Transformer 模型,那麼很多數學問題是無法解決的。但是,如果允許模型規模以指數級別增長,理論上模型可以處理任何問題。但你可以想象一下,在指數級別增長的情況下,如果模型的輸入是一本數學教材,那麼模型的規模就不是萬億引數級別,可能要在後面加上很多個零。

我們這篇關於思維鏈的論文想要說明的是,即使模型規模的增長速度是多項式級別的,也就是實際中大家認為可接受、可實現的,用上思維鏈以後,模型也可以表達和處理那些複雜的數學問題。

機器之心:這對於我們有什麼啟示?

王立威:我認為主要的啟示是,我們需要不斷探索更高效、更有效的模型結構和方法。思維鏈是一種方式,但未必是最優的一種方式,甚至現有的 Transformer 架構加上思維鏈也未必是最佳方案。

Transformer 只是眾多優秀模型結構中的一種,它不是唯一的,可能還有大量的其他結構,跟 Transformer 一樣好,甚至更好也是有可能的。只不過今天大家都在進行超大規模的實驗,大模型、大資料,訓練一次模型的代價太大了,我們沒有能力做大量的實驗,但是我相信存在很多不同的模型結構都有很好的效能。

目前的大模型普遍採用 token 進行表示。但如果要處理邏輯性強、嚴謹性高的問題,例如數學問題,僅僅依靠現有的表示方式是否足夠?這一點尚不明確。我不確定是否有學者對此進行過深入研究。畢竟日常對話中的邏輯關係和複雜度相對有限,而在學術領域,尤其是數學領域,一個概念可能是基於其他非常多概念的基礎之上,一個概念跟其他概念之間有著非常複雜而深刻的聯絡,如何有效地表示這些概念以及它們之間的關係,是值得深入探討的。用今天的這種狹義的神經網路結構能否很好地表示這些複雜的概念和關係,我自己是覺得不能完全確定。

從 2012 年 Hinton 等人的突破性工作算起,深度學習的發展僅僅經歷了 12 年的時間。人工智慧領域在這 12 年間的飛速發展,在其他領域中實屬罕見。但畢竟時間尚短,大家探索的內容仍然有限。

我們今天已經有大模型,能處理非常多的日常問題,這確實很了不起了。可是我們必須承認,科學問題,包括一些數學問題,在難度和深度上肯定遠超日常的問題,複雜程度也要高很多。我們不能想當然地以為,現有的模型結構和模式在自然語言對話上取得了成功,沿著這條路線走下去就能解決科學問題,這也不一定。

機器之心:總體看來您很謹慎,但感覺挺悲觀的。

王立威:哈哈,不是悲觀,我只是覺得需要時間。其實我覺得這就是探索,探索的樂趣就在於你事先沒有辦法確定,很多是偶然的,這也是做研究的樂趣。

大模型並不存在所謂的「湧現」

機器之心:ChatGPT 之所以驚豔世人,就在於什麼呢?當時有一個詞叫「湧現」,是說當模型大到一定規模之後,就能夠完成很多種不同的任務,這是在小模型上不曾觀察到的。您是怎麼看待大模型的這種湧現能力或現象的?

王立威:首先,目前這些千億甚至萬億引數級別的大模型,與一億引數以下的小模型相比,在能力上確實存在著本質區別。但談到「湧現」,我們需要明確其定義。物理學中的湧現與相變的概念相關,相變通常指存在一個閾值,低於閾值時現象完全不存在,超過閾值後現象就會突然出現,例如物理學中的超導現象。

我傾向於認為,在今天我們討論的大模型中,並不存在相變意義上的湧現,也就是說,不存在一個明確的閾值,例如 500 億引數的模型沒有某種能力,而 501 億引數的模型就突然具備了這種能力。現在看模型能力的提升應該是一個循序漸進的過程。只不過,現在的模型規模比過去大了幾個數量級,所以與之前的小模型相比,差異才顯得如此巨大。

機器之心:我一直很好奇,現在可以先訓練一個大模型,然後透過一些方法將其壓縮成小模型,這個小模型能夠實現與之前大模型相似的效果。那麼,這個壓縮後的小模型與一開始的小模型之間有什麼區別呢?因為壓縮後的小模型顯然具備了之前小模型不具備的能力,您能解釋一下其中的原理嗎?

王立威:這是一個很好的問題。我先問你一個問題,你會騎腳踏車嗎?

你有沒有意識到,當一個人剛開始學腳踏車的時候,騎不太好的時候,你感覺全身都投入到騎腳踏車這件事情上,您感覺你的大腦已經完全被騎腳踏車這件事給佔據了。但是,當你學會騎腳踏車之後,你發現你的大腦可能只需要分出很小一部分用來騎腳踏車就行了,你可以一邊騎車一邊和別人聊天,還可以看風景。

實際上,機器學習在你剛才提到的這個問題上與人類學習非常相似。從學術角度來講,當我們需要從零開始學習時,可能需要一個大模型,但是當我們學會了之後,就可以把大模型蒸餾成一個小模型。

更具體地說,為什麼在學的時候必須用大模型呢?

在理論上已經有人證明,如果想從零開始學習,使用小模型很可能找不到正確的路徑,而使用大模型則更容易找到從初始狀態到目標狀態的正確路徑。找到正確路徑後,我們會發現其實並不需要這麼大的模型,再把真正有用的部分抽取出來即可。但是,如果直接使用小模型,就很難找到那條正確的路徑,學習難度會大大增加。

關於幻覺:如今的大模型基於統計而非邏輯
永遠無法保證 100% 正確

機器之心:我們的終極目標是希望 AI 能夠獨立完成數學證明,並且像偉大的科學家比如愛因斯坦那樣,發現新的科學理論。為了實現這個目標,還需要克服哪些主要困難?

王立威:這個問題非常困難。首先,我們來看目前取得了相當成功的語言大模型。它們成功的關鍵在於,在訓練過程中接觸了海量的問題和解決方案。以 GPT 為代表的這類方法,將許多不同型別的任務都轉化為自然語言的形式進行描述和學習。

如果我們希望大模型在數學或自然科學領域也能自主解決新的問題,那麼它首先必須要見過數學和自然科學領域裡面大量不同的問題,以及解決這些問題的方式方法。然而,目前這方面的資料非常匱乏。現有的資料大多是一些習題級別的內容,例如中小學習題、大學本科習題,甚至奧賽習題,但科研層面的資料還非常之少,而且科研層面的資料往往是不完整的。我舉個例子,科學家在發表論文時,通常只會呈現最終的發現和結論,而不會詳細描述整個思維過程。

越是那些最高水平的科研成果,越是精煉,越沒有去寫研究人員的思維過程。阿貝爾曾說,高斯就像一隻狡猾的狐狸,把自己走過的腳印都抹掉了。實際上,很多科學家都會做類似的事情。他們在研究過程中使用的草稿紙是以千記的,但最終發表的論文可能只有幾十頁。除非你能把那些草稿紙全部找到,當成訓練資料。

機器之心:不過現在科研已經基本數字化了,接下來還有沒有這種可能呢?

王立威:我們剛才一直討論的是從資料中學習,但這只是機器學習和人工智慧解決科學問題方法中的一部分。我個傾向於認為,只透過從資料中學習是不能完全解決用機器學習和 AI 處理數學和自然科學問題的。為什麼呢?

因為真正的科學研究不僅僅是從資料中學習,更重要的是創造和驗證。科學家在進行研究時,會產生許多想法和假設。這些想法的產生過程與現在大模型的 next-token prediction 模式類似,都是基於過去的經驗和觀察去生成新的內容。

但是僅有這種生成是不夠的,即使是最偉大的科學家,產生的 100 個 idea 中,可能有 98 個都是錯誤的,必須要進一步嚴格地去驗證,發現錯誤之後,還要想辦法如何去修正和改進,這才是科學研究的關鍵。

我覺得今天的大模型產生幻覺,跟人類產生想法的機制非常類似,只不過今天的大模型產生了想法,next-token prediction 之後就直接輸出了,就把 next-token prediction 的結果作為答案交給人了。如果未來大模型能在驗證、判斷和糾錯方面做得更好,相信效果會比現在更好。

機器之心:所以說幻覺在您看來是大模型的一種固有特性?

王立威:對,我認為幻覺是大模型一種內在的、應該存在的一種性質。

今天的大模型都是採用從資料中學習的方式,本質上是一種基於統計的方法。既然是基於統計而不是基於邏輯,就永遠無法保證 100% 正確。當然我前面說過,幻覺的存在是有其意義的,而且我認為不應該把它完全抹殺。我們應該允許模型生成一些並不一定 100% 正確的內容,然後人類再從中進行篩選。

只要大模型仍然採用從資料中學習、去做 next-token prediction,如果只做到這一步,那幻覺就是無法消除的。如果想要消除幻覺,就必須在後面增加檢驗、糾錯等機制。

機器之心:那麼現有的機器學習方法,或者說更廣泛的人工智慧方法,能夠進行這樣的驗證或糾錯嗎?

王立威:這就回到了我們剛開始討論的內容,現在的機器學習不止一條路徑。比如我們前面談到的 AlphaGeometry,它和語言大模型走的就是完全不同的路線。AlphaGeometry 在每個環節都需要進行驗證,確保自身的正確性,但它在內容生成方面的能力可能不如語言大模型。

我想借此機會澄清一點,在自然科學或數學研究領域,存在著各種各樣的問題,它們的類別也是不一樣的,不同類別的問題由於自身的特殊性,需要機器學習如何參與,或者說需要機器學習參與進來用什麼樣的技術路線可能是千差萬別。對於那些擁有海量資料的自然科學問題,例如在化學和一些生物學領域,已經積累了極多的觀察資料,這時我們就可以把資料交給模型去學習,例如之前的 AlphaFold。但在某些領域,人類經過幾百年的科學研究,已經發現了一些重要的規律,這時我們就不能完全放棄這些規律,而應該將知識與資料結合起來。所以,我想並不存在一種包打天下的辦法,機器學習也是如此。我們需要根據具體的問題和條件,設計相應的解決方案。

機器之心:假如我是一名自然科學領域的研究人員,比如物理或化學,但我對人工智慧方法瞭解不多,我該如何選擇適合我的方法呢?

王立威:我的建議是要麼從頭開始學習,要麼找一位機器學習專家進行合作。在我的研究小組裡,有一些本科學習自然科學的博士生,他們在加入我的團隊後,繼續學習了人工智慧相關的知識。同時,我的組裡面也有一些機器學習和 AI 背景的同學,他們在做 AI for Science 研究時,也必須學習相關的自然科學知識。如果只是把機器學習當作一個封裝好的現成工具去使用,我認為很難在 AI for Science 領域裡做出比較重要的貢獻。

機器之心:所以說,一方面要對人工智慧和機器學習方法有深刻的理解,另一方面也要對自己要解決的問題本身以及需要什麼樣的方法有深刻的理解。

王立威:是的,我甚至認為,未來我們應該注重培養同時具備這兩種能力的青年人才,這是 AI for Science 未來發展的重要方向。

The Bitter Lesson & Scaling Law

機器之心:Richard Sutton 教授在 2017 年發表了《The Bitter Lesson》,文中討論了計算能力和資料的重要性,結合到現在以 OpenAI 為代表,他們推崇依靠資料和擴大規模帶來效能的提升。您怎麼理解 Sutton 教授的 bitter lesson?您又怎麼看 Scaling Law 和演算法創新之間的關係?

王立威:我之前看過 Sutton 寫的《The Bitter Lesson》,我是感同身受,因為我做機器學習也有 20 多年的時間了,在 2010 年之前,也就是深度學習和 ImageNet 崛起之前,當時的機器學習研究主要在一個叫做 UCI Repository 的資料集上進行,UCI Repository 包含幾百個資料集,但大部分資料集都只有幾百個資料,以現在的眼光來看,這是難以想象的小資料。

當時大家提出一個新演算法後,通常會在這些只有幾百個資料的小資料集上進行驗證。從今天的角度看,這種驗證得到的結論是完全靠不住的。所以,無論是 Rich Sutton 的這篇文章,還是現在大家談論的 Scaling Law,都在告訴我們——資料的規模和資料的多樣性至關重要。2010 年之前,有成千上萬篇論文都陷入了這種小資料驗證的陷阱。我們應該從中吸取教訓,認識到使用大規模的資料進行學習和驗證的重要性。這是過去十幾年一個重大的認識上的收穫。這一點我完全同意。

但這並不意味著我們只需要追求資料、算力和模型規模就夠了。Scaling Law 更準確的含義是,能否透過設計模型和演算法,在大規模的時候取得好的效果,而不是說只是無腦地去把規模增大,因為當資料、算力或模型規模達到一定程度後,不同的模型和方法之間在效能上仍然可能存在本質上的差距,我們仍然需要去做非常多的設計。

大家可能知道,神經網路,不是深度神經網路,其實早在上世紀就已經展開研究了,甚至在上世紀八九十年代的時候,還是一個對神經網路研究的高潮,只不過當時研究的主要是淺層神經網路,因為一些演算法、算力和資料方面的限制,沒有能夠做到深層的神經網路。

到了 2010 年以後,隨著技術的發展,大家逐漸去把網路做深了,一個自然而然的問題就是:深層網路和淺層網路相比,究竟哪個更好?今天大家可能覺得答案顯而易見,肯定是深的網路更好。但這種說法並不嚴謹,更嚴謹的問法應該是:如果兩個網路的神經元數量相同,也就是說網路規模相同,但網路結構不同,例如一個是淺而寬的網路,另一個是窄而深的網路,那麼哪個網路的表達能力更強?

我們組大概從 2017 年提出這個問題並進行研究,一直到去年,一組以色列的機器學習理論研究者終於回答了這個問題,他們從理論上、在數學上嚴格證明了:寬度合理、深度也合理的網路表達能力是最強的,明顯強於淺而寬的網路。所以,即使你把網路規模增加到很大,也需要合理的結構才能發揮最佳效能
圖片
以色列魏茨曼科學研究所的研究團隊發現,對於 ReLU 神經網路的表達能力而言,深度比寬度更重要。地址:https://proceedings.mlr.press/v178/vardi22a/vardi22a.pdf

關於可解釋性

機器之心:隨著大模型越來越廣泛的應用,如何解釋模型的行為也得到了越來越多的重視,包括您所從事的醫療相關的研究,為此我們需要在理論方面取得哪些突破?

王立威:我來分享一下我對可解釋性的一些看法。我覺得今天的模型實際上要從不同的層次來看,或者說模型和資料要放在一起,從不同的層次來分析。

這裡面有一些非常底層的訊號,比如說人看到一隻貓,能夠識別出它是一隻貓,這就是一些比較底層的訊號,一些很底層的視覺訊號。當人去研究一些邏輯性問題的時候,思維方式又會是另外一個層次,和剛才的視覺識別是不一樣的。實際上,在不同的層次上,對於可解釋性的要求,甚至模型是否可解釋,都是不一樣的。在一些更偏底層的問題上,也許沒有辦法去解釋,因為它們就是很複雜。但是對於一些更高層次的任務,有一部分是可解釋的,是可以把邏輯寫出來的。所以我覺得要分層次去看待可解釋性這個問題。

另一方面,我覺得可解釋性也許不完全是一個客觀的問題,它可能跟人的心理因素也有關係。例如下圍棋,自從 AlphaGo 出現之後,用機器、用機器學習系統去下圍棋,已經遠遠超過了今天人類頂尖棋手的水平。我自己也是個圍棋愛好者,雖然自從 AlphaGo 出現之後,我就不再下圍棋了。

其實,對於 AlphaGo 以及其他一些現在最具代表性的機器學習圍棋系統,人類的看法也是經歷了一個過程,這裡面也體現了可解釋性的問題。在 AlphaGo 出現的初期,人類頂尖棋手一直想理解機器為什麼這樣下棋。機器走的一步棋,人類棋手之前可能根本就不會想到,他們非常想理解為什麼機器要這麼下,需要開發團隊告訴他們,這個東西怎麼解釋,這一步棋怎麼解釋。開發團隊後來想了一些辦法,比如告訴你,這步棋下在每一個不同位置,最終估計的這盤棋的勝率是多少,那這是不是一種解釋?

機器之心:不是我們想要的那種解釋。

王立威:那還有沒有別的解釋?最後發現人類沒辦法從機器那裡得到想要的解釋。對於機器來講,它就是經過了大量的訓練之後,對棋局有了自己的理解和判斷。在當前的局面下,它認為應該下在哪裡,並透過大量的計算,最終得到了一個結果,人類是沒辦法理解的。我相信現在絕大部分的職業棋手,都不會再去問這個系統,為什麼要下這步棋,你給我解釋一下這步棋要下在哪裡。

我還可以舉一個更極端的例子,在上世紀 90 年代到大概 2010 年,圍棋界排名第一的選手是一位韓國棋手,他的外號叫「石佛」李昌鎬。他曾經就對機器下圍棋,也就是現在以 AlphaGo 為代表的這種機器下圍棋的一步棋,發表過評論。當時機器走了一步棋,叫做「點三三」,這是一個圍棋術語。之前的人類職業棋手都認為這是一步很差的棋,誰下出來肯定被老師罵的。所以李昌鎬說,在他理解機器為什麼下點三三這步棋之前,他是不會下這步棋的。所以現在的情況就是,他不下,但是其他所有職業棋手都下。因此,現在李昌鎬下不過其他人了。

所以我想總結一下,剛才是講了一些趣事趣聞,就是可解釋性有人類的心理因素在裡面。今天機器下圍棋已經遠遠超過了人類頂尖棋手,他們可能再也不問可解釋性的問題了。在其他的一些領域,像剛才你提到的醫療,現在醫療 AI 的水平可能跟頂尖的醫生相比還沒有達到,或者說沒有超過人類頂尖醫生的水平,所以自然而然地,我們人類在心理上,就會想要問機器,為什麼要做出這樣的判斷。但是,如果未來每一次機器做出的判斷都比人事後驗證更準確的時候,也許人就不再問了。

機器之心:您能夠預見這樣子的未來嗎?

王立威:這取決於具體是什麼問題。因為剛才說的是下圍棋,最終有勝和負,這是一個新的資訊,我們也認為它是一種金標準,最終就是誰贏誰輸了。在這樣的一些問題上,機器確實能夠超越人類。但也不是所有的問題都有這樣的金標準,有的時候機器仍然是從人類標註的資料中去學習,那麼這個時候它可能最好也只能學到人類的頂尖水平。

重新定義泛化

機器之心:泛化能力是衡量模型效能的一個重要指標。過往我們研究泛化,主要是去考量是什麼因素控制了泛化能力。大模型時代,我們是否需要重新考慮對泛化能力的定義?

王立威:對,這是一個非常好的問題。我覺得在過去討論泛化和今天大模型時代討論泛化,可能具體的定義不太一樣。我先澄清一點,過去我們討論泛化,是在一個比較狹義的意義上去討論,比如說我固定了一個任務,就是去做一個分類問題,那麼對於這個分類問題,我有一些訓練資料,可以用這些資料訓練模型,並得到一個訓練的準確率。但還有一些在訓練的時候沒有見過的新資料,這些資料可能是在未來實際應用或者測試的時候才會遇到。那麼模型在這些新資料上的效能,我們就稱之為泛化效能。但此時討論的都是一個非常確定的任務,就是去分類、去識別。在這樣一個很狹義的意義上,過去機器學習理論做了很多工作,也建立了一套理論的體系。

但是在今天,由於大模型的出現,我們討論的任務和之前不一樣了。今天我們的大模型能夠處理的任務是非常之多的,不再是一個固定的,像影像分類這樣的單個任務。所以我們在討論泛化的時候,已經不是過去那種狹義的泛化了,甚至我們今天討論的泛化,是指給大模型一個全新的任務,看它能不能夠把這個任務也解決好。所以從這個層面上說,過去的理論就顯得比較侷限了。那麼有沒有更新的理論,能夠在剛才說的任務這個層面上去分析泛化,現在這方面的工作還比較少,也是未來可以去研究的一個關注點。

機器之心:關於如何評估大模型的效能,也是一個熱點問題。現在的很多 benchmark 都已經被刷爛了,或者說不具備跟以往相比那麼強的指示性。在這種情況下,如何去評估一個模型的效能,您是怎麼看的呢?

王立威:今天的大模型,已經有相當一部分走到了產品這個層次。那麼今天對大模型的評估,就應該用一種評估產品的方式。對產品最好的評估方式就是交給使用者去使用,讓使用者用他們的體驗,最後用腳來投票。所有在 benchmark 上的測試,都只是一種內部的測試,只是一些中間結果。

因為大模型最終面對的是使用者,是人,那麼它好不好是由人的體驗說了算。當然,如果你的機器學習模型所處理的任務,確實存在著一個客觀的評判標準,其中沒有人主觀因素的干擾,那麼完全可以透過 benchmark 來評判。

這也是一個我覺得思維模式需要轉變的地方。因為過去幾十年機器學習的研究,還基本上停留在學術的範疇,所以有 benchmark 這樣的指標是有助於學術研究的。但是,真的到了產品階段,沒有任何一個產品是用 benchmark 作為最終衡量標準的。

大模型時代的理論研究

機器之心:您作為理論研究者,如何看待大模型時代機器學習理論的價值和前景?

王立威:我經常聽到有人把今天的人工智慧和工業革命做類比。我們可以一起來設想,第一次工業革命的代表就是發明和改良蒸汽機。如果我們回過頭來看,有沒有什麼理論工作是關於蒸汽機的設計的?

蒸汽機無疑是傳世的工作,也許當時的確有一些關於蒸汽機理論工作,但並沒有流傳下來。我們再來看一看今天的機器學習和深度學習,其實也有很多的理論工作,有一些對實際的模型和演算法設計也起到了幫助作用。但是這些工作能不能傳世呢?我必須要打一個問號,雖然我自己也是做機器學習理論的。

讓我們再回到蒸汽機的例子,其實是有相關的傳世理論的,比如能量守恆定律。這是一個偉大的理論發現,當人們知道了能量守恆之後,就再也不用白費力氣設計永動機了。其實在一兩百年前,有無數的人去設計永動機。所以,能量守恆就是一個典型的傳世理論。

我認為在過去大概十來年的時間裡,大家做了很多關於深度學習、強化學習的機器學習理論研究,有一些工作非常出色,但可能還沒有達到能夠傳世的水平。如果我們想做出傳世的機器學習理論,可能需要看得更深入,需要去問一些更新的問題,而不是僅僅關注今天大家研究的這些問題。

機器之心:比如說哪些問題呢?

王立威:哈哈,如果我要能回答這是什麼問題,可能就已經解決一半了。我只能說一說我自己一些非常模糊的想法。其實在過去這幾年,大家對現在的機器學習理論,也有一些意見,有一些不同的看法。今天的機器學習理論可能太過於追求去解釋機器學習裡面的一些實驗現象。也許我們應該走得更深,去看一些更本質的問題,這些問題不一定要和我們現在實驗中的現象完全對應起來。就像我剛才舉的例子,能量守恆和如何設計蒸汽機可能並不直接相關,但它更本質。所以我建議,特別是我們國內的這些年輕學者,可以嘗試從不同的角度,更深入地去思考這些問題。

可以更多一些探索,少一些束縛,不用太被今天大家對熱點問題的關注所束縛住。

因為很多時候研究是沒有辦法預測的,深度神經網路和大模型完全有可能只是一個區域性的極值,真正的全域性最優可能還需要我們退回去,再走另一條路才能找到。所以應該有更多的學者,特別是青年學者,去做一些探索。畢竟理論研究也不需要那麼多的資源,它可能需要的資源相對比較少。所以,多做一些自己感興趣的事情,希望大家有這個勇氣,這確實也需要一定的勇氣,承擔一定的風險。

嘉賓簡介

王立威,北京大學智慧學院教授,研究興趣為機器學習。長期從事機器學習基礎理論研究,為設計更有效的新演算法提供理論指導,並開發基於機器學習的醫療影像診斷演算法與系統。近來致力於透過機器學習方法解決科學與數學領域重大基礎問題。

王立威教授已在 NeurIPS、ICML、TPAMI 等國際頂級期刊和會議上發表論文 150 餘篇,其中關於圖神經網路表示理論的兩篇工作分獲 ICLR 傑出論文獎與提名獎。擔任 TPAMI 編委,並長期擔任 NeurIPS、ICML、ICLR 等機器學習頂會的領域主席/高階領域主席。此外,入選 AI's 10 to Watch,是首位獲此殊榮的亞洲學者。

相關文章