水和演算法有何相似?用物理學來理解大語言模型

ScienceAI發表於2024-10-14

圖片

編輯 | 白菜葉

十幾歲時,捷克共和國的 Lenka Zdeborová 在艾薩克·阿西莫夫的一本小說中瞥見了自己的未來。阿西莫夫的《基地》系列中的一個角色發明了一種數學方法,透過平均數十億人的隨機行為來預測整個文明的發展道路。

Zdeborová 回憶說,這個概念讓她有一種「令人著迷的感覺」——當她後來遇到一種可以真正應用於理解大量不可預測元素的方法時,這種感覺又回來了。

「我意識到,『天哪,阿西莫夫只是在描述統計物理學。』」她說,統計物理學是一門利用適用於單個分子的規則來描述物質宏觀特性的學科。作為布拉格查理大學 (Charles University) 的物理學碩士生,她對數學的預測能力十分著迷。

後來,在攻讀博士學位期間,Zdeborová 的導師向她展示了一篇論文,該論文將統計物理學的技術應用於理論電腦科學——計算和演算法行為的數學研究。熟悉的感覺又回來了。

圖片

論文連結:https://www.science.org/doi/abs/10.1126/science.1073287

「那篇論文讓我完全著迷。」Zdeborová 說道,「我一直認為,要想從事電腦科學,你必須是一名駭客,並且瞭解 Linux 的一切。我意識到理論電腦科學和理論物理一樣令人著迷,於是我說道,『好吧,這就是我想做的事情。』」

Zdeborová 目前領導瑞士洛桑聯邦理工學院的統計計算物理實驗室。她目前的工作重點是研究物質相變的物理原理(例如水凍結成冰)如何幫助模擬演算法的行為,尤其是機器學習中使用的演算法。

媒體與 Zdeborová 談論了水和演算法之間的相似之處、使用物理學來理解大型語言模型以及追求不合理的科學目標。為便於理解,採訪內容經過了壓縮和編輯。

Q:你的工作跨越了學科界限,那麼你認為自己是物理學家、電腦科學家還是數學家?

我想說以上都是。我感興趣的問題主要在電腦科學和機器學習領域。但在理論電腦科學中,一切都應該得到正式證明,直到最後一個細節。而如今的機器學習已經不再發生這種情況了——它太複雜了。

因此,從方法的角度來看,我覺得自己像一個理論物理學家,因為就像在物理學中一樣,你可以嘗試用數學上嚴謹的理論來解釋現象,即使它們可能沒有正式的數學證明。

Q:統計物理學如何幫助你理解電腦科學?

理論電腦科學通常教給學生的是關注最壞的情況——問題難以計算的情況。這就是這個領域的起源;也是我們取得美好成果的地方。但最壞情況和典型情況是有區別的。

機器學習就是一個明顯的例子。因此,即使對於高維資料(例如,我們想要檢測疾病的某些標記物的數百萬畫素的醫學成像),問題的相關例項在計算上通常也不像最壞情況那麼困難。

統計物理學正是從這裡開始發揮作用的,因為從歷史上看,統計物理學是處理這些高維問題的科學領域。當你想描述許多分子同時相互作用的行為時,統計物理學就會提出機率分佈。

這些是數學物件,以非常相似的形式出現在電腦科學中,描述執行給定演算法時資料位如何互動。統計物理學起源於一個世紀前,當時電腦科學還不存在。幸運的是,到 21 世紀我攻讀博士學位時,這兩個學科已經意識到它們之間有多少共同之處。

Q:他們有什麼共同點?

在這兩種情況下,從微觀描述中提取系統的宏觀行為都很困難。

雖然牛頓定律和量子力學可以非常詳細地描述水分子如何相互作用,但我們如何得出水在零攝氏度時會結冰的結論呢?

這根本不明顯!甚至到了 20 世紀 40 年代,這個問題仍未得到解決。關於水的相變,尤其是在高壓下的相變,仍有許多問題有待解答。

同樣,在電腦科學中,存在一些定義非常簡單的問題,演算法也相對簡單,我們不知道它們在什麼條件下會起作用。在我的博士論文中,我們研究了圖著色問題,一個 5 歲的孩子就能理解。

你有一些點,有些點透過邊連線起來,這樣就形成了一個圖。你想用三種顏色中的一種給每個點上色。如果兩個點連線起來,它們就不能有相同的顏色。那麼你能給圖上色嗎?

對於解決這個問題的任何給定演算法,你都可以理解它,甚至編寫程式碼,它也會執行。但如果我問:「你能告訴我這個演算法什麼時候有效,什麼時候無效嗎?」對於大多數演算法,我們不知道。這就是理論電腦科學的總體現狀:即使對於像這樣的簡單問題,當我們開始詢問有關演算法行為的自然問題時,我們常常沒有答案。

Q:如果完全理解演算法如此困難,相變如何能有所幫助呢?

我們研究的相變並不是物理上的,比如水變成冰。但它們是類似的,在某些條件下,系統的行為會發生急劇、突然的變化。在神經網路中,最先要描述的轉變之一是學習效率如何取決於訓練資料的數量。

你採用一個從高維資料(如具有數百萬畫素的影像)中學習的神經網路,然後在某些簡化的設定下分析網路需要多少個訓練樣本才能學習到一定精度的函式。

你會得到一個我們所說的階段轉變,即系統最佳效能的突然變化。這些條件會告訴你學習的難易程度,以及尋找更好的演算法是否有意義。

Q:這種方法是否幫助你瞭解了這些複雜系統的新知識?

在最近的工作中,我們確實發現大型語言模型的簡化版本的效能存在相變,但同樣有趣的是相變兩側兩個階段的性質。

圖片

論文連結:https://arxiv.org/abs/2402.03902

在物理學中,相變的數學描述中有一些量,我們稱之為序參量。它們能讓你瞭解相變的真正含義。這讓我們明白磁性與原子排列有關:在一個相中,整體排列很大,而在另一個(非磁性)相中,沒有排列。

這就是我們在語言模型的數學描述中出現的美妙之處。有兩個順序引數,每個引數都有精確的含義。一個順序引數決定了學習是否在很大程度上依賴於句子中單詞的位置。另一個順序引數具體是關於每個單詞的含義,即語義。

當我們觀察相變時,我們發現,在訓練示例的某個閾值以下,只有位置才是重要的,而不是語義。如果我們有更多高於該閾值的示例,那麼只有語義才是重要的。

因此,從某種意義上說,這是位置學習和語義學習之間的一種新型相變,我們可以在簡化的語言模型中對其進行描述。對我來說,這是理解大型語言模型中出現的屬性的一小步,比如突然能夠做算術、用希臘語回答問題或諸如此類的事情。

Q:你認為這些小步驟能夠給你帶來什麼結果呢?

我非常喜歡的類比是熱力學。18 世紀蒸汽機的出現引發了工業革命:鐵路、公司和許多東西都依靠蒸汽機運轉,而這一切都發生在人們不瞭解熱力學的情況下。那是幾十年後的事情了,靈感來自於想要了解蒸汽機。從那以後,許多其他物理學誕生了。

這可能是一個完全不合理的目標,但你知道,總得有人提出機器學習的熱力學理論。我很想成為那個人。如果不是我,而是別人,那也很好。但我一定會努力實現這個目標。

相關內容:https://www.quantamagazine.org/the-computer-scientist-who-builds-big-pictures-from-small-details-20241007/

相關文章