AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
大語言模型 (LLM) 是如何解數學題的?是透過模板記憶,還是真的學會了推理思維?模型的心算過程是怎樣的?能學會怎樣的推理技能?與人類相同,還是超越了人類?只學一種型別的數學題,是會對通用智慧的發展產生幫助?LLM 為什麼會犯推理錯誤?多大多深的 LLM 才能做推理?論文地址:https://arxiv.org/abs/2407.20311近日,來自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠、李遠志、朱澤園四人團隊最新公佈 arXiv 論文《語言模型物理學 Part 2.1:小學數學與隱藏的推理過程》用可控實驗,巧妙地回答上述問題。推特網友 @xlr8harder 評價,「這一結果將一勞永逸地平息關於 LLM 是否具有推理能力,或者只是隨機鸚鵡的爭論。」編者注:《語言模型物理學》全系列受邀於 7 月 22 日在 ICML 2024 國際機器學習頂級大會上進行了兩小時的專題報告,反響熱烈,據悉現場掌聲不斷。這裡為大家呈現系列中的 Part 2.1。 圖 1
論文詳解
首先,根據本系列的慣例,作者認為不應透過與 GPT-4 等大模型對話來猜測其思維方式,這類似於動物行為學,雖可行但不夠嚴謹,無法科學地揭示 GPT-4 的內心思考過程。
此外,從資料角度看,只有完全訪問模型的預訓練集(pretrain data),才能明確哪些題目是模型見過的,哪些是透過推理學會的。即使模型在 GSM8k(包含 8000 道小學數學題的基準測試集)上獲得高分,也難以判斷它是否見過這些題目的變體(如不同語言或 GPT-4 改寫後的變體)。
為此,作者建立了 iGSM,一個人工合成的、模擬小學數學級別的思維題集,並讓模型從零開始在 iGSM 上預訓練,以控制模型接觸的問題類別。值得注意的是,iGSM 不包含常識資訊,只包含 mod 23 範圍內的加減乘,並且所有計算都使用 CoT 逐步進行。透過 iGSM,可進行可控實驗,專門研究模型的推理能力,而忽略了其他因素(如大整數運算)。圖 2 展示了一個簡單的例題。 圖 2
透過這個資料集,作者首先測試了 GPT2(RoPE 版)的表現。用 op 代表解題所需的數學運算步數,作者發現,當在 op≤21 的題目上進行訓練時,模型不僅能達到 99% 正確率,還能在更高難度的題目(如 op=32)上保持 83% 的正確率(見圖 3)。這表明模型學會了某種推理技能,畢竟它從未見過 op>21 的題。(順帶一提,GPT-4o 在該資料集上僅能應對 op=10 的題目,超過這個難度就如同盲猜,文末我們會討論這個問題。)那模型究竟學會了怎樣的推理技能呢?解決 iGSM 的數學題至少有兩種思路。一種是作者稱為「0 級推理」,即「暴力計算能算則算」。由於題目中的變數可能存在複雜的依賴關係,有些可以直接計算,有些則需要先算出其他變數 —— 譬如小張比小王多 3 倍的水果,那麼就要先算出小王有多少蘋果、梨子並求和,才可以開始計算小張的水果數。「0 級推理」就是儘可能列舉所有變數,每次隨機找到一個可計算的變數,算出結果並繼續。與之對應的是「1 級推理」:透過拓撲排序,從問題開始反推,確定哪些變數需要計算,然後從葉子節點開始向上計算,力求「最短解答」。常見的數學題解通常採用 1 級推理,不會去計算「不必要的變數」。例如小張比小王多 3 倍的水果,問小張有多少水果,那小李的蘋果數就是不必要的變數,而小王的蘋果、梨子數都是必要的。如圖 3 所示,作者發現,GPT-2 可以學會 1 級推理,幾乎每次都給出最短解答。這非常不簡單!因為在模型生成第一句話之前,必須已經在腦海中完成了整個拓撲排序 —— 否則它怎麼知道哪個變數是不必要的?如果模型一開始就生成了「小李的蘋果有 7 個」,那就無法回頭,得不到最短解答。 圖 3
那麼,模型是如何學會「1 級推理」的?為此,作者對模型的內部引數進行了探針 probing 研究(見圖 4)。結論顯示(具體探針方法詳見論文),在模型生成第一句話之前,它已經透過心算確定了哪些變數 A 是「必要的」(nece (A)=True)。同時,模型在說每句話之後,也心算出了接下來所有「可計算的」的變數 A(cannext (A)=True)。因此,模型只需對 nece 和 cannext 不斷進行邏輯與(AND)運算,就能從葉子節點開始,一步步給出完整的計算過程。值得注意的是,這些複雜的心算能力並沒有顯現在訓練集中。模型只接觸過 iGSM 資料,只見過「語言」部分(題目和答案),但它卻自主學會了類似人類的思維過程(mental process),並得出了最優解!換言之,這項研究反駁了我們一週前在《語言≠思維,大模型學不了推理:一篇 Nature 讓 AI 社群炸鍋了》中的報導,用科學方法證明了大模型透過語言確實能學會思維。更神奇的是,模型學到的不止如此。在圖 4 中,作者還發現模型會心算許多對解題無用的資訊。比如,在變數關係剛被描述完,甚至在問題尚未提出之前,模型已經知道任意兩個變數 A 和 B 之間是否存在遞迴依賴 —— 即使這些變數與解題無關。對人類來說,我們通常會從問題開始反推,忽略不必要的變數,而 GPT-2 這樣的語言模型則會將整個關係圖梳理一遍,以應對將來可能被問及的任何問題。作者將這種能力稱為「2 級推理」。雖然「2 級推理」對解題不必須,但它確實是一種更通用的技能。模型利用並行能力,對資訊進行大量因果梳理。這一能力是語言模型在學習解題中自行掌握的,沒有人 (資料) 教過它這麼做。作者猜測,這或許是通用人工智慧(AGI)中「通用」一詞的潛在來源,即語言模型可以超越資料集所教的技能,學會更為通用的能力。 圖 4
接下來,作者研究了模型為何會犯錯。總結來看,在 iGSM 資料集上,模型幾乎只會犯兩類錯誤:一是計算不必要的變數,二是計算當前不可算的變數,如圖 5 所示。對於前者,作者發現,如果模型在生成答案之前就心算出錯,誤認為某個變數 A 是 「必要的」(nece (A)=True),那麼模型在生成答案時很可能會對 A 強行計算,從而產生非最短解答。這一發現非常有趣,它表明許多錯誤是系統性的,在生成第一個 token 之前,模型還沒張嘴就可以確信它會犯錯(透過探針的方法)。這類錯誤與模型生成過程中的隨機性或 beam search 無關。至於後者,作者也將其歸因於心算錯誤,並將用一整篇的後續 Part 2.2 論文,來針對性提高模型的心算能力,以最終提高解題正確率。該論文尚未釋出,我們會在公眾號中繼續關注並報導。 圖 5
下一個結論是,作者反駁了大模型縮放定律(scaling law)中強調的「唯大獨尊」,即模型的表現只與引數數量相關,而與寬度或深度無關。這一觀點最早由 OpenAI 的縮放定律論文提出,並在後續幾乎所有研究中得到遵循。作者透過 iGSM 資料集進行了一個可控實驗,如圖 6 所示。透過對比更小更深的模型與更大更寬的模型,發現對於解決 iGSM 中的數學題,模型的深度顯然比寬度更為重要。例如,一個 20 層、9 個 head 的模型,表現遠好於 4 層、30 個 head 的模型,儘管後者有兩倍的引數。更進一步,作者發現對深度的依賴源於模型心算的複雜性。透過對模型不同深度的探針研究,作者發現,對於那些與問題較遠的變數 A,心算 nece (A) 往往需要更多層數。具體來說,若變數 A 與問題變數的距離為 t,則需要進行 t 步心算才能知道 nece (A)=True。t 越大,模型所需的層數也越多,如圖 6 所示。作者強調,模型對深度的依賴無法透過思維鏈(Chain-of-Thought, CoT)來抵消。事實上,iGSM 中的數學題解已經儘可能地使用了 CoT,即所有計算都被拆解為一步一步。即便如此,模型仍需要透過心算來規劃 CoT 的第一步該算什麼 —— 這個心算過程可能依然需要多個步驟。這解釋了模型對深度依賴的原因。 圖 6
綜上所述,與 99% 以上的研究 LLM 行為過程(behavior process)的論文不同,本文作者另闢蹊徑,揭示了 LLM 在解決數學問題時的心理過程(mental process),為理解 LLM 的智慧提供了新的視角。文章最後作者指出,即便是 GPT-4,在 iGSM 資料集上也只能進行最多 10 步的推理。這表明,即使是當前最強的模型,利用了據稱所有的網際網路資料,仍無法精準地完成超過 10 步推理。這暗示現有大模型使用的預訓練資料集(pretrain data)可能還有很大的改進空間。透過本文的方法,建立人工合成資料來增強模型的推理能力以及資訊梳理能力,或許是一種新的可能。