CoT能讓模型推理能力無上限?田淵棟、LeCun下場反對:兩層MLP還能模擬全世界呢

机器之心發表於2024-09-19

「這相當於在理論上,兩層神經網路在理論上可以擬合任何資料,我們就盲目相信並應用在所有場景中。」


大模型新正規化 OpenAI o1 一經發布,如何「復刻」出 o1 便成為了 AI 圈最熱的話題。

由於 OpenAI 對技術細節守口如瓶,想從 AI 那裡「套話」,讓它複述完整的內部推理過程,多問幾句,OpenAI 直接發郵件警告要撤銷你的使用資格。想從技術報告中想找出點蛛絲馬跡,也同樣困難。於是,大家將目光轉向了以往類似的研究成果,希望從中找到些線索。

比如,Google Brain 推理團隊建立者 Denny Zhou 立刻拿出了他在今年 5 月份發表的論文:《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》。這篇論文的作者陣容也很豪華,除了 Denny Zhou,還有斯隆獎得主馬騰宇以及他的兩位學生。
圖片
  • 論文連結:https://arxiv.org/abs/2402.12875
Denny Zhou 表示,他們已經在數學上證明,只要允許 Transformer 模型生成足夠多的中間推理 tokens,它們就能解決任何問題,讓 LLM 的推理沒有上限。
圖片
概括起來,這篇論文主要證明了引入思維鏈(CoT)能夠顯著提升 Transformer 的表達能力,使其能處理更加複雜的問題。

加入 CoT
1 層的 Transformer 也能做複雜推理題

一直以來,大家都在尋找突破 Transformer 架構的方法。Transformer 雖擅長平行計算,卻難以處理序列推理。平行計算意味著模型可以同時處理多個步驟,對於需要逐步推理的問題尤為重要。

對此,論文作者們提出了一個假設:CoT 可以幫助 Transformer 完成原本無法做到的序列計算。

論文作者們採用了電路複雜性(circuit complexity)來討論 Transformer 的能力。

電路複雜性按複雜程度分為不同類別,如:

  • AC⁰:僅使用 AND、OR、NOT 門,深度為常數,通常適用於比較簡單的平行計算問題。
  • TC⁰:擴充套件了 AC⁰類問題,增加了多數決定門(MAJORITY gates),能處理更復雜的平行計算問題。

此前的研究已經表明,僅解碼器架構的 Transformer 能夠高效平行計算,但它們的計算能力有限,只能解決透過 TC⁰類電路能夠計算的問題。如果限制條件更加嚴格,不允許使用多數決定門時,Transformer 的計算能力只能解決 AC⁰類問題。
圖片
論文指出,沒有 CoT 時,Transformer 的序列計算次數受到模型深度的限制,深度越大,能處理的序列計算步數越多。但深度是固定的,無法隨任務增加而增長。引入 CoT,則解決了這個問題,能讓 Transformer 生成 T 步的中間步驟,增加序列計算的次數到 T。

圖片

論文進一步證明,如果 Transformer 的嵌入維度與輸入序列長度的對數成比例,並且配備 T 步的中間步驟,那麼該 Transformer 能夠模擬大小為 T 的布林電路,進而解決 P/poly 類問題。如果 T 值線性增長,Transformer 可以處理所有正規語言的問題,包括 S₅ 這樣的複雜群組合問題

為了驗證上述理論分析,作者透過實驗比較了引入 CoT 前後,Transformer 在解決模加法、排列組合、迭代平方和電路值問題這四個核心任務上的表現。實驗分別在三種設定下進行:

  • Base 模式:模型直接生成結果,目標是最小化預測結果與真實值之間的差距。
  • CoT 模式:在每個問題上為模型手動設計了思維鏈,評估模型是否能夠正確預測整個思維鏈中的每個 token。
  • Hint 模式:為模型提供部分提示資訊,幫助其更好地生成中間步驟。對於 Base 模式和 Hint 模式,直接評估最終答案的準確性。

模加法(Modular Addition)

給定任意正整數 p,這個任務的目標是透過模運算來計算一個詞表的和。論文作者按照以下方式生成序列 x = (x₁, ..., xₙ):對於每個 i ∈ [n − 1],從 {0, 1, ..., p − 1} 中獨立取樣 xᵢ,並將 xₙ設為 '='。模運算結果為:圖片;引入 CoT 後為,圖片

如下圖所示,當 p=7 時,淺層 Transformer 在有提示的情況下能夠很好地解決輸入序列較短時的問題,但使用 CoT 時,尤其是在較長的輸入序列中,模型的表現要好得多。
圖片
排列組合(Permutation Composition)

給定一個自然數 p,該任務的目標是對詞表 {1, . . . , p,(,), =} 中的所有元素進行排列組合,得到 圖片。最終輸出是將所有排列組合整合在一起的結果:圖片

對於 CoT 模式,Transformer 不直接計算最終結果,而是逐步地、部分地進行計算。

下圖展示了排列組合(S₅)在 Hint 模式和 CoT 模式兩種不同模式下的表現,其中橫軸表示輸入序列的長度,縱軸表示模型的層數,顏色代表準確率。
圖片
在 Hint 模式下,即使 Transformer 有 12 層,準確率仍然非常低,基本維持在 20% 左右,幾乎是在 1-5 之間隨機猜測的水平。只有當輸入序列長度非常短(長度為 3)且層數較多時,準確率才能有所提高,但仍然不超過 56%。

在 CoT 模式下,Transformer 表現顯著提高。無論序列長度多長,準確率都接近 100%。當序列長度增加至 33 和 36 時,層數為 1 的模型準確率有所下降,分別為 54% 和 46%,但這仍然遠高於 Hint 模式的表現。

迭代平方(Iterated Squaring)

迭代平方問題在密碼學中被廣泛用於構造加密演算法。它之所以重要,是因為該問題被認為計算難度很高,即使使用非常強大的並行處理器,也無法在合理時間內找到有效的解決方法。具體來說,給定三個整數 r、n、p,Transformer 需要計算 :圖片

如下圖所示,隨著模型層數和輸入長度的增加,Hint 模式下,Transformer 的表現逐漸變差。對於較短的輸入長度(如 6 和 14),即使層數較少,Transformer 仍然能保持相對較高的準確率(分別為 94% 和 89%),但當輸入長度增加到 30 或更長時,準確率顯著下降,尤其是模型層數較少時。

而在 CoT 模式下,無論序列長度和模型層數如何,Transformer 的表現都保持了 100% 的準確率。
圖片
電路值問題(Circuit Value Problem)

要計算電路值問題,模型需要根據輸入:圖片,計算出電路最後的邏輯閘 m 的值。

如下圖所示,在 Hint 模式下,在序列長度較短時,準確率還能保持 100%,但當長度較長時,準確率有大幅下降。使用 CoT 後,即使 Transformer 只有 1 層,就能達到接近 100% 的準確率。
圖片
更多研究細節,請參考原論文。

理論很豐滿,現實卻很骨感?

CoT 對 Transformer 的增益如此強大,這令人不禁聯想:o1 思考時間的時間越長,準確率也會提升,或許這個思路正與 o1 的核心理念不謀而合?
圖片
看到能為更強大的 LLM 推理新正規化的曙光初現,評論區一片沸騰,紛紛送上祝賀:如果這項研究是真的,那麼 AGI 可能很近了……
圖片
與此同時,這篇論文也引發了不少爭議。

比如有網友提出質疑,「所有問題都解決了,那大模型會出幻覺的問題解決了嗎?」
圖片
網友進一步發難:「這種方法能算是真正基於意義的推理嗎?因為它沒有考慮中間層也可能會產生幻覺的問題。這感覺更像是從一堆解決方案疊加在一起,然後挑出重合的部分?不就是單純增加了正確的機率而已?」

此外,這發生在檢索階段,而非在訓練階段,也就是說模型還是不能實時學習,無法隨著輸入更多資料不斷改進......
圖片
還有網友指出,雖然論文中透過「模擬閘電路運算」等實驗從理論上進行了證明,但這樣的模擬方式可能不能完全反映出大模型在真實環境中的行為。
圖片
比如對量子模擬、醫學診斷等領域可能就沒什麼說服力。
圖片
更令人擔憂的是,這種方法在現實中很難實現,因為它需要極大的計算資源和時間,而這些都會隨著輸入規模呈指數級增長。

「要達到人類級別的智慧,暴力解法可能需要為每個問題生成上億種解決方案。這就是為什麼單靠擴充套件計算能力行不通。人類解決問題時不會考慮成千上萬種可能性,而是憑直覺和推理迅速縮小到幾個可行的選項。如果我們想實現 AGI,AI 系統也需要模仿這種高效的方式。」
圖片
按這個思路想下去,不少網友緩緩地打出了一個問號:這不就是智慧時代的「無限猴子定理」嗎?讓一隻猴子在打字機上隨機地按鍵,只要給它的時間夠多,它最終必然能打出任何給定的文字,無論是《紅樓夢》還是《莎士比亞全集》。
圖片
Hacker News 甚至就這點討論出了一座高樓,但大多數人還是覺得,既然 ICLR 2024 都接收了這篇論文,那應該沒有問題吧?
圖片
隨著論文熱度的不斷攀升,田淵棟和 LeCun 等業內大佬也親自下場發問:「CoT,真的有這麼神奇嗎?」

田淵棟指出,Denny Zhou 等人提出了一種理論上的假設,實際操作中可能遠沒有那麼簡單。
圖片

儘管 CoT 非常有用,但我並不完全同意僅靠盲目擴充套件它就能解決所有問題。論文中提出了一種通用理論 —— 我們可以顯式地構建 Transformer 的權重,使其更好地適應特定任務。雖然模型的深度可以保持常數,但 CoT 的長度可能會非常長,而這種權重能否透過梯度下降演算法學到,仍是未知數。


他用了一個形象的比喻來說明這個問題:這有點像「在理論上,兩層神經網路在理論上可以擬合任何資料,我們就盲目相信並應用在所有場景中」

相比之下,人類的推理鏈非常簡潔,即使面對從未見過的問題,也能迅速抓住解決問題的關鍵。田淵棟認為,如何學習或構建出這樣的表示,是一個令人著迷的課題。

看到學生的評論,Yann LeCun 也發來了聲援:「我本來想說這個的,但被淵棟搶先了。」
圖片
作為「深度學習三巨頭」之一,LeCun 表示:「兩層網路和核機器(kernel machines)可以無限逼近任何函式,因此我們不需要深度學習。你可能不敢相信,從 1995 年到 2020 年,我聽過多少次這種論點!」

LeCun 進一步解釋道:「理論上是可行的,但問題在於,實際應用中,如果只使用兩層網路,第一層的神經元數量可能會多到不可操作。」

針對「兩層MLP」這個比喻中的問題,專注於生物學領域的 AI 研究實驗室 EvolutionaryScale 的聯合創始人 Zeming Lin 提出了自己的想法:

「我認為我們需要為機器學習模型構建類似喬姆斯基層次結構的框架。比如,是否存在適用於機器學習模型的 NP、P、O (n^2) 等概念,並明確 Transformer 或 Mamba 在這個層次結構中屬於哪一類。」
圖片
田淵棟表示支援:「因為涉及不同的資料分佈、模型架構、學習演算法、後處理等等,問題遠比想象的要複雜得多。」

雖然田淵棟可能並不完全認同這篇論文的思路,但他並沒有否定繼續嘗試的必要性。

而這篇可能證明了 CoT 能賦予基於 Transformer 架構的 LLM 更強推理能力的論文卻讓一向「不太喜歡」AGI,多次稱 LLM 無法實現 AGI 的 LeCun 遭到了更尖銳的質疑:
圖片

我還記得你曾說過,LLM(GPT)不是 AI,也永遠無法達到 AGI,因為它無法進行推理。

然而,現在透過 CoT+RL,它可以推理了。這篇論文只是證明了其他人一直以來所做的是正確的,一如既往。

為什麼 Meta 反對通往 AGI 的主流路徑?難道只是因為你個人不喜歡 Google 和 OpenAI 嗎?

也許正如這位網友所說,「似乎有人已經知道如何擴充 CoT 了。OpenAI 看起來對此非常有信心。」
圖片
至於這場爭論的焦點:CoT 是否真的能讓 Transformer 解決所有問題,顯然還需要更多研究來驗證。

在最終結論揭曉前,你怎麼看呢?

相關文章