人大劉勇團隊「慢思考」機理分析:從雪球誤差到正確推理機率

机器之心發表於2025-02-10
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在大語言模型(LLMs)的發展歷程中, Scaling Laws [1] 一直是推動效能提升的核心策略。研究表明,隨著模型規模和訓練資料的增長,LLMs 的表現會不斷最佳化 [2]。然而,隨著訓練階段規模的進一步擴大,效能提升的邊際收益逐漸減小,訓練更強大的模型需要鉅額投入。因此,研究重點逐漸從訓練階段的擴充套件轉向推理階段的擴充套件 [3],探索在不增加模型引數量的情況下,如何提升推理質量。

「慢思考」(Slow-Thinking),也被稱為測試時擴充套件(Test-Time Scaling),成為提升 LLM 推理能力的新方向。近年來,OpenAI 的 o1 [4]、DeepSeek 的 R1 [5] 以及 Qwen 的 QwQ [6] 等頂尖推理大模型的釋出,進一步印證了推理過程的擴充套件是最佳化 LLM 邏輯能力的有效路徑。研究發現,增加推理時間能夠顯著提升 LLM 的推理質量 [7],這一發現推動了對 「慢思考」方法的深入研究。

「慢思考」主要可以分為內部慢思考(Internal Slow-Thinking) 和 外部慢思考(External Slow-Thinking) 兩種方式
  • 內部慢思考:透過額外的訓練,使模型在專門的推理任務上最佳化引數,提升自身的推理深度和輸出質量。

  • 外部慢思考:不改變模型本身,而是增加計算開銷,例如透過多次取樣、重新生成答案等方式延長推理過程,從而提高推理的準確性和可靠性。

本文主要關注外部慢思考。在面對複雜問題時,人類往往會花費額外的時間思考和完善推理的中間過程,以提高準確性。外部慢思考受這一認知過程的啟發,透過增加推理步驟來提升大語言模型的推理質量 [8]。例如,BoN(Best-of-N)方法會生成多個答案,並透過多數投票或排序等策略選出最優解 [9]。此外,更前沿的框架 如思維鏈(CoT)[10]、思維樹(ToT)[11] 以及借鑑 AlphaGo [12] 蒙特卡洛樹搜尋(MCTS) 的方法,能夠在樹狀結構中探索解答空間,尋找更優的答案 [13-14]。

然而,儘管外部慢思考方法展現出提升推理質量的潛力,但仍面臨兩大核心挑戰
  1. 缺乏理論支撐:目前,我們對這些方法為何有效的理解仍然有限,這阻礙了更先進策略的設計。

  2. 計算資源需求高:複雜的慢思考技術往往需要大量計算資源,且最佳化設計引數的難度較大,導致實際應用中的表現不盡如人意。

針對這些挑戰,研究者提出了一種基於資訊理論的系統性框架,建立外部慢思考方法與 LLM 生成正確推理的機率之間的聯絡。隨著「慢思考」方法的深入探索,LLM 發展新的轉折點正在到來。未來,大模型的推理能力最佳化不再侷限於擴大模型規模,而是透過最佳化推理過程,實現更智慧、更精準的邏輯推理。本研究將深入剖析外部慢思考策略的理論基礎、機制解析以及其對 LLM 推理能力的影響,為人工智慧推理能力的進一步突破提供新的方向。
圖片
  • 論文標題:Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning

  • 論文連結:http://arxiv.org/abs/2501.15602

此工作主要作出瞭如下貢獻:
  • 分析了 LLM 推理過程中的雪球誤差效應,並證明該效應會導致推理錯誤機率隨推理路徑的增長而上升,強調了慢思考策略在減少錯誤中的關鍵作用。

  • 提出了一種基於資訊理論的系統性框架,建立外部慢思考方法推理正確機率之間的數學聯絡,為理解慢思考策略的有效性提供理論支撐。

  • 對比了不同的外部慢思考方法,包括 BoN 和 MCTS 等,揭示它們在推理能力提升方面的差異與內在聯絡。

1 大模型推理過程中的「雪球誤差」

想象一下,在冬天的雪地上滾動一個雪球。隨著滾動的距離增加,雪球會以越來越快的速度變大,這就是雪球效應(Snowball Effect)—— 小的變化會隨著時間推移不斷累積,最終帶來顯著影響。

在大規模語言模型(LLMs)中,這一效應最初體現在自迴歸式(Auto-Regressive) 的 Next-Token Prediction(NTP)任務中,微小的 token 級錯誤會不斷累積,最終導致模型生成的答案偏離預期的正確答案 [15]。然而,在更復雜的推理任務中,這種錯誤不再僅限於 token 級,而是擴充套件到句子級,使得推理偏差更加難以衡量和控制。

為什麼推理偏差會逐步放大?

研究表明,LLM 的推理過程可以看作是逐步執行一系列原始任務(Primitive Tasks)[16],每一步的推理結果都依賴於前面的輸出。因此,任何早期的微小誤差都會在推理鏈條中不斷放大,最終導致模型偏離正確答案

為了更直觀地理解這一現象,研究者藉助柏拉圖的「洞穴寓言」(Plato’s Allegory of the Cave)。在這個寓言中,人們只能看到投射在牆上的影子,而無法直接感知真實世界,類似於 LLM 只能從訓練資料中學習世界的「投影」。如圖 1 (a) 所示,訓練資料只是現實世界的對映,而 LLM 生成的推理結果正如圖 1 (b) 所示,僅是其內部推理過程的「影子」。
圖片
圖表 1: 大模型推理過程的柏拉圖假設

換句話說,模型的推理輸出並非直接反映其思維過程,而是受限於它從訓練資料中學到的模式和誤差,導致滾雪球效應的持續累積

例如:在 LLM 執行數學推理任務時,例如解答「計算 3x + 2y」,模型並不是直接給出答案,而是隱式地執行一系列推理步驟:

t₁: 計算 3x → t₂: 計算 2y → t₃: 將 3x 和 2y 相加。

然而,這些推理步驟是抽象的、不可直接觀察的,模型的最終輸出是這些推理過程的不同表達方式。例如,輸出序列 r₁ → r₂ → r₃ 可能有多種不同的表達形式,但它們並不一定能完全還原對應的推理步驟 t₁ → t₂ → t₃。

由於單個輸出 r_l 無法完全表達對應的推理步驟 t_l,即使初始誤差微小,也會隨著推理鏈條的延續逐步放大,最終導致嚴重的推理偏差。這種誤差的積累,正是雪球效應在推理任務中的典型體現。

在 LLM 推理過程中,雪球誤差會導致模型的推理結果逐步偏離正確答案。為了精準衡量這一誤差,本研究引入互資訊(Mutual Information, MI)這一數學工具,來量化隱式推理序列 t 與最終生成的回覆序列 r 之間的共享資訊量,記作 I (t; r)。這一度量幫助評估模型在推理過程中能夠保留多少關鍵資訊。

具體而言,在每個推理步驟中,模型的輸出可能存在細微偏差,這些誤差會逐步累積並導致資訊損失。研究者將資訊損失定義為互資訊 I (t; r) 與隱式推理過程的資訊熵 H (t) 之間的差值
圖片
而最終的雪球誤差則可以定義為在所有推理步驟上資訊損失的累積:
圖片
2 從「雪球誤差」到推理錯誤的機率

在 LLM 的推理過程中,推理路徑越長,雪球誤差就會不斷累積,最終導致嚴重的事實偏差,研究者將其定義為推理錯誤(Reasoning Errors)

如何衡量推理錯誤?

為了準確評估推理錯誤,研究者首先需要清晰地定義它。由於每個輸出 r_l 代表隱式推理步驟 t_l,研究者透過檢查是否存在一個足夠強大的對映函式 f 來從 r_l 還原 t_l。如果這種還原能力較弱,說明推理過程中資訊損失較大,進而導致了推理錯誤的發生。具體而言,研究者將「推理錯誤」這一事件刻畫如下:
圖片
為了更準確地估計 LLM 發生推理錯誤的機率,本研究提出使用資訊理論方法,建立雪球誤差與推理錯誤發生機率之間的數學聯絡。研究者從一個關鍵引理出發,透過理論推導揭示滾雪球誤差如何逐步積累,並最終影響模型的推理準確性。
圖片
基於此引理,研究者可以推匯出推理錯誤發生機率的下界:
圖片
此定理表明,在推理的第 l 步,錯誤機率的下界受累積資訊損失 H_(<l) (t|r) 影響,由於其累加的定義,這一損失至少會隨推理步數 l 線性增長。

雪球效應出現時,累積資訊損失可能超過線性增長,導致推理錯誤機率隨推理路徑的增加而快速上升。換句話說,推理鏈條越長,模型出錯的可能性越大,這解釋了 LLM 在長鏈推理任務中為何容易出現偏差。
圖片
圖表 2: 不同 LLM 在 GSM8k 資料集上生成回覆的估計互資訊(MI)和獎勵分數

為了實證驗證 LLM 推理中的雪球誤差效應,本研究基於 GSM8k 資料集進行實驗,並測試了三款先進的推理 LLMs:Llama3.1-8B-Instruct、Qwen2.5-7B-Instruct以及 Skywork-o1-Open-Llama-3.1-8B。

研究者計算了互資訊 I (t; r) 在所有 token 上的平均值,並分析其隨推理路徑長度 L 的變化,同時評估生成結果的獎勵分數(reward),結果如圖表 2 所示。實驗結果表明:
  • 互資訊呈負指數級下降,比線性衰減更快,隨著推理步數 L 的增長,資訊損失迅速累積;

  • 由於計算的是平均互資訊,推理鏈條靠後的 token 可能損失更多關鍵資訊

  • 獎勵分數隨推理長度增加而下降,進一步驗證了雪球誤差對 LLM 生成質量的影響。

這一實驗結果不僅驗證了雪球誤差的存在,也表明資訊損失的累積速度遠超線性衰減,直接影響 LLM 生成的推理質量。這一發現與研究者的理論分析一致。

3 外部慢思考中的正確推理機率

先前的分析表明,推理錯誤機率 P (e_l) 隨著推理步數 l 的增加而上升。然而,在實際應用中,推理錯誤通常體現在模型生成結果的獎勵分數(reward) 上。因此,本文進一步擴充套件至現實場景,探討外部慢思考方法為何有效

3.1 何為正確推理

研究者首先定義 LLM 在現實場景中的推理過程。對於一個問題 r_0,模型會透過自迴歸方式生成一個包含 L 個推理步驟的響應序列:R = [r_1,r_2,…,r_L]。

為了評估每一步推理 r_l 的質量,研究者引入一個價值函式 φ,用於衡量每個步驟的正確性 φ(r_l) 。在實際應用中,這一評估可以透過人類反饋或獎勵模型來實現。此外,研究者假設每個推理步驟都有一個標準答案 r_l^*,代表 LLM 應該生成的最準確答案,與人類理想推理方式保持一致。

基於上述設定,研究者利用價值函式 φ 評估推理步驟的正確性,並據此量化 LLM 生成回覆的質量。具體而言,研究者分別將單步推理和整個推理過程的正確性定義如下:
圖片
3.2 正確推理的機率

實驗結果(圖表 2)表明,平均互資訊會隨推理步數呈近似指數級下降,這意味著雪球誤差隨著推理長度的增加呈指數級增長。然而,由於機率值不能超過 1,研究者基於定理 3.3 提出一個假設:在實際應用中,推理錯誤的機率可能遵循指數衰減函式,即:P (e_l) = 1 -λe^(-l),這一假設使得後續分析更加直觀,並進一步幫助推導在第 l 層生成正確推理步驟的機率
圖片
由此假設,研究者推匯出在雪球誤差存在時,最終得到一個正確的完整推理過程的機率:
圖片
3.3 外部慢思考提升推理質量的機理

基於前面的分析,研究者首先直觀上得出這樣的結論:由於 LLM 生成的隨機性,外部慢思考方法的核心目標是引入額外的推理步驟並結合多次重新取樣策略,從而對沖雪球誤差,進而提高模型生成結果的正確性

接下來,研究者利用理論分析進一步詳細闡述這一觀點。首先,外部慢思考方法從根本上來說主要具有兩個特點:
  • 寬度擴充套件(Width-Expansion):

  • 對於長度一定的推理序列,大多數外部慢思考方法都試圖擴充套件推理空間的寬度。

  • 這可以透過簡單的重新生成(BoN、CoT-SC)或更復雜的樹搜尋方法(ToT、MCTS) 來實現。

  • 生成 & 選擇(Generation & Selection):

  • 擴充套件推理空間後,還需要從多個候選推理路徑中選出最優解。

  • 設 Pr (τ_generate) 為生成正確推理的機率,Pr (τ_select) 為從候選路徑中選出正確推理的機率,則最終獲得正確推理結果的機率可表示為:Pr [ψ(R)≤τ ]= Pr (τ_generate )× Pr (τ_select )。

外部慢思考 透過擴充套件推理空間來提升 LLM 生成正確答案的機率 Pr (τ_generate),但與此同時,額外的推理步驟也會增加選擇最優推理路徑的難度,從而降低 Pr (τ_select)。這意味著,在提升推理正確性的同時,也帶來了更復雜的決策挑戰。

如何量化這種權衡?

為了更直觀地分析這一現象,研究者以 Beam Search 作為基準的寬度擴充套件策略。Beam Search 廣泛應用於樹搜尋演算法,其核心機制如下:
  • 在每一層推理,生成 k 個子節點以擴充套件搜尋樹的寬度;

  • 僅保留 b 個最優候選解,以減少計算複雜度。

研究者將分析結果形式化為一個數學引理,進一步揭示了推理空間擴充套件與最優路徑選擇之間的平衡關係。
圖片
基於推理過程的基本假設,這一機率上界可以被進一步簡化為:
圖片
引理 4.5 和定理 4.6 闡述了外部慢思考技術的本質機理並支撐了如下結論:

獲得正確推理的機率主要受以下三個關鍵因素影響:
  • 每層生成的候選數 k :決定了推理空間的擴充套件寬度;

  • 每層篩選的最優候選數 b :影響正確推理路徑的選擇精度;

  • 正確性閾值 τ :衡量推理結果的質量要求。

寬度擴充套件 vs. 選擇可靠性:如何找到平衡?
  • Pr (τ_select) (選擇正確推理的機率)依賴於價值函式的可靠性,即 ϵ_b 相關的引數。

  • Pr (τ_generate) (生成正確推理的機率)受 推理路徑長度 L 和擴充套件寬度 k 影響。

  • 透過增加推理步驟,可以提升生成正確推理的機率,但同時會引入額外的選擇代價,增加錯誤機率。

慢思考方法的關鍵最佳化條件

對比引理 4.4 和定理 4.6 發現,慢思考方法是否有效,還取決於價值函式的可靠性。為了保證推理準確率的上限得到提升,價值函式的可靠性必須滿足:圖片

透過上述分析,研究者總結了外部慢思考方法的核心機制。透過增加推理路徑的搜尋範圍,這些方法提高了生成正確答案的機率,有效減少雪球誤差的累積。同時其效果極大依賴於所使用的價值函式的可靠性,這一因素直接影響整個方法的最終表現

4 外部慢思考方法間的對比

接下來,研究者將對比簡單和複雜的外部慢思考框架之間的核心區別,並以著名的 BoN 和 MCTS 為例進行分析。

4.1 BoN 與 MCTS 框架下的正確推理機率

對於 BoN 來說,研究者很方便地將其建模為進行 N 次長度為 L 的推理,並最終在 N 個答案中選擇一次的過程。因此,BoN 的正確推理機率上界為:
圖片
對於 MCTS(RAP 模式),由於其機制較為複雜,研究者考慮其最好和最壞的情況。在最好的情況下,MCTS 的每次節點擴充套件時都發生在最深的葉子節點上,則它退化成了一個取樣寬度和保留寬度都為 b 的 Beam Search。
圖片
而在最差情況,MCTS 需要遍歷所有可能的節點,從而形成一棵完全 b - 叉樹。
圖片
4.2 對比 BoN 與 MCTS 的總推理代價

可以看出,MCTS 由於需要呼叫更多次的選擇過程,一般會比 BoN 對於價值函式有更高的敏感性。除此之外,在假設價值函式完美(ϵ_b=1)的情況下,研究者對齊機率上界中的其餘部分,可以計算出當 BoN 和 MCTS 具有相當的正確推理機率上界時,所需要具備的總推理代價的規模,如圖表 3 所示。
圖片
圖表 3: 相同推理正確機率下 BoN 與 MCTS 總推理代價規模對比

結果表明,當 BoN 與 MCTS 在推理正確率上相當時,BoN 的總推理成本與 MCTS 接近。
  • 最優情況下:BoN 與 MCTS 的推理成本趨近相等;

  • 最差情況下:當推理步數 L 較小時,BoN 的成本可能略高於 MCTS,但仍保持在合理範圍內。當 L 增加,BoN 的推理成本甚至可能低於 MCTS。

這一結論表明,推理成本是決定減少雪球誤差效果的關鍵因素,而具體採用哪種慢思考框架(如 BoN 或 MCTS)對最終結果的影響理論上可能是較小的。

4.3 實驗驗證

在 GSM8k 和 PrOntoQA 兩個推理任務上,實證對比了 BoN 和 MCTS 的推理準確性。研究者採用 [14] 推薦的 MCTS 最佳化配置,並計算相應的 N 值,使 BoN 的推理成本與 MCTS 儘可能接近。由於兩種方法生成推理路徑的方式不同,完全對齊並不現實,因此研究者定義合理的 N 值區間:

N 合理範圍的下界與上界:
  • N ̃_res :對齊推理步數的 N 值

  • N ̃_call :對齊 LLM 呼叫次數的 N 值

研究者測試了 BoN 的三種選擇策略
  • Self-Consistency(自洽性選擇)

  • ORM Vote(基於獎勵模型的投票選擇)

  • ORM Max(基於獎勵模型的最大值選擇)

實驗結果如圖表 4 所示。
圖片
圖表 4: GSM8k 和 PrOntoQA 上 BoN 與 MCTS 的準確性對比

研究者可以得出如下結論:

不同任務下的 BoN 表現
  • PrOntoQA(二分類任務:True/False):

  • 由於答案固定,增加 N 並不會提升 Self-Consistency 策略下的 BoN 效能,除非引入獎勵模型。

  • GSM8k(多步推理任務):

  • 由於答案多樣,增加 N 即使在沒有獎勵模型的情況下,也能提升 BoN 的效能。

BoN 與 MCTS 的關鍵對比
  • ORM Vote & ORM Max 策略(結合獎勵模型):當 N 在 N ̃_res 和 N ̃_call 之間時,BoN 能夠達到與 MCTS 相當的推理效能;

  • N 接近 N ̃_res 時,BoN 略低於 MCTS,但差距不大;

  • N 取更大值時,BoN 能夠匹敵甚至超越 MCTS,進一步驗證了 MCTS 在 LLM 推理中的侷限性,並支援研究者的理論分析。

本實驗表明,在合理的 N 值範圍內,BoN 透過適當調整推理寬度,可以達到甚至超越 MCTS 的推理效果,這與研究者的理論分析一致

5 小結

本研究分析了外部慢思考方法的有效性機制,並透過資訊理論建立了 LLM 推理中的雪球誤差與推理錯誤之間的聯絡。研究表明,外部慢思考方法透過擴充套件推理空間可以減少推理錯誤,但同時增加了推理成本,需要在正確性和計算開銷之間權衡。

對比 BoN 和 MCTS 等方法後,研究者發現影響其有效性的核心因素是獎勵函式的能力和推理總成本,而具體的搜尋框架影響較小。因此,最佳化獎勵函式和提升策略模型的推理能力是未來改進外部慢思考方法的關鍵方向。

參考文獻
[1] Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.
[2] Yuan, Z., Yuan, H., Li, C., Dong, G., Tan, C., & Zhou, C. (2023). Scaling relationship on learning mathematical reasoning with large language models. arXiv preprint arXiv:2308.01825.
[3] Snell, C., Lee, J., Xu, K., & Kumar, A. (2024). Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314.
[4] OpenAI. Learning to reason with llms, 2024. URL https://openai.com/index/learning-to-reason-with-llms/. Accessed: September 12, 2024.
[5] DeepSeek-AI. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025. URL https://arxiv.org/abs/2501.12948.
[6] Team, Q. Qwq: Reflect deeply on the boundaries of the unknown, November 2024b. URL https://qwenlm. github.io/blog/qwq-32b-preview/.
[7] Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., ... & Cobbe, K. (2023). Let's verify step by step. arXiv preprint arXiv:2305.20050.
[8] Brown, B., Juravsky, J., Ehrlich, R., Clark, R., Le, Q. V., Ré, C., & Mirhoseini, A. (2024). Large language monkeys: Scaling inference compute with repeated sampling. arXiv preprint arXiv:2407.21787.
[9] Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., ... & Schulman, J. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.
[10] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.
[11] Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., & Narasimhan, K. (2024). Tree of thoughts: Deliberate problem solving with large language models. Advances in Neural Information Processing Systems, 36.
[12] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. nature, 529 (7587), 484-489.
[13] Zhang, D., Zhoubian, S., Yue, Y., Dong, Y., & Tang, J. (2024). ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search. arXiv preprint arXiv:2406.03816.
[14] Feng, X., Wan, Z., Wen, M., Wen, Y., Zhang, W., & Wang, J. (2023). Alphazero-like tree-search can guide large language model decoding and training. arXiv preprint arXiv:2309.17179.
[15] Bachmann, G., & Nagarajan, V. (2024). The pitfalls of next-token prediction. arXiv preprint arXiv:2403.06963.
[16] Ton, J. F., Taufiq, M. F., & Liu, Y. (2024). Understanding Chain-of-Thought in LLMs through Information Theory. arXiv preprint arXiv:2411.11984.

作者介紹

劉勇,中國人民大學,長聘副教授,博士生導師,國家級高層次青年人才。長期從事機器學習基礎理論研究,共發表論文 100 餘篇,其中以第一作者 / 通訊作者發表頂級期刊和會議論文近 50 篇,涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級會議 ICML、NeurIPS 等。獲中國人民大學「傑出學者」、中國科學院「青年創新促進會」成員、中國科學院資訊工程研究所「引進優青」等稱號。主持國家自然科學麵上 / 基金青年、北京市面上專案、中科院基礎前沿科學研究計劃、騰訊犀牛鳥基金、CCF - 華為胡楊林基金等專案。

甘澤宇,中國人民大學高瓴人工智慧學院博士研究生,本科及碩士研究生畢業於中國人民大學資訊學院。當前主要研究方向包括大模型對齊與機器學習理論。

相關文章