AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
內部慢思考:透過額外的訓練,使模型在專門的推理任務上最佳化引數,提升自身的推理深度和輸出質量。
外部慢思考:不改變模型本身,而是增加計算開銷,例如透過多次取樣、重新生成答案等方式延長推理過程,從而提高推理的準確性和可靠性。
缺乏理論支撐:目前,我們對這些方法為何有效的理解仍然有限,這阻礙了更先進策略的設計。
計算資源需求高:複雜的慢思考技術往往需要大量計算資源,且最佳化設計引數的難度較大,導致實際應用中的表現不盡如人意。
論文標題:Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning
論文連結:http://arxiv.org/abs/2501.15602
分析了 LLM 推理過程中的雪球誤差效應,並證明該效應會導致推理錯誤機率隨推理路徑的增長而上升,強調了慢思考策略在減少錯誤中的關鍵作用。
提出了一種基於資訊理論的系統性框架,建立外部慢思考方法與推理正確機率之間的數學聯絡,為理解慢思考策略的有效性提供理論支撐。
對比了不同的外部慢思考方法,包括 BoN 和 MCTS 等,揭示它們在推理能力提升方面的差異與內在聯絡。
例如:在 LLM 執行數學推理任務時,例如解答「計算 3x + 2y」,模型並不是直接給出答案,而是隱式地執行一系列推理步驟: t₁: 計算 3x → t₂: 計算 2y → t₃: 將 3x 和 2y 相加。 然而,這些推理步驟是抽象的、不可直接觀察的,模型的最終輸出是這些推理過程的不同表達方式。例如,輸出序列 r₁ → r₂ → r₃ 可能有多種不同的表達形式,但它們並不一定能完全還原對應的推理步驟 t₁ → t₂ → t₃。
互資訊呈負指數級下降,比線性衰減更快,隨著推理步數 L 的增長,資訊損失迅速累積;
由於計算的是平均互資訊,推理鏈條靠後的 token 可能損失更多關鍵資訊;
獎勵分數隨推理長度增加而下降,進一步驗證了雪球誤差對 LLM 生成質量的影響。
寬度擴充套件(Width-Expansion):
對於長度一定的推理序列,大多數外部慢思考方法都試圖擴充套件推理空間的寬度。
這可以透過簡單的重新生成(BoN、CoT-SC)或更復雜的樹搜尋方法(ToT、MCTS) 來實現。
生成 & 選擇(Generation & Selection):
擴充套件推理空間後,還需要從多個候選推理路徑中選出最優解。
設 Pr (τ_generate) 為生成正確推理的機率,Pr (τ_select) 為從候選路徑中選出正確推理的機率,則最終獲得正確推理結果的機率可表示為:Pr [ψ(R)≤τ ]= Pr (τ_generate )× Pr (τ_select )。
在每一層推理,生成 k 個子節點以擴充套件搜尋樹的寬度;
僅保留 b 個最優候選解,以減少計算複雜度。
每層生成的候選數 k :決定了推理空間的擴充套件寬度;
每層篩選的最優候選數 b :影響正確推理路徑的選擇精度;
正確性閾值 τ :衡量推理結果的質量要求。
Pr (τ_select) (選擇正確推理的機率)依賴於價值函式的可靠性,即 ϵ_b 相關的引數。
Pr (τ_generate) (生成正確推理的機率)受 推理路徑長度 L 和擴充套件寬度 k 影響。
透過增加推理步驟,可以提升生成正確推理的機率,但同時會引入額外的選擇代價,增加錯誤機率。
最優情況下:BoN 與 MCTS 的推理成本趨近相等;
最差情況下:當推理步數 L 較小時,BoN 的成本可能略高於 MCTS,但仍保持在合理範圍內。當 L 增加,BoN 的推理成本甚至可能低於 MCTS。
N ̃_res :對齊推理步數的 N 值
N ̃_call :對齊 LLM 呼叫次數的 N 值
Self-Consistency(自洽性選擇)
ORM Vote(基於獎勵模型的投票選擇)
ORM Max(基於獎勵模型的最大值選擇)
PrOntoQA(二分類任務:True/False):
由於答案固定,增加 N 並不會提升 Self-Consistency 策略下的 BoN 效能,除非引入獎勵模型。
GSM8k(多步推理任務):
由於答案多樣,增加 N 即使在沒有獎勵模型的情況下,也能提升 BoN 的效能。
ORM Vote & ORM Max 策略(結合獎勵模型):當 N 在 N ̃_res 和 N ̃_call 之間時,BoN 能夠達到與 MCTS 相當的推理效能;
N 接近 N ̃_res 時,BoN 略低於 MCTS,但差距不大;
N 取更大值時,BoN 能夠匹敵甚至超越 MCTS,進一步驗證了 MCTS 在 LLM 推理中的侷限性,並支援研究者的理論分析。