NeurIPS 2024 (Oral) | 如何量化與提升思維鏈的推理能力邊界?

机器之心發表於2024-11-10
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本篇工作已被 NeurIPS(Conference on Neural Information Processing Systems)2024 會議接收,並被評為 Oral Presentation (72/4553) 。該文章的第一作者陳麒光,目前就讀於哈工大賽爾實驗室。他的主要研究方向包括大模型思維鏈、跨語言大模型等。

該研究主要提出了推理邊界框架(Reasoning Boundary Framework, RBF),首次嘗試量化並最佳化思維鏈推理能力。
圖片
  • 論文連結:https://arxiv.org/abs/2410.05695

  • 程式碼地址:https://github.com/LightChen233/reasoning-boundary

1. 大型語言模型(LLMs)與思維鏈推理能力

什麼是思維鏈(Chain-of-Thought, CoT)?

近年來,大型語言模型(LLMs) 在處理各種複雜任務中取得了長足進展,從文字生成到問題解答,LLMs 幾乎無所不能。然而,面對複雜的推理任務,LLMs 也存在瓶頸 —— 模型往往容易跳過推理的中間步驟,直接生成最終答案,這使得它們在應對複雜問題時容易犯錯。

思維鏈推理(CoT) 是一種讓模型分步推理複雜問題的方法。與傳統模型的直接生成答案不同,CoT 透過逐步細化問題的每一步,從而得到更準確、更有邏輯的結果。

為什麼它如此重要?

為什麼 CoT 很重要?因為面對複雜的推理任務,模型往往會因為資訊量大、推理路徑複雜而犯錯。CoT 的逐步推理策略使模型能夠處理更具挑戰性的任務 —— 從數學題解到現實決策問題,它能幫助模型分解任務,找到每個步驟的最佳解法。

這不僅提升了模型的準確性,還顯著增強了它處理複雜任務的能力,使其能夠應用於更廣泛的實際場景中。

2. 模型推理的困境:複雜任務中的可解釋性難題

想象這樣一個情景 :你正在處理一個複雜的專案,需要模型綜合多種能力,最終透過多步推理找到最優解決方案,那麼這些能力和推理能力是如何組合,共同影響並改進最終效能的呢?

為了解決該問題,該文章透過研究以下幾個問題來理解和解決這個問題。
圖片
2.1 模型在面對複雜推理時,如何對推理能力進行量化?

當前多數研究依賴定性分析,缺乏統一的量化指標來系統比較不同的 CoT 推理方法。這種侷限性導致研究者難以精確評估和預測模型在複雜任務中的推理能力上限,阻礙了對 CoT 推理效果的深入理解和科學驗證。

為此,研究人員提出推理邊界框架(Reasoning Boundary Framework, RBF),定義了模型在不同準確率對於的推理能力邊界。並提出了三種推理邊界以量化推理能力邊界:完全可行推理邊界(CFRB);完全不可行推理邊界(CIRB); 部分可行推理邊界(PFRB)。

2.2 推理能力與不同的其他能力如何組合?

在實際場景中,模型往往需要整合多種能力才能有效地解決某一任務。

為了定量描述如何透過思維鏈 CoT 機制實現多種能力的協同提升,研究者進一步提出了 “ 推理邊界的組合律 ”,並推導並驗證了該組合律的具體公式。

2.3 如何基於可解釋性框架最佳化思維鏈?

雖然已有研究揭示了 CoT 推理的部分機制,但如何系統性地最佳化 CoT 推理的效率和效果仍缺少明確的策略與方法指導。這一不足限制了 CoT 技術在實際應用中的進一步改進與擴充。

根據推理邊界框架,本文提出了最短可接受推理路徑(MARP) 最佳化推理效率。無論是在複雜的數學推理還是多跳推理中,RBF 都能幫助模型在海量資訊中找到最優路徑,大幅提升推理效果。

3. 概念定義

3.1 推理邊界

為了量化大型語言模型的複雜推理能力,如圖 1 (a) 所示,研究者引入了推理邊界(Reasoning Boundary, RB) 的概念,定義了 LLMs 在特定推理過程中能夠處理的任務難度上限。

具體而言,RB 被定義為模型 m 和任務 t 作為問題難度 d 的最大值,模型的準確性達到預定義閾值圖片
圖片
其中 Acc (t|d, m) 表示模型在難度為 d 的任務 t 上的準確率。難度可以透過推理步驟數或計算複雜度等因素來衡量。簡而言之,RB 反映了模型在保持一定準確性(accuracy)的前提下,其推理能力的邊界。

* 為了簡潔起見,在後續文章中將 RB 表示為圖片

總結:模型的推理邊界是由其針對給定任務難度實現特定準確度的能力來定義的。

3.2 推理邊界間的組合律

在實際場景中,模型往往需要整合多種能力才能有效地解決某一任務。

為了定量描述如何透過思維鏈 CoT 機制實現多種能力的協同提升,研究者提出了“推理邊界的組合律”,並推匯出 CoT 能力上限的具體公式。

該定律估計模型 m 內 n 個任務的統一推理邊界圖片,即表述為:
圖片
其中圖片表示任務圖片的推理邊界。圖片圖片是縮放因子,僅受相關任務影響。如圖 1 (b) 所示,該方程提供了一個數學公式來估計獨立 RB 的組合,從而可以更深入地瞭解複雜任務的模型行為。

總結:推理邊界的組合律描述了多個推理能力的協同效應,滿足加權調和平均公式,用以估計模型在多個任務上的整體推理能力。

3.3 推理邊界劃分
此外,為了指導 CoT 的最佳化和更方便的表達,如圖 1 (c) 所示,研究者根據經驗準確性定義了以下三類 RB:

  1. 完全可行的推理邊界:研究者定義準確率大於 90% 的部分是完全可行的推理邊界 (CFRB=圖片),這意味著 LLM 可以有效地掌握這部分的表現。

  2. 完全不可行的推理邊界:研究者認為準確率小於 10% 的部分是完全不可行的推理邊界 (CIRB=圖片),這意味著模型永遠無法有效掌握這部分的效能。

  3. 部分可行推理邊界:研究者將除 CFRB 和 CIRB 之外的其餘部分中的 RB 定義為部分可行推理邊界 (PFRB=圖片),這需要模型重複思考或者更清晰的資訊來解決問題。

研究者透過詳細分析了這三類 RB 的性質,進一步結合組合律來最佳化這三個推理邊界,從而為支援未來 CoT 最佳化提供有效的建議和指導。

4. 實驗設定
  1. 模型設定:研究者們採用了 GPT-3.5-Turbo 作為主要模型,實驗還涵蓋了多工場景,包括數學推理、多跳問答和多語言推理等領域,以確保推理邊界的全面評估。

  2. 基準設定:為了更好地評估 LLMs 的推理能力,作者引入了一個新的資料集 ——BigGSM。這個資料集不僅具有較高的計算複雜性,還包含更長的推理鏈,能夠更好地挑戰模型的推理上限。

5. 驗證性實驗

5.1 推理邊界存在性驗證

研究者們透過實證分析,驗證了推理邊界在三類任務中的普遍性:

在基礎算術運算中,呈現出三種不同的推理邊界 (圖 2 (a));
在自然語言規劃任務中,同樣展現出三種不同的推理邊界 (圖 2 (b));
在程式碼規劃任務中,仍然表現出一致的三種推理邊界 (圖 2 (c))。
圖片
5.2 推理邊界組合律驗證

在實際應用中,模型通常需要整合多種能力才能高效解決複雜任務。為此,研究者們進一步地驗證了實際場景中,推理邊界組合律的廣泛適用性:

  • 複雜多項式計算的推理邊界:可視為 ①計算步驟規劃 與 ②數學運算 兩個推理邊界的結合。如圖 3 (a) 所示,實驗結果顯示了三個具有明顯邊界的推理邊界劃分割槽域。
  • 複雜小學數學推理的推理邊界:可理解為 ①自然語言步驟規劃 與 ②數學運算 的結合,圖 3 (b) 中同樣展示了三個清晰的推理邊界劃分割槽域。
  • 多跳問答的推理邊界:可被視作 ①多跳規劃 與 ②實體推理 的結合。正如圖 3 (c) 所示,三個推理邊界劃分的有效區域同樣可見。
圖片
5.3 不同推理邊界的不同性質

研究者驗證了不同推理邊界在模型中的性質:

  • 完全可行推理邊界-->完全掌握:如圖 4 (a, b) 所示,在這一邊界下,模型即使在沒有示例、無需 self-consistency 的情況下也能夠高效完成任務。

  • 部分可行推理邊界-->不完全掌握:在這一推理邊界下,如圖 4 (b) 所示,模型對任務的掌握程度有限,需要透過多次 Self-consistency 來增強信心,從而提高準確率。

  • 完全不可行推理邊界-->完全不掌握:在這種邊界下,如圖 4 (b) 所示,模型的推理表現極其有限,即便採用 Self-consistency,模型的準確率仍難以得到提升。

  • 大模型能夠自己意識到自己的推理邊界:研究還發現,如圖 4 (c) 所示,當讓模型自行生成 CoT 示例時,模型更傾向於生成符合其推理邊界的樣本,特別是在完全可行推理邊界範圍內,而很少生成其完全無法掌握的樣本。這表明模型對推理邊界具有一定的自我感知能力,能夠根據自身能力選擇合適的任務進行推理。

圖片
6. 基於推理邊界的 CoT 最佳化

為了進一步最佳化思維鏈的表現,研究者們提出了基於推理邊界最佳化的多種策略,並對這些策略進行了全面的實驗驗證,揭示瞭如何透過調整 RB 提升複雜任務中的推理能力。
圖片
6.1 推理邊界最佳化策略

工具使用可以提升大語言模型的推理邊界

當模型使用工具時,可以簡單地認為模型可以以無限精度執行計算,因此數學計算的推理邊界趨向於無窮大,即圖片。顯然,模型的組合推理邊界可以計算為:
圖片
其中,c 表示計算任務,p 表示規劃任務。很容易得出,圖片,這表明工具使用可以提高推理的邊界。這解釋了為什麼工具使用比普通的推理鏈效能更好(見表 1)。此外,如圖 5 所示,理論推理邊界與實際推理邊界的分佈幾乎完美重合,這也證明了該假設的可靠性和適用性。

程式化思維可以進一步提升大語言模型的推理邊界。

由工具使用的組合推理邊界計算公式可得,LLM 的推理邊界完全取決於其規劃能力。由於自然語言可能過於冗長,它會妨礙 LLM 的規劃能力。因此,程式化思維(Program-of-Thought,PoT)透過程式碼提供了更清晰的邏輯表示,使得規劃更為清晰(如圖 2 (b, c) 所示)。所以,這導致更好的步驟規劃推理邊界,即圖片圖片。那麼,PoT 的推理邊界圖片

6.2 推理路徑最佳化策略

對於固定推理方式的模型而言,其推理邊界(即能力邊界)是相對固定的。因此,關鍵問題在於如何透過最佳化策略,提升模型的推理能力,使得最佳化後的推理邊界超越原問題所需的邊界。
  • Complex CoT 在推理步驟與效能之間的平衡

  • 單次計算負荷緩解:研究表明,透過增加推理步驟,可以緩解單次計算的負荷,從而提升模型的計算邊界圖片,這有助於提高整體的推理能力。

  • 規劃難度增加:然而,推理步驟的過度增加可能帶來負面影響:原問題在準確率較高的邊界圖片上,經過 Complex CoT,可能落到準確率較低的邊界圖片上,其中圖片。這意味著過多的推理步驟可能導致組合推理準確度的下降。

圖片
  • 在規劃與計算負荷之間存在一個平衡:如圖 6 所示,隨著推理步驟的增加,模型效能在初期顯著提高,但當步驟數超過模型的最優推理能力時,效能開始下降。這表明,Complex CoT 在推理步驟數量與計算負荷之間存在一個最佳平衡點。超出這一點,計算負荷的增加會對模型的整體表現產生負面影響。

  • Least-to-Most 的分步最佳化策略

區域性規劃壓力緩解:透過將問題拆解為多個子問題,如圖 7 所示,可以有效減少每個步驟內的規劃壓力,對各種不同計算量的問題都能有一定的效能提升。
圖片
全域性規劃難度增加:雖然這種策略能夠降低區域性規劃負擔,它同時引入了全域性分解規劃中的額外推理邊界圖片。如圖 15 所示,接近 70% 的全域性規劃數超過了 5 步,嚴重加大了模型規劃難度,從而使實際的組合推理邊界對應的準確率下降。
圖片
  • 最短可接受推理路徑提示(MARP)

為了克服上述策略的侷限性,研究者提出了最短可接受推理路徑提示(MARP)策略。該策略透過提示大模型在每個步驟中儘可能高效地執行計算,同時減少不必要的全域性規劃,從而降低了模型的計算負擔和規劃複雜度:
  • 最小化推理路徑提示:為了減輕與規劃相關的認知負擔,透過該提示讓模型儘可能簡潔地回答問題,確保提供簡短、清晰和直接的推理路徑。

圖片
  • 可接受推理路徑提示:為了更有效地利用推理邊界的上限,透過該提示要求模型每一個推理步驟的複雜性在可接受的範圍內。

圖片
實驗結果(見表 1)顯示,MARP 顯著提高了模型效能,並有效減少了 token 的使用量。

7. 擴充性探索

7.1 模型擴充套件驗證
  • 推理邊界與模型準確率的正相關性:研究者透過對 25 個不同模型的推理邊界表現進行分析,發現推理邊界與數學任務中的準確率呈現出正相關關係。

  • 數學模型與通用模型在推理邊界 - 準確率分佈上的差異:透過數學資料微調的模型,推理邊界 - 準確率分佈雖然呈現出正相關,但與通用 LLM 存在顯著差異。這可以為未來區分模型是否進行了數學專項訓練提供了一個潛在的指標。

  • 開源模型在完全可行推理邊界上的侷限性:開源模型在完全可行推理邊界(CFRB)上的表現與閉源模型存在顯著差異。幾乎所有開源模型的 CFRB 值均為 0,這表明開源模型在高階推理任務上的不足,表明其在未來最佳化中的潛力。

圖片
7.2 任務擴充套件驗證

更進一步地,該研究不僅驗證了在數學運算、數學推理和多跳問答任務中的推理邊界擴充套件規律,還進一步探索了在多語言推理和醫療推理任務中的表現。
  • 多語言推理:透過將多語言能力、數學計算與推理規劃相結合,實驗結果表明,這些能力的正交組合後,推理邊界依然保持了三類不同的推理邊界模式,進一步證實了此方法的普適性和穩定性。

圖片
  • 醫療推理:類似地,在醫療領域,研究透過將醫療實體推理與多跳推理規劃相結合,驗證了推理邊界在正交組合後仍然保持一致,說明該推理策略同樣適用於醫療推理任務。

圖片
8. 如何理解 o1 的優異效能?

為了深入理解當前最先進的大型語言模型 o1,研究人員利用推理邊界框架對 GPT 系列模型進行了全面評估。

如圖 11 所示,與早期版本相比,各項推理邊界指標均有顯著提升,模型效能也隨之增強。特別是,儘管 GPT-3.5 與 GPT-4o 之間在 完全不可行推理邊界(CIRB) 上的改進幅度較大,但 完全可行推理邊界(CFRB) 的提升相對較小。然而,在 GPT-o1 版本中,完全可行推理邊界的表現則有了顯著改善。
圖片
進一步來看,圖 14 揭示了 GPT-o1 版本在完全可行推理邊界上的卓越表現,提升幅度幾乎是其他模型的三倍。
圖片
研究人員認為,這一成果主要歸功於邏輯強化學習技術的進步和 Inference Scaling Law 策略的最佳化。這些新策略在提升完全可行推理邊界方面起到了關鍵作用,遠遠超越了常規的改進路徑。這一現象可能為未來研究提供了新的方向和啟示。

總結

本研究提出了一個推理邊界(RB)框架,系統量化並最佳化大語言模型(LLMs)在思維鏈(CoT)任務中的推理能力邊界。透過定義推理邊界和應用最佳化策略,合理解釋了多個 CoT 策略其在推理效能上的優勢。同時,最短可接受推理路徑(MARP)策略透過減少不必要的推理步驟,顯著提高了不同任務中的推理效能與效率。研究者希望 RB 框架能夠為相關研究提供理論基礎,推動 LLMs 在複雜推理任務中的發展。

相關文章