思維鏈?思維樹?華為諾亞:現在到了思維森林時刻!

机器之心發表於2025-01-14

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


OpenAI 接連發布 o1 和 o3 模型,大模型的高階推理能力正在迎來爆發式增強。在預訓練 Scaling law “撞牆” 的背景下,探尋新的 Scaling law 成為業界關注的熱點。高階推理能力有望開啟新的 Scaling law,為大模型的發展注入新的活力。

近日,華為諾亞方舟實驗室的研究人員提出了一個名為思維森林 “Forest-of-Thought”(FoT)的全新大模型高階推理框架,它透過在推理時擴充套件計算規模,顯著提升了 LLM 的高階推理能力。
圖片
  • 論文連結:https://arxiv.org/abs/2412.09078
  • 專案連結:https://github.com/iamhankai/Forest-of-Thought

LLM 的推理困境

儘管 LLM 在多種語言任務上表現出色,但在解決複雜推理問題時,它們常常陷入困境。以數學問題為例,LLM 可能會在分解問題的過程中忽略關鍵細節或在中間步驟中出錯,導致最終答案錯誤;通常完成一條推理路徑後,大模型通常不會重新審視其他可能的方法,這種缺乏重新評估的能力使得解決方案無法全面應對複雜的問題。相比之下,人類在處理複雜問題時,會從不同角度反覆思考和驗證,以確保答案的準確性。

思維森林 FoT 方法介紹

圖 1 中的 FoT 框架透過整合多個推理樹,利用集體決策的優勢來解決複雜的邏輯推理任務。它採用稀疏啟用策略,選擇最相關的推理路徑,從而提高模型的效率和準確性。此外,FoT 還引入了動態自校正策略,使模型能夠在推理過程中實時識別和糾正錯誤,並從過去的錯誤中學習。共識引導決策策略也被納入其中,以最佳化正確性和計算資源的使用。
圖片
圖 1 思維森林 FoT

稀疏啟用策略

在 FoT 的推理過程中,並不是所有的推理樹或樹中的每個節點都會被計算,而是隻選擇最相關的推理樹或節點進行計算。這種方法不僅提高了效率,還透過選擇最相關的推理路徑來提高模型的準確性。透過稀疏啟用,FoT 能夠過濾掉每個推理樹的啟用,確保只有某些推理樹的路徑被 “啟用” 用於推理。

動態自校正策略

為了提高每個推理樹給出正確答案的機率,FoT 引入了動態自校正策略。對於推理樹的初始結果,自校正策略會評估其正確性和有效性,並在每個推理步驟完成後分配相應的分數。一旦某個步驟的分數低於預設閾值,策略會自動觸發校正機制。該機制首先回顧和分析過去的失敗案例,識別低分和常見錯誤模式的原因,然後嘗試糾正錯誤並最佳化推理方向。透過這種從歷史中學習和實時校正的機制,模型不僅避免了在相同問題上重複犯錯,還能更迅速、更準確地找到解決新問題的有效方法。
圖片
圖 2 動態自校正策略

共識引導決策策略

為了解決複雜的數學問題,FoT 設計了共識引導專家決策(CGED)策略,以確保最終答案的高準確性和可靠性。CGED 方法結合了集體智慧和專家判斷,引導推理過程從基於共識的決策轉向專家評估。在 FoT 方法中,每個獨立樹透過其獨特的推理路徑生成一個或多個可能的答案。子樹會對候選答案進行投票,選出獲得最多支援的答案。如果無法達成共識,數學專家將評估推理過程並選擇最終答案,以確保其準確性和有效性。

實驗結果

研究人員在多個 LLM 推理基準測試中評估了 FoT 方法,包括 24 點遊戲、GSM8K 和 MATH 資料集,使用了多個開源 LLM 模型,包括 Llama3-8B,Mistral-7B 和 GLM-4-9B。

24 點遊戲

24 點遊戲的目標是使用給定的四個數字各一次,透過加、減、乘、除和括號構造一個算術表示式,使其結果為 24。表 1 中的實驗結果表明,當推理樹的數量從 2 增加到 4 時,FoT 的準確率提高了 14%,顯示出顯著的推理效能提升。相比之下,僅增加單個樹的葉子節點數量的 ToT 方法遇到了效能瓶頸,進一步增加葉子節點數量並未帶來顯著的效能提升。這表明 FoT 透過多棵樹提供的推理路徑多樣性比單純增加單個樹的複雜性更有效,凸顯了 FoT 框架在實現可擴充套件和高效推理改進方面的優勢。
圖片
表 1 24 點遊戲,Llama3-8B 基模型,b 是葉子節點數量,n 是樹數量

GSM8K 基準測試

研究人員在 GSM8K 資料集上評估了 FoT 在不同基模型上的效能。圖 3 中的實驗結果表明,基於不同的大語言模型 Llama3-8B,Mistral-7B 和 GLM-4-9B,都存在類似的 scaling law:FoT 中的樹數量越多,帶來的準確率提升越顯著。
圖片
圖 3 FoT 在不同基模型的效能

MATH 基準測試

在 MATH 資料集上,FoT 演算法在不同複雜度級別的問題上均展現出一致的效能提升。如表 2 所示,從最簡單的 level1 到最具挑戰性的 level5,FoT(n=4)的準確率比 MCTSr 提高了約 10%。這種一致的提升凸顯了 FoT 方法在處理從簡單到複雜問題的有效性。
圖片
表 2 FoT 在 MATH 資料集上的效能

FoT 的廣泛應用前景

FoT 框架不僅在理論上具有創新性,而且在實際應用中也具有廣泛的前景。它可以幫助 LLM 在數學、邏輯、金融、醫療和法律等需要複雜推理的領域中更好地發揮作用。例如,在金融領域,FoT 可以用於風險評估和投資決策分析;在醫療領域,它可以輔助醫生進行疾病診斷和治療方案制定;在法律領域,FoT 可以用於案例分析和法律推理。此外,FoT 還可以與現有的 LLM 相結合,提升其在法律、教育、科研等領域的應用效果,為使用者提供更加智慧、準確的服務。

結語

思維森林 Forest-of-Thought 框架的提出,為 LLM 的推理能力提升提供了一條新的路徑。它透過多路徑探索和動態啟用推理路徑的結構化框架,有效解決了現有 LLM 推理正規化中的關鍵侷限。FoT 不僅提高了模型在複雜任務中的問題解決能力,還生成了多樣化的推理結果,無需依賴反向傳播或微調。隨著大模型在日常工作和生活的不斷滲透,FoT 有望在更多的應用場景中發揮重要作用,推動大模型向更智慧、更高效的方向發展。

相關文章