AI大佬曼寧轉贊,MetaGPT團隊首提「Atom of Thoughts」,原子化思考讓4o-mini暴打推理模型?

机器之心發表於2025-03-16
圖片
AoT 作者團隊來自 MetaGPT 開源社群。第一作者為香港科技大學(廣州)的滕楓蔚,通訊作者為 DeepWisdom 創始人兼 CEO 吳承霖。團隊還包括 DeepWisdom 研究員於兆洋、中國人民大學的石泉、香港科技大學(廣州)的博士生張佳釔和助理教授駱昱宇。
圖片
  • 論文標題:Atom of Thoughts for Markov LLM Test-Time Scaling
  • 論文地址:https://arxiv.org/abs/2502.12018
  • 專案地址:https://github.com/qixucen/atom

從 “長鏈推理” 到 “原子思維”:AoT 的誕生

大語言模型(LLM)近年來憑藉訓練時擴充套件(train-time scaling)取得了顯著效能提升。然而,隨著模型規模和資料量的瓶頸顯現,測試時擴充套件(test-time scaling)成為進一步釋放潛力的新方向。然而,無論是思維鏈(CoT)、思維樹(ToT)等提示策略和推理框架,還是 OpenAI o1/o3 和 DeepSeek-R1 等推理模型,在推理時都過度依賴完整歷史資訊,導致計算資源浪費,同時冗餘資訊干擾有效推理。

具體來說,基於鏈的方法每進行一步推理,都需回顧已有的完整鏈條;基於樹的方法則需要追蹤祖先和同層節點;基於圖的方法允許節點任意連線,進一步加重了歷史資訊依賴,導致計算複雜度上升。隨著推理規模擴大,特別是以 OpenAI 的 o1/o3 和 DeepSeek-R1 為代表的推理模型,飆升的計算資源需求用於處理不斷積累的歷史資訊。相比之下,人類推理傾向於將複雜問題拆分為獨立的子問題,逐步解決並整合後續推理所需的資訊,而不執著於保留每步細節。這種 “原子化思考” 啟發了 AoT 的設計,使其專注當前狀態的推理,摒棄歷史依賴。

基於此觀察,研究人員推出了 Atom of Thoughts(AoT),AoT 的核心洞察是:複雜推理可透過一系列輕量的 “原子問題” 實現,這些問題的執行僅依賴自身,擺脫歷史資訊依賴。AoT 將推理過程構建為馬爾可夫過程(Markov process),透過不斷進行狀態轉移,逐步簡化問題並始終保持和原問題等價,最終求解輕量的原子問題來回答原問題。
圖片
AoT 論文 X 平臺獲得近 40 萬瀏覽量,並獲 NLP 巨匠、2024 馮諾伊曼獎得主 Christopher Manning 轉發。

AoT 如何推理?
由拆解收縮雙階段組成的馬爾可夫轉移過程
圖片
在馬爾可夫過程中,狀態從原問題 Q0 初始化,問題所需的推理時間可透過拆解生成的 DAG 結構複雜度反映。隨著拆解和收縮迭代,當前狀態 Qi 的推理時間逐步降低。

AoT 的一次狀態轉移由兩個核心步驟組成:拆解(Decomposition)和收縮(Contraction)。這兩個步驟共同完成一次狀態轉換,生成一個簡化的問題作為下一輪拆解與收縮的 “原問題”。這一過程不斷迭代,直到達到最大次數限制 —— 該限制由首次拆解生成的圖的深度確定,以避免無限迴圈。

1. 拆解(Decomposition)

AoT 首先將當前問題分解為一個臨時的、基於依賴關係的有向無環圖(DAG)。在這個 DAG 中,節點代表子問題,邊則表示它們之間的依賴關係。臨時 DAG 提供的結構資訊為後續收縮階段奠定了基礎,幫助消除因複雜結構帶來的歷史資訊負擔。

2. 收縮(Contraction)

拆解完成後,DAG 以規則化的方式區分子問題:無入邊的節點被定義為獨立子問題,有入邊的節點被定義為依賴子問題。獨立子問題的資訊轉化為已知條件,依賴子問題的描述則被整合為一個更簡潔的獨立問題,從而形成新的原子狀態。這一狀態的答案與前一狀態的問題保持等價。由於馬爾可夫過程從原問題初始化,所有狀態均與原問題維持等價關係。

AoT 馬爾可夫式的狀態轉移和原子化的狀態表示極大地消除了對歷史資訊的依賴,將計算資源聚焦於當前的原子問題,提高推理的穩健性。

原子性帶來即插即用
相容一切框架和模型
圖片
主實驗結果,其中評估了三個變體:基礎版本(AoT),作為外掛與 FoT 整合的版本(AoT (d=1)+FoT (n=2)),以及一個計算密集型版本(AoT∗)

AoT 不僅是一個獨立的推理框架,更是一個強大的外掛。其每一次狀態轉移得到的原子狀態中的問題都可以無縫嵌入現有的推理手段,無論是提示策略、推理框架,代理工作流還是多智慧體代理系統,AoT 都能透過預處理簡化輸入問題,同時保持答案等價性,來最佳化後續推理效率和效果。
圖片
在 MATH 資料集上的效能比較。綠色線條顯示 FoT 在不同樹數(2^k,k=0,1,2,…)下 scaling 的情況,而灰色趨勢線(代表其他基線方法)則共同展示了效能提升與計算成本之間的權衡。AoT(d=1)結合 FoT(n=2)在保持較低計算需求的同時,達到了稍優於 FoT(n=8)的效能。

AoT 的原子性設計天然契合多跳推理場景的需求。QwQ-32B-Preview、DeepSeek-R1 和 o3-mini 等模型透過延長思維鏈展現出強大的推理能力。例如以 gpt-4o-mini 作為執行模型的 AFlow 在多跳任務中仍與 o3-mini 的直接求解存在差距。然而,AoT 透過原子化分解,使得即便僅以 gpt-4o-mini 這種短思維鏈模型作為推理基座,也能在效能上超越這些強大的長思維鏈模型。更進一步,當 o3-mini 被用作 AoT 的推理基座時,原子性設計的優勢得以充分發揮,帶來更加顯著的效能提升。
圖片
多跳問答任務中推理模型效能比較

開源與社群
圖片AoT 延續了 MetaGPT 社群的開源精神,程式碼已公開於 GitHub。歡迎開發者與研究者嘗試 AoT,無論是獨立使用還是整合到現有方法,並持續關注後續研究和功能更新。

相關文章