「我們有一份關於『推理時間計算』的新研究,以及我們過去幾個月一直在研究的內容!我們提出了一些理論,說明為什麼它是必要的,它是如何工作的,我們為什麼需要它,以及它對超級智慧意味著什麼。」 剛剛,史丹佛博士生 Rafael Rafailov 在 X 上官宣了一項他參與的新研究《 Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought 》。Rafailov 進一步表示,「我們需要高階推理的主要原因在於問題的複雜性。模型訓練資料中雖然包含了難題的解決方案,但並未涵蓋這些解決方案的真實資料生成過程。解決方案本身是某種複雜的元思維鏈(Meta-CoT)的輸出,而這一過程並未被明確記錄下來。」圖為解決一個數學問題的過程,這個問題是要找到一種運算子序列(包括加號 +、減號 -、乘號 * 和除號 /),使得數字 7、3、11、5 透過這些運算恰好使用一次得到結果 24。 Rafailov 所說的 Meta-CoT,是一種新穎的框架,它透過顯式建模生成特定思維鏈(CoT)所需的底層推理過程,擴充套件了傳統的思維鏈方法。 該研究認為,傳統的 CoT 方法雖然在解決簡單問題時有效,但未能捕捉到複雜推理的真實資料生成過程,這一過程通常涉及非線性、迭代性和潛在的探索與驗證。Meta-CoT 透過顯式建模這種潛在的「思考」過程,擴充套件了 CoT 方法。本文認為,這種建模對於解決需要高階推理能力的問題至關重要。
論文地址:https://arxiv.org/pdf/2501.04682
該研究從認知科學的雙過程理論中汲取靈感,將 Meta-CoT 框架看作為一種 System 2 推理形式。本文奠定了 Meta-CoT 理論基礎,展示瞭如何透過系統搜尋過程實現這一框架,以及如何將這些過程內化到一個單一的自迴歸模型中。隨後,本文提供了實證證據,包括對 OpenAI 的 o1 和 DeepSeek-R1 等頂尖模型的分析,這些模型展現出了與內化(上下文)搜尋一致的行為。接著本文進一步探索了透過過程監督來訓練 Meta-CoT 模型的方法,以及透過蒙特卡洛樹搜尋(MCTS)和 A * 等搜尋演算法生成合成資料的技術。 最後,本文概述了一個在單一端到端系統中實現 Meta-CoT 的具體流程,該流程結合了帶有線性化搜尋痕跡的指令調整和強化學習(RL)後訓練。 本文還介紹了一個名為 Big MATH 的專案,該專案整合了超過 100 萬個高質量、可驗證的數學問題,以促進這一領域進一步研究。 該研究不僅提供了理論洞見,還為在 LLM 中啟用 Meta-CoT 提供了一條實踐路線圖,為人工智慧實現更強大和更類人的推理鋪平了道路。 為什麼要提出 Meta-CoT? Meta-CoT 是什麼樣的? 我們要問自己一個問題:具有「思維鏈」提示功能的語言模型是否真的能夠表達任何函式,從而解決任意複雜的問題?今天,前沿模型的能力足以解決一大類數學推理問題。但是,它們仍然難以解決高階問題,如 HARP 和 Omni-MATH(通用奧林匹克級別數學基準)。作者提出了以下理論來解釋這些經驗觀察結果: