AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的共同通訊作者為塗兆鵬和王瑞,塗兆鵬為騰訊專家研究員,研究方向為深度學習和大模型,在國際頂級期刊和會議上發表學術論文一百餘篇,引用超過9000次。擔任SCI期刊NeuroComputing副主編,多次擔任ACL、EMNLP、ICLR等國際頂級會議領域主席。王瑞為上海交通大學副教授,研究方向為計算語言學。共同第一作者為上海交通大學博士生陳星宇、何志威,騰訊AI Lab高階研究員徐嘉豪、梁添。
本文將介紹首個關於 o1 類長思維鏈模型過度思考現象。該工作由騰訊 AI Lab 與上海交通大學團隊共同完成。自 OpenAI 釋出 o1 模型以來,它超強的邏輯推理以及難題解決能力就引發了廣泛關注。o1 模型透過模擬人類的深度思考過程,在思維鏈中運用如自我反思、糾錯以及探索多種解法等推理策略,展現了強大的長時間推理(Inference-Time Scaling)效能。依靠這種機制,o1 模型能夠不斷最佳化自身的答案質量。然而,在 o1 成功的光環下,一個潛在問題逐漸被放大 —— 過度思考。隨著 o1 模型的問世,許多類似的模型也陸續出現,比如 Qwen 團隊開源的 QwQ-32B-Preview [1] 以及 Deepseek 推出的 R1-Preview [2] 模型。這些模型在推理時同樣具備 “深度思考” 的特性,但也暴露出了類似的問題:在不必要的情況下生成過長的思維鏈反而浪費了計算資源。舉一個簡單的例子,對於問題 “2+3=?”,不同模型的回答長度如下圖所示:傳統模型的回答通常只需要極少的 token 就能給出答案,然而對於 o1 模型,其消耗的推理 token 直接達到了 200 以上。更極端的是,Deepseek-R1-Preview 和 QwQ-32B-Preview 的 token 消耗甚至達到了 900!為什麼 QwQ 模型會產生如此之長的輸出?研究團隊進一步分析了 QwQ 對這個問題的答案,結果見下圖右欄:QwQ-32B-Preview 模型會在推理過程中嘗試多種不同的解題策略。對於簡單的加法問題,模型探索了直接使用數學計算、數軸移動模擬,以及類比數蘋果等方法,經歷了多輪推理後才最終確定結果。儘管這種思維鏈策略對於複雜問題的解答非常有幫助,但在應對簡單問題時,反覆驗證已有的答案和進行過於寬泛的探索顯然是一種計算資源的浪費。為了更好地研究這個問題,研究團隊對這類 o1 模型的過度思考現象進行了更細緻的定義和深入分析。文章首先定義了模型回覆中的獨立解答(Solution):每當模型完整地得到一次對輸入問題的答案(無論對錯),這就被認為是一個獨立解答。如例子所示,每一個解答都包含了答案 “5”。基於這個定義,研究人員在三個不同的資料集上統計了 Qwen-QwQ-32B-Preview 模型和 Deepseek-R1-Preview 模型的解答數量分佈(解答的判斷和抽取由 Llama-3.3-70B 模型完成):其中,ASDIV [3] 是一個包含小學難度數學題的測試集,GSM8K [4] 是常用的初級難度數學題測試集,MATH500 [5] 是高中數學競賽難度的測試集。如圖所示,無論是對於 QwQ 模型還是 R1 模型,包含 2-4 個解答的樣本佔了所有樣本的 70% 以上,可見這種 Solution-Level 的反思行為在當前的類 o1 模型中十分普遍。那麼這些解答本身是否都是必須的呢?下圖展示了在不同資料集上,模型首次得到正確答案的解答位置:令人驚訝的是,對 QwQ 模型和 R1 模型的實驗分析顯示,它們在超 90% 的情況下,都能在第一次嘗試中就成功輸出正確答案。也就是說,後續多輪思考對答案正確率的提升幾乎沒有實質性貢獻。這一現象進一步驗證了此前對模型過度思考的觀察:絕大多數情況下,模型的多輪反思可能只是在反覆驗證已有的答案,從而造成了資源浪費。然而,這種現象也引發了不同觀點的爭論。一些研究者認為,o1 類模型的一個核心特性在於其能夠自主探索問題的不同解法。從這一角度來看,如果模型在推理過程中使用了多種不同的思路來解決問題,那麼這種多樣化的探索不僅有助於加深模型對問題的理解,還體現了模型的自主探索能力,不應簡單地視為 “過度思考”。為了更深入地剖析這一問題,研究團隊進一步提出了一種分析方法。他們利用 GPT-4o 對模型的回答進行分類,具體包括以下步驟: 推理策略分類:對每一個解答進行推理策略的標註,將採用相同推理方式的回答歸為同一類。例如,對於 “2+3=?” 這樣的問題,可能涉及的推理策略包括數學運算模擬、數軸移動和實物類比等。
多樣性分析:在歸類的基礎上,分析並統計不同解答之間的推理策略多樣性。
透過這一方法,研究者能夠量化推理過程中是否存在真正意義上的 “多樣化探索”。這種分析為我們提供了衡量模型行為的一種新視角:當模型的不同解答策略高度相似甚至重複時,可以說明多輪推理的貢獻是有限的;而當推理策略的多樣性伴隨著思考層次的提升而增加時,則反映了模型對問題理解的進一步加深。這種視角能夠幫助我們更準確地區分 “有效的自主探索” 和 “低效的重複推理”。如下圖所示:圖中展示了每個位置的解答引入新推理思路的可能性。第一個位置的解答總會是 “新的思路”,因此其機率為 100%。但隨著推理位置的後移,解答中帶來新推理思路的可能性逐漸降低。這一趨勢表明,越到後續位置,模型越傾向於重複先前的推理思路,從而導致其推理行為變得冗餘且低效。從這個角度來看,模型的後續解答更多是一種無效的重複思考。透過上述分析,我們可以發現這些過度思考所產生的解答往往具備以下兩個關鍵特徵: 新解答對答案的正確性沒有貢獻:模型往往在一開始就已經成功得出正確答案,後續的多輪反覆檢驗是多餘且不必要的。
新解答未能引入實質性新思路:模型後續的解答僅以不同的表述方式重複了早先已有的結論,而沒有真正擴充套件推理的深度或視角。
基於這一發現,研究團隊進一步定義了兩個衡量模型 “過度思考” 現象的核心指標:1. 產出效率(Outcome Efficiency):用於衡量模型回覆中每一個解答對最終答案的貢獻,等於正確解答中的 token 數除以完整回覆的總 token 數。計算公式為:其中,N 為樣本數,為模型第 i 個樣本的回覆中第一個正確解答的 token 數目,為第i個樣本的整個回覆的 token 數量,代表第i個樣本是否正確。直觀地看,一個模型得到正確解答之後進行反思的輪數越少,正確解答在整個回覆中的佔比就越大,產出效率就越高。2. 過程效率(Process Efficiency):用於衡量模型回覆中每一個解答對推理策略多樣性的貢獻,等於回覆中屬於不同思路的總 token 數目除以整個回覆的 token 數目,計算公式為:其中 N 為樣本數,為第i個樣本的整個回覆 token 數量,為第i個樣本中所有屬於不同推理策略的 token 總數。該指標衡量的是模型進行多輪反思的有效性,回答中涉及的不同的推理策略越多,就會越大,那麼過程效率就會越高。基於這兩個指標,研究者們統計了 QwQ 模型和 R1 模型在 MATH500 資料集上的效率指標表現:從圖中可以觀察到,R1 模型在效率上略優於 QwQ 模型,但兩個模型都不同程度地暴露出 “過度思考” 的問題。對於難度最低的等級 1 問題,研究者發現兩個模型的表現都有如下特點: 產出效率不足一半:兩個模型在這種簡單任務上的產出效率均未超過 50%,意味著模型在取得正確答案後,依然生成了超過必要推理步驟至少一倍的額外推理內容。這符合上文的研究發現:正確答案通常在推理的較早階段得到,但模型的後續行為中存在大量冗餘推理。
思考過程效率較低:模型的整體過程效率只有 70% 左右,這意味著約 30% 的思考步驟是在重複無效的推理。這種重複的行為不僅未能提升正確率,也沒有引入新的解題思路,從而造成了計算資源的浪費。
從以上分析可見,現有的 o1 類模型都普遍存在不同程度的 “過度思考” 現象,且這一問題在應對簡單任務時尤為嚴重。這些現象突顯了當前 o1 類模型推理機制中的不足,也意味著在模型的長思維鏈最佳化和推理資源分配方面仍有較大的改進空間。為此,研究者們提出了幾種方法,旨在緩解模型的過度思考現象,提升推理效率。由於目標是減少模型的過度思考但不損害模型的推理能力,因此最直接的想法就是透過偏好最佳化演算法來鼓勵模型生成更精簡的回覆。研究者們使用開源的 Qwen-QwQ-32B-Preview 模型作為實驗的基座模型,基於該模型在 PRM12K [10] 的資料集上的多次取樣結果,選擇最長的模型回覆作為偏好最佳化的負樣本,而對於正樣本的選擇,有如下幾種策略:最短回覆(Shortest Response):使用模型取樣結果中最短的生成結果作為正樣本。
首個正確回答(First-Correct Solutions, FCS):使用模型取樣結果中最短的首次得到正確答案的解答作為正樣本,拋棄所有後續的思考。
首個正確回答 + 驗算(FCS+Reflection):由於絕大多數的取樣結果都是在第一個解答中就出現了正確答案,僅保留首個正確回答可能會使得模型退化,因此研究者們在第一次得到正確答案後,額外保留了一輪反思的內容。
最多樣回覆(Greedily Diverse Solutions,GDS):除了單純地對長度進行控制,另一個最佳化思路是儘可能保留更多樣化的思考軌跡,因此研究者們在 FCS 方法的基礎上,儘可能多地保留了包含不同推理策略的解答。
基於以上幾種偏好資料,研究者們嘗試了最基礎的 SFT 以及多種偏好最佳化演算法,如 DPO [6],RPO [7][8] 以及 SimPO [8]。實驗結果如下:表格中的 SFT 方法是指僅使用正樣本進行微調。從表格中可以看出,在同樣的 “最短回覆” 設定下,SimPO 有著最好的最佳化效果,而基於 SimPO 的進一步實驗表明,使用首個正確回答 + 驗算作為正樣本的策略能夠很好地取得效率和效能的平衡,能夠在保持模型效能的同時大幅度地減少輸出的 token 數目以及平均解答輪數,並有效地提高產出效率和過程效率。為了進一步分析方法的有效性,研究者們分析了 MATH500 測試集的不同難度下 SimPO+FCS+Reflection 方法的表現,如下圖所示:有意思是,文中提出的方法在最簡單的難度 1 的問題上,僅使用了相比於原來 63.6% 的 token 數目便達到了 100% 的正確率,而且在難題(難度 4 和 5)上,文中的方法能夠在提升效能的同時大幅度減少輸出的冗餘,這展示了提出的方法在減緩過度思考上的有效性。這篇論文聚焦於 o1 類推理模型面臨的一個核心挑戰:如何合理控制推理過程中的計算量,提升思考效率。文章透過分析實驗揭示了一個普遍問題 ——o1 類模型在處理簡單問題時容易陷入過度思考,從而增加了不必要的計算消耗。基於對此現象的詳細分析,研究者提出了一系列有效的最佳化方法,能夠在保持模型效能的同時,大幅減少冗餘推理,提升推理效率。這些方法的實驗結果表明,它們顯著最佳化了模型在簡單任務上的資源利用情況,為實現 “高效思考” 的目標邁出了重要一步。未來的研究將重點探索以下方向:自適應調控策略:開發讓模型根據問題複雜程度動態調整推理深度的機制,更智慧地分配計算資源;
更精細的效率評估指標:設計能夠覆蓋更廣泛推理軌跡的指標,從而更全面地評估模型的思考效率。
這項研究不僅提升了 o1 類模型的推理,同時也為未來更高效、更智慧的推理機制提供了重要的理論基礎與實踐參考。[1] Qwen. Qwq: Reflect deeply on the boundaries of the unknown, November 2024. URL https: //qwenlm.github.io/blog/qwq-32b-preview/.[2] DeepSeek. Deepseek-r1-lite-preview: Unleashing supercharged reasoning power. https://api-docs.deepseek.com/news/news1120, 2024. Accessed: 2024-12-29.[3] Shen-Yun Miao, Chao-Chun Liang, and Keh-Yih Su. A diverse corpus for evaluating and developing english math word problem solvers. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.[4] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. arXiv:2110.14168, 2021.[5] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the MATH dataset. In NeurIPS, 2021.[6] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.[7] Richard Yuanzhe Pang, Weizhe Yuan, He He, Kyunghyun Cho, Sainbayar Sukhbaatar, and Jason E Weston. Iterative reasoning preference optimization. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=4XIKfvNYvx.[8] Zhihan Liu, Miao Lu, Shenao Zhang, Boyi Liu, Hongyi Guo, Yingxiang Yang, Jose Blanchet, and Zhaoran Wang. Provably mitigating overoptimization in rlhf: Your sft loss is implicitly an adversarial regularizer. arXiv preprint arXiv:2405.16436, 2024.[9] Yu Meng, Mengzhou Xia, and Danqi Chen. Simpo: Simple preference optimization with a referencefree reward. In Advances in Neural Information Processing Systems (NeurIPS), 2024.[10] Hunter Lightman, Vineet Kosaraju, Yuri Burda, Harrison Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, and Karl Cobbe. Let’s verify step by step. In The Twelfth International Conference on Learning Representations, 2024. URL https://openreview.net/forum? id=v8L0pN6EOi.