僅靠邏輯題，AI數學競賽能力飆升！微軟、九坤投資：7B小模型也能逼近o3-mini

机器之心發表於2025-02-25

原文網址 : https://www.jiqizhixin.com/articles/2025-02-25-3

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文由微軟亞洲研究院的謝天、洪毓謙、邱凱、武智融、羅翀，九坤投資高梓添、Bryan Dai、Joey Zhou，以及獨立研究員任慶楠、羅浩銘合著完成。

只刷邏輯益智題，竟能讓 AI 數學競賽水平大幅提升？

繼中國大模型突破矽谷圍堵後，國內團隊再放大招，揭秘 DeepSeek R1 背後的秘密。他們透過僅五千條合成資料進行低成本強化學習，讓 7B 小模型在邏輯推理測試中的表現超越 OpenAI o1，直逼 o3-mini-high。更令人驚歎的是，在完全未見過的美國數學奧林匹克（AIME）測試中，該模型的推理效能提升了 125%！

論文標題：Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
論文連結：https://arxiv.org/abs/2502.14768
Github 連結：https://github.com/Unakar/Logic-RL

這是首個全面深入的類 R1 強化學習模型訓練動態過程分析。需要強調的是，該團隊不僅完整開源了全流程程式碼，還發布了詳細的引數設定，訓練資料和設計經驗。

研究團隊開宗明義，提出要探究以下問題：

1.DeepSeek R1 所採用的 GRPO 未必就是最合適的強化學習（RL）演算法？應該如何調參實現穩定訓練？由易到難的課程學習還有用嗎？

2. 從 Base 模型啟動 RL 與完全冷啟動，究竟有多大差異？哪種方式更優？

3. 訓練中，模型輸出長度常呈現近似線性增長的 Scaling Law，但這種增長速度是否等同於推理能力的提升？

4. 當模型頻繁使用 “verify” “check” 等反思性詞彙時，是否意味著其推理能力增強了？哪些 token 能可靠反映推理效能的提升？

5.RL 是真正掌握了抽象推理能力，還是僅僅依賴問題模板的死記硬背？相比傳統有監督微調（SFT），它的優勢究竟體現在哪裡？

6. 推理過程中，模型時常混用中文和英文，這種語言切換現象對效能提升是否有實際幫助，甚至是否可能有害？

隨著強化學習 (RL) 訓練進行，各觀測指標變化。紅線是模型回答長度，藍線是驗證集準確率，黃色散點是兩種域外 (OOD) 的數學競賽正確率，三者均保持穩定增長趨勢：

測試時的計算量，自然而然地從數百 token，擴充套件到了數千 token，暗示著 RL 訓練正在鼓勵模型對思考路徑進行不斷的探索和修正。

在經過 5K 個邏輯問題的訓練後，7B 模型就發展出了一些在邏輯語料庫中原本不存在的高階推理技能 —— 如自我反思、驗證和總結能力。在沒見過的數學競賽題 (AIME/AMC）上，各自取得了 125% 和 38% 的效能提升。

方法

資料設定

常見的數學訓練集在問題難度上無明確界限，數學問題往往具有不定的邏輯深度、知識背景要求，對可控的分析實驗不友好。於是為了分析推理模型的機制，作者轉向了完全由程式合成的的「邏輯謎題」作為訓練資料。

示例問題：一個非常特殊的島嶼上只住著騎士和騙子。騎士總是說真話，騙子總是說謊。你遇到兩位島民：Zoey 和 Oliver。Zoey 說：「Oliver 不是騎士。」Oliver 說：「Oliver 是騎士且 Zoey 是騙子。」請問，誰是騎士，誰是騙子？

這個「騎士與騙子」謎題，因其合成設計和邏輯精確性而非常適合進一步分析：

1. 謎題對於模型來說都是未見過的資料，非常適合用來測試泛化能力

2. 透過改變遊戲人數（2 到 8 個）和邏輯運算的深度（1 到 4 種布林運算子的組合），可以調節難度

3. 每個謎題都有一個單一、明確的正確答案，正確性由生成演算法保證。解答需要嚴格的演繹推理，因此減少了獎勵作弊的風險

4. 這消除了自然語言任務中常見的模糊性，使我們能夠清晰地區分真正的推理能力和資料表面上的記憶能力。

獎勵設計

模型起初會用作弊 (hack) 的方式來騙取獎勵分：

跳過 <think></think> 過程並直接回答。
將推理過程放在 <answer></answer> 標籤內。
反覆猜測答案而沒有適當的推理。
在提供答案之外包含無關的廢話。
在已經輸出一個 <answer> 後再次進入思考階段，因為推理不足。
重複原始問題或使用諸如 “在此處進行思考過程” 之類的短語來避免真正的推理。

多輪迭代改進獎勵函式後，作者設計出了一種幾乎無法作弊的基於規則的獎勵系統。僅包含兩種獎勵型別：格式獎勵和答案獎勵。思考標籤應該嚴格按照順序出現，且出現次數唯一，思考過程必須包含真正的推理，答案組織要可提取且可讀。

格式獎勵：按格式正確與否給 + 1 或 - 1 的獎勵。
答案獎勵：答案無法被提取，獎勵為 - 2；答案部分錯誤時，獎勵為 - 1.5，答案正確時，獎勵為 + 2。

為了減少 Base 模型指令跟隨難度（遵守先思考再回答的正規化），作者建議直接把 < think > 標籤手動加入 prompt 裡。

實驗結果

作者經過百組對比實驗，對比了 PPO，GRPO，和 REINFORCE++。最後選擇採用價效比最好的 REINFORCE++ 演算法完成主實驗。團隊遵循 DeepSeek Math 論文的建議，改動了 REINFORCE++ 演算法實現，提出了兩點修正：將 KL 懲罰從 reward 計算提出，放進 loss 函式里；並且更換 KL 估計器，採用一種無偏非負的 KL 估計。

訓練方式上，作者嘗試了多組複雜排程 (例如高低溫多階段訓練)，發現增益不高，由此決定採用最簡單的訓練方式：使用 4e-7 的學習率以及 0.7 的溫度一訓到底。經過 3.6K 步數的訓練之後，模型超越 OpenAI o1 2 倍，直逼 o3-mini-high 的效能。

有趣的發現與分析

「思考」token 詞頻與推理能力的關係？

作者檢查了思考相關的詞彙，在模型輸出的 < think></think > 內出現與否，對應答案的準確率：

1. 當 "wait" "verify" "yet"（稍等，驗證，然而）等等詞出現的時候，推理效能明顯更高。然而也有意想不到的情況：“recheck” 出現的時候，會導致推理分數下降，不是所有人們以為的思考詞都能漲點。recheck 可能表示模型總是舉棋不定，會更大機率犯錯。

2. 說 re-evaluate 和 reevaluate（再次評估）的行為完全不一樣。前者漲，後者跌。作者檢查了原始模型輸出，發現前者的頻次本身就很高，而後者幾乎不出現，這似乎表明模型使用自己偏好的詞能更順利地完成推理過程。

3. 語言混雜現象 (例如中英夾雜回答問題) 雖然迷人，但會削弱模型效能，增加模型犯錯的機率。由此作者建議在格式獎勵中加入語言一致性懲罰。不僅能提高使用者的可讀性，還能潛在地增強效能。

突如其來的 Aha Moment 或許根本不存在？

作者統計了訓練過程中思考相關的各詞頻變化。RL 訓練自然地提高了與反思相關詞彙（如 verify, check）以及語氣舒緩詞（let's, yet, now that..）的頻率。

似乎不存在忽然的頓悟時刻 —— 即所謂的 Aha moment。這些思考性詞彙，在訓練的前十步就已經出現，只是頻次很低。並且在訓練過程中，這些詞語的詞頻只是緩慢增長，並不存在突然的頓悟。

SFT 依賴記憶；RL 泛化性更好

在訓練資料集上進行擾動，例如更換邏輯題裡的表述（and->or/not），調換多人進行陳述的順序，使得問題答案和解答路徑發生完全改變。如果模型真的學會了題目背後的推理技能，應該在題目被擾動後還能保持相當的正答率。於是定義記憶分數 (LiMem) 為：測試集正確率 * 訓練集擾動後的出錯率。

為了獲得合理的有監督微調（SFT）思維鏈資料，作者用原模型進行 50 次拒絕取樣，挑選正確且最短的輸出作為新的 CoT 資料集。由此合理對比拒絕取樣微調（RFT）和強化學習（RL）的效率和記憶性。

SFT 是在記憶分數 (橫軸) 大幅增長的代價下，換取少量的測試集分數提高的；而 RL 幾乎不增長記憶性 (甚至出現了負增長)，而縱軸上的測試集分數快速增長。

這暗示著強化學習的優越性：不依賴於資料本身的結構，用極低的資料代價就能實現高效進化，體現出超越當前資料領域的強大泛化性。

更長的思考過程是否代表了更好的推理效能？

作者在訓練過程中找到幾組反例，有力地駁斥了這種觀點。

雖然訓練動態中模型輸出長度總是自然增長，但其漲幅不能代表推理效能的同步增長。有時候模型會陷入 " 過度思考 “困境，輸出過長的思維鏈，更容易觸發長度崩壞。最有效率的思考過程，往往來自最短且正確的路徑。

故而，更長的輸出長度不是訓練過程裡衡量推理效能的有效指標，只能當成自然產生的副產物看待。對測試集分數與模型輸出的觀察，是更穩妥的做法。

其它結果

除了上述結果，該研究還有幾個有趣的發現：

冷啟動自有其好處，但非必需。無論是從 Base 模型還是 Instruct 模型開始，訓練動態都保持驚人的相似性。不過 SFT 後的模型往往擁有略高的準確率。
對難度遞進的課程學習仍然重要。在固定的資料混合比例下，精心設計的課程學習方法總是優於隨機打亂。

更多研究細節，請參閱論文原文！

幾道經典邏輯推理題，提高你的邏輯思考能力
2019-10-20
大語言模型微調資料競賽，冠-軍！
2023-12-18
模型
2020“數維杯”國際大學生數學建模競賽賽題分析
2020-12-01
AI在用| 沒錯，樹莓派5也能飆上Llama 3了！
2024-04-23
AI樹莓派
Meta無限長文字大模型來了：引數僅7B，已開源
2024-04-17
大模型
2018-06-24 轉載電競資料化：英雄聯盟總決賽也靠它！
2018-06-24
中國大學生數學競賽（非數學專業類）競賽大綱
2020-11-10
《資料安全能力成熟度模型》實踐指南08：邏輯儲存安全
2021-02-24
模型
離散數學 | (一)數理邏輯
2020-11-14
邏輯迴歸模型
2024-09-05
邏輯迴歸模型
邏輯題
2024-08-17
離散數學——3.命題邏輯的等值演算
2024-07-20
離散數學——6.命題邏輯的應用
2024-07-20
2020職場AI技能排行榜：TensorFlow熱度飆升，Python最火，市場部也在學
2020-04-06
AIPython
微信小程式之邏輯層與介面層03
2020-11-07
微信小程式
Mistral AI兩連發：7B數學推理專用、Mamba2架構程式碼大模型
2024-07-17
AI架構大模型
離散數學——5.命題邏輯的推理理論
2024-07-20
2024哈佛-麻省數學競賽（HMMT）2月錦標賽團體賽第9題
2024-03-08
HMM
“雞你太美血洗B站”！坤坤帶領全民學習AI ？
2019-04-22
AI
轉載2020阿里巴巴達摩院數學競賽考題：4道題限時48小時
2020-03-16
阿里
AI 在用 | 花半小時，你也能主演《龍貓》
2024-05-31
AI
《賽博朋克2077》Steam首發玩家數突破41萬不斷飆升
2020-12-10
Big IDEA 2030 消費板塊的投資邏輯
2022-12-27
Idea
離散數學——4.命題邏輯公式的正規化
2024-07-20
公式
機器學習之邏輯迴歸：模型訓練
2020-06-27
機器學習邏輯迴歸模型
Excel分析師的工資能持續飆升，原因其實是...
2022-03-11
Excel
MOSN熱升級邏輯淺析
2023-02-07
匯佳學校與微軟強聯合數字化教育再升級賦能教學新場景
2022-03-01
微軟
微信搜一搜開放能力亮相公開課，首次揭示排序邏輯
2020-01-10
排序
競賽釋出 | AI戰疫·小分子成藥屬性預測大賽開賽！
2020-03-07
AI
靠著《寶可夢劍/盾》，英國Switch銷量飆升30%
2019-11-20
6月書訊 | 嘮嗑也能學數學！
2020-06-19
2024年中國研究生數學建模競賽D題
2024-09-21
2024年中國研究生數學建模競賽E題
2024-09-21
微信小程式開發基礎（一）「配置」與「邏輯層」
2019-05-25
微信小程式
【邏輯DG滾動升級三】ORACLE11204 邏輯DG滾動升級至12C---正式升級
2022-04-15
Oracle
如何建立強大的邏輯思維能力？
2022-12-30
離散數學——2.命題邏輯公式語法和語義
2024-07-19
公式

僅靠邏輯題，AI數學競賽能力飆升！微軟、九坤投資：7B小模型也能逼近o3-mini

相關文章