
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文由微軟亞洲研究院的謝天、洪毓謙、邱凱、武智融、羅翀,九坤投資高梓添、Bryan Dai、Joey Zhou,以及獨立研究員任慶楠、羅浩銘合著完成。
只刷邏輯益智題,竟能讓 AI 數學競賽水平大幅提升?繼中國大模型突破矽谷圍堵後,國內團隊再放大招,揭秘 DeepSeek R1 背後的秘密。他們透過僅五千條合成資料進行低成本強化學習,讓 7B 小模型在邏輯推理測試中的表現超越 OpenAI o1,直逼 o3-mini-high。更令人驚歎的是,在完全未見過的美國數學奧林匹克(AIME)測試中,該模型的推理效能提升了 125%!論文標題:Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
論文連結:https://arxiv.org/abs/2502.14768
Github 連結:https://github.com/Unakar/Logic-RL
這是首個全面深入的類 R1 強化學習模型訓練動態過程分析。需要強調的是,該團隊不僅完整開源了全流程程式碼,還發布了詳細的引數設定,訓練資料和設計經驗。1.DeepSeek R1 所採用的 GRPO 未必就是最合適的強化學習(RL)演算法?應該如何調參實現穩定訓練?由易到難的課程學習還有用嗎?2. 從 Base 模型啟動 RL 與完全冷啟動,究竟有多大差異?哪種方式更優?3. 訓練中,模型輸出長度常呈現近似線性增長的 Scaling Law,但這種增長速度是否等同於推理能力的提升?4. 當模型頻繁使用 “verify” “check” 等反思性詞彙時,是否意味著其推理能力增強了?哪些 token 能可靠反映推理效能的提升?5.RL 是真正掌握了抽象推理能力,還是僅僅依賴問題模板的死記硬背?相比傳統有監督微調(SFT),它的優勢究竟體現在哪裡?6. 推理過程中,模型時常混用中文和英文,這種語言切換現象對效能提升是否有實際幫助,甚至是否可能有害?隨著強化學習 (RL) 訓練進行,各觀測指標變化。紅線是模型回答長度,藍線是驗證集準確率,黃色散點是兩種域外 (OOD) 的數學競賽正確率,三者均保持穩定增長趨勢:測試時的計算量,自然而然地從數百 token,擴充套件到了數千 token,暗示著 RL 訓練正在鼓勵模型對思考路徑進行不斷的探索和修正。在經過 5K 個邏輯問題的訓練後,7B 模型就發展出了一些在邏輯語料庫中原本不存在的高階推理技能 —— 如自我反思、驗證和總結能力。在沒見過的數學競賽題 (AIME/AMC)上,各自取得了 125% 和 38% 的效能提升。常見的數學訓練集在問題難度上無明確界限,數學問題往往具有不定的邏輯深度、知識背景要求,對可控的分析實驗不友好。於是為了分析推理模型的機制,作者轉向了完全由程式合成的的「邏輯謎題」作為訓練資料。示例問題:一個非常特殊的島嶼上只住著騎士和騙子。騎士總是說真話,騙子總是說謊。你遇到兩位島民:Zoey 和 Oliver。Zoey 說:「Oliver 不是騎士。」Oliver 說:「Oliver 是騎士且 Zoey 是騙子。」請問,誰是騎士,誰是騙子?
這個「騎士與騙子」謎題,因其合成設計和邏輯精確性而非常適合進一步分析:1. 謎題對於模型來說都是未見過的資料,非常適合用來測試泛化能力2. 透過改變遊戲人數(2 到 8 個)和邏輯運算的深度(1 到 4 種布林運算子的組合),可以調節難度3. 每個謎題都有一個單一、明確的正確答案,正確性由生成演算法保證。解答需要嚴格的演繹推理,因此減少了獎勵作弊的風險4. 這消除了自然語言任務中常見的模糊性,使我們能夠清晰地區分真正的推理能力和資料表面上的記憶能力。模型起初會用作弊 (hack) 的方式來騙取獎勵分:跳過 <think></think> 過程並直接回答。
將推理過程放在 <answer></answer> 標籤內。
反覆猜測答案而沒有適當的推理。
在提供答案之外包含無關的廢話。
在已經輸出一個 <answer> 後再次進入思考階段,因為推理不足。
重複原始問題或使用諸如 “在此處進行思考過程” 之類的短語來避免真正的推理。
多輪迭代改進獎勵函式後,作者設計出了一種幾乎無法作弊的基於規則的獎勵系統。僅包含兩種獎勵型別:格式獎勵和答案獎勵。思考標籤應該嚴格按照順序出現,且出現次數唯一,思考過程必須包含真正的推理,答案組織要可提取且可讀。為了減少 Base 模型指令跟隨難度(遵守先思考再回答的正規化),作者建議直接把 < think > 標籤手動加入 prompt 裡。作者經過百組對比實驗,對比了 PPO,GRPO,和 REINFORCE++。最後選擇採用價效比最好的 REINFORCE++ 演算法完成主實驗。團隊遵循 DeepSeek Math 論文的建議,改動了 REINFORCE++ 演算法實現,提出了兩點修正:將 KL 懲罰從 reward 計算提出,放進 loss 函式里;並且更換 KL 估計器,採用一種無偏非負的 KL 估計。訓練方式上,作者嘗試了多組複雜排程 (例如高低溫多階段訓練),發現增益不高,由此決定採用最簡單的訓練方式:使用 4e-7 的學習率以及 0.7 的溫度一訓到底。經過 3.6K 步數的訓練之後,模型超越 OpenAI o1 2 倍,直逼 o3-mini-high 的效能。作者檢查了思考相關的詞彙,在模型輸出的 < think></think > 內出現與否,對應答案的準確率:1. 當 "wait" "verify" "yet"(稍等,驗證,然而)等等詞出現的時候,推理效能明顯更高。然而也有意想不到的情況:“recheck” 出現的時候,會導致推理分數下降,不是所有人們以為的思考詞都能漲點。recheck 可能表示模型總是舉棋不定,會更大機率犯錯。2. 說 re-evaluate 和 reevaluate(再次評估)的行為完全不一樣。前者漲,後者跌。作者檢查了原始模型輸出,發現前者的頻次本身就很高,而後者幾乎不出現,這似乎表明模型使用自己偏好的詞能更順利地完成推理過程。3. 語言混雜現象 (例如中英夾雜回答問題) 雖然迷人,但會削弱模型效能,增加模型犯錯的機率。由此作者建議在格式獎勵中加入語言一致性懲罰。不僅能提高使用者的可讀性,還能潛在地增強效能。突如其來的 Aha Moment 或許根本不存在?作者統計了訓練過程中思考相關的各詞頻變化。RL 訓練自然地提高了與反思相關詞彙(如 verify, check)以及語氣舒緩詞(let's, yet, now that..)的頻率。似乎不存在忽然的頓悟時刻 —— 即所謂的 Aha moment。這些思考性詞彙,在訓練的前十步就已經出現,只是頻次很低。並且在訓練過程中,這些詞語的詞頻只是緩慢增長,並不存在突然的頓悟。在訓練資料集上進行擾動,例如更換邏輯題裡的表述(and->or/not),調換多人進行陳述的順序,使得問題答案和解答路徑發生完全改變。如果模型真的學會了題目背後的推理技能,應該在題目被擾動後還能保持相當的正答率。於是定義記憶分數 (LiMem) 為:測試集正確率 * 訓練集擾動後的出錯率。為了獲得合理的有監督微調(SFT)思維鏈資料,作者用原模型進行 50 次拒絕取樣,挑選正確且最短的輸出作為新的 CoT 資料集。由此合理對比拒絕取樣微調(RFT)和強化學習(RL)的效率和記憶性。SFT 是在記憶分數 (橫軸) 大幅增長的代價下,換取少量的測試集分數提高的;而 RL 幾乎不增長記憶性 (甚至出現了負增長),而縱軸上的測試集分數快速增長。這暗示著強化學習的優越性:不依賴於資料本身的結構,用極低的資料代價就能實現高效進化,體現出超越當前資料領域的強大泛化性。作者在訓練過程中找到幾組反例,有力地駁斥了這種觀點。雖然訓練動態中模型輸出長度總是自然增長,但其漲幅不能代表推理效能的同步增長。有時候模型會陷入 " 過度思考 “困境,輸出過長的思維鏈,更容易觸發長度崩壞。最有效率的思考過程,往往來自最短且正確的路徑。故而,更長的輸出長度不是訓練過程裡衡量推理效能的有效指標,只能當成自然產生的副產物看待。對測試集分數與模型輸出的觀察,是更穩妥的做法。