近日,中國人民大學STILL專案團隊、北京智源研究院團隊聯合九章雲極DataCanvas公司在大模型慢思考推理技術上形成系列技術成果,初步復現類R1推理模型,完整開源了類R1類的實現細節以及訓練技巧。進一步,創新性提出使用程式碼工具來增強模型推理效能,在AIME數學推理測試中超越DeepSeek-R1的模型效能。相關成果已經形成論文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,在預印版論文網站 arXiv上公開發表。
九章雲極DataCanvas聯合研究團隊公佈了復現DeepSeek- R1全引數微調開源方案,併發布了全新的強化學習訓練模型STILL-3-Tool-32B。這個方案完整開放了從模型訓練到推理部署的全鏈路工程程式碼,同步公開實踐驗證過的技術經驗與調優策略,為開發者提供可直接部署的工業化級大模型訓練框架。研究成果顯示,該模型在 AIME 2024 基準上取得了81.70%準確率(取樣),超越了DeepSeek-R1滿血版。該成果在GitHub社群中詳細闡述,並公開了相關開源連結。
論文地址:https://arxiv.org/pdf/2503.04548
開源連結:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
STILL-3-Tool-32B模型是九章雲極DataCanvas聯合團隊在基於長鏈複雜推理模型訓練框架上的又一次重要創新實踐。該研究論文表明,在已接近效能巔峰的蒸餾模型上,透過該強化學習訓練方法也可以大幅提升AIME 2024的準確率,這一研究結果將極大促進正在執行中的較大模型的回覆長度和推理準確性。面對語言推理可能存在精準性不夠的問題,STILL-3-Tool-32B模型引入了外部工具來加強AI模型的複雜推理能力。在AIME 2024上取得81.70%準確率(取樣),以15.56%的顯著優勢超越其基座訓練模型,與OpenAI o3-mini持平,超越o1 和DeepSeek-R1同場景表現。
自DeepSeek-R1技術報告公佈後,開源模型仍然復現面臨程式碼完整性缺失、超引數除錯等共性難題,九章雲極DataCanvas聯合團隊透過AI基礎設施深度融合 實現突破。研究同步開源了該模型在DataCanvas Alaya NeW智算作業系統上完成的全過程完整訓練日誌、獎勵函式程式碼及容器化部署方案。研究結果公佈,在Alaya NeW中採用on-policy 學習策略是成功的關鍵因素,其將DeepSeek背後的基於規則的強化學習方法加以微調,充分探索了相關的超引數設定以及訓練技巧。
值得關注的是,DeepSeek以及蒸餾模型在推理過程中無法呼叫外部程式碼工具,而這恰是復現的關鍵難點。研究結果顯示,Alaya NeW智算作業系統在開源工具鏈與基座模型適配、演算法與算力協同、邏輯推理與多步決策等複雜任務框架方面表現出明顯優勢,有望推動AI技術的進一步發展。