剛剛,階躍星辰釋出Step R-mini!推理模型從此不再文理偏科

机器之心發表於2025-01-16
這是階躍星辰 Step 系列模型家族的首個推理模型。

類似 OpenAI o1 的推理模型在國內終於捲起來了。

剛剛,國產大模型「六小虎」成員階躍星辰釋出了最新一代模型 ——Step Reasoner mini(簡稱「Step R-mini」)。這是階躍星辰 Step 系列模型家族的首個推理模型。
圖片
體驗地址:https://yuewen.cn

新模型擅長主動進行規劃、嘗試和反思,能透過慢思考和反覆驗證的邏輯機制,為使用者提供準確可靠的回覆。

而且,它既擅長透過超長推理能力,解決邏輯推理、程式碼和數學等複雜問題,也能兼顧文學創作等通用領域。或者按階躍星辰自己的說法是「文理兼修」。

根據階躍星辰公佈的基準測試資料,Step R-mini 在 AIME 2024 和 Math500 這兩個數學基準上均達到了 SOTA 水平,其中在 Math500 上更是比 o1-mini 還多 2 分。Step Reasoner mini 寫程式碼的能力也很不錯:在 LiveCodeBench 程式碼任務上超過了 o1-preview。
圖片
這一切是怎麼做到的呢?機器之心從階躍星辰相關人士瞭解到,新模型的「RL」含量很高,因此泛化性比較好。此外,他們還在資料質量、測試時計算、模型大小等多個方面進行了 scaling,再次驗證了 Scaling Law 的有效性。

除了語言推理模型,他們也在打造能夠進行多模態推理的視覺推理模型。而且相關人士強調說,這個多模態推理模型「是真的在視覺領域的推理」,即在圖上進行推理,「而不僅僅是看著圖卻只在文字領域的推理」。

看來,階躍星辰在自己的路線圖上又往前邁了一步。

Step Reasoner mini 是如何煉成的?

根據階躍星辰的介紹,Step R-mini 的設計與開發遵循了當前主流的推理模型開發正規化。具體來說,它透過在推理階段增加計算量,並結合思維鏈等技術,實現了「慢思考」。該系統能夠根據任務的複雜性進行主動規劃、嘗試和反思,從而透過反覆驗證的邏輯機制,提供準確且可靠的反饋。

階躍星辰錶示,Step Reasoner mini 最大的亮點之一是實現了「文理兼修」。具體來說,Step Reasoner mini 除了能準確解答數學、程式碼、邏輯推理問題,還能富有創意地完成文學內容創作和日常聊天的任務。這一切是透過大規模的強化學習訓練,並使用 On-Policy(同策略)強化學習演算法來實現的。

此外,模型推理能力的提升也離不開階躍星辰對 Scaling Law 原則的堅持。這包括以下幾點:

  1. Scaling 強化學習:從模仿學習到強化學習,從人類偏好到環境反饋,階躍星辰堅持 Scaling 強化訓練,以強化學習為模型迭代的核心訓練階段。
  2. Scaling 資料質量:資料質量是重中之重。在確保資料質量的前提下,階躍星辰持續擴大資料分佈與規模,為強化學習訓練提供堅實保障。
  3. Scaling Test-Time Compute:堅定執行 Training-Time Scaling 的同時,亦兼顧 Test-Time Scaling。在測試階段,階躍星辰發現,System 2 正規化能讓 Step Reasoner mini 在極複雜任務推理上達到 50,000 規模的思考 token,進而實現深度思考。
  4. Scaling 模型大小:這是最經典的 Scaling 方式。階躍星辰錶示,堅持模型大小 Scaling 仍然是 System-2 的核心,已經在開發更智慧、更通用、綜合能力更強的 Step Reasoner 推理模型。

一手實測效果如何?

既然 Step Reasoner mini 宣稱「文理兼修」,我們首先就用一個文理融合的題目來考校它一番:《夢遊天姥吟留別》中,一個數與其倍數在同一句的是哪一句?問題不難,但這既需要 AI 記得並理解古詩詞,還需要它懂得基本的算術。雖然很多人認為答案應該是「天台四萬八千丈,對此欲倒東南傾。」但是其實四萬八千是一個單獨的數,這一句中也沒有其倍數,因此這句並不算。而 Step Reasoner mini 也在推理思考中確認了這一點,並最終找到了正確答案:「千巖萬轉路不定」。
圖片
下面來看一道 2024 年的高考數學題:
圖片
可以看到,Step Reasoner mini 進行了一番思考後得到了正確答案。同樣可以看到,該模型在第一輪思考得到答案之後會再執行兩輪思考,以驗證答案的正確性。實測中我們發現,如果第一輪和第二輪的答案不一致,Step Reasoner mini 還會持續進行多輪思考,直到得到正確答案。
圖片
接下來上一道邏輯推理題:
圖片
可以看到,Step Reasoner mini 系統地整理了題目中幾個人的關係,並將最終答案以非常清晰的形式呈現了出來。
圖片
單純的「文科」任務呢?比如如果要求模型霸氣地翻譯「I'm not in danger,I'm the danger.」它會怎麼處理?結果發現,Step Reasoner mini 經過多次嘗試,最終找到了一個相當霸氣的譯法:「我非但無險,我就是那險途。」更有意思的是,它還在思考過程中引經據典,參考了《黑暗騎士》中的類似臺詞。
圖片
另外,我們知道,最近小紅書湧入了大量外國網友,他們的一大需求便是起中文名。「文理兼修」的 Step Reasoner mini 能幫助他們嗎?
圖片
可以看到,對於英語問題,Step Reasoner mini 能流暢地切換成英語思考模式,同時還能在其中穿插對漢語含義的思考。至於最終得到的名字「星莉」,感覺還是不錯的。
圖片
彩蛋:視覺推理模型也在路上了

從今天公佈的訊息來看,除了語言推理模型,階躍星辰還放出了一個小彩蛋:正在打造視覺推理模型,將推理能力融入更多互動形態的大模型中。

針對複雜視覺場景下的 Reasoning 問題,階躍星辰引入了慢感知和空間推理的思想,把 Test-Time Scaling 從文字空間轉移到視覺空間,實現在視覺空間下的 Spatial-Slow-Thinking。

效果如何?看展示:

1. 解答圖中的題目
圖片
2. 從藍色箭頭出發,我能到達哪個?
圖片
3. 這些小球分別對應什麼數字?
圖片
對視覺推理模型,期待住了有沒有?

相關文章