一手實測效果如何? 既然 Step Reasoner mini 宣稱「文理兼修」,我們首先就用一個文理融合的題目來考校它一番:《夢遊天姥吟留別》中,一個數與其倍數在同一句的是哪一句?問題不難,但這既需要 AI 記得並理解古詩詞,還需要它懂得基本的算術。雖然很多人認為答案應該是「天台四萬八千丈,對此欲倒東南傾。」但是其實四萬八千是一個單獨的數,這一句中也沒有其倍數,因此這句並不算。而 Step Reasoner mini 也在推理思考中確認了這一點,並最終找到了正確答案:「千巖萬轉路不定」。下面來看一道 2024 年的高考數學題:可以看到,Step Reasoner mini 進行了一番思考後得到了正確答案。同樣可以看到,該模型在第一輪思考得到答案之後會再執行兩輪思考,以驗證答案的正確性。實測中我們發現,如果第一輪和第二輪的答案不一致,Step Reasoner mini 還會持續進行多輪思考,直到得到正確答案。接下來上一道邏輯推理題:可以看到,Step Reasoner mini 系統地整理了題目中幾個人的關係,並將最終答案以非常清晰的形式呈現了出來。單純的「文科」任務呢?比如如果要求模型霸氣地翻譯「I'm not in danger,I'm the danger.」它會怎麼處理?結果發現,Step Reasoner mini 經過多次嘗試,最終找到了一個相當霸氣的譯法:「我非但無險,我就是那險途。」更有意思的是,它還在思考過程中引經據典,參考了《黑暗騎士》中的類似臺詞。另外,我們知道,最近小紅書湧入了大量外國網友,他們的一大需求便是起中文名。「文理兼修」的 Step Reasoner mini 能幫助他們嗎?可以看到,對於英語問題,Step Reasoner mini 能流暢地切換成英語思考模式,同時還能在其中穿插對漢語含義的思考。至於最終得到的名字「星莉」,感覺還是不錯的。彩蛋:視覺推理模型也在路上了 從今天公佈的訊息來看,除了語言推理模型,階躍星辰還放出了一個小彩蛋:正在打造視覺推理模型,將推理能力融入更多互動形態的大模型中。 針對複雜視覺場景下的 Reasoning 問題,階躍星辰引入了慢感知和空間推理的思想,把 Test-Time Scaling 從文字空間轉移到視覺空間,實現在視覺空間下的 Spatial-Slow-Thinking。 效果如何?看展示: 1. 解答圖中的題目2. 從藍色箭頭出發,我能到達哪個?3. 這些小球分別對應什麼數字?對視覺推理模型,期待住了有沒有?