今天凌晨 3 點,阿里開源釋出了新推理模型 QwQ-32B,其引數量為 320 億,但效能足以比肩 6710 億引數的 DeepSeek-R1 滿血版。
千問的推文表示:「這次,我們研究了擴充套件 RL 的方法,並基於我們的 Qwen2.5-32B 取得了一些令人印象深刻的成果。我們發現 RL 訓練可以不斷提高效能,尤其是在數學和編碼任務上,並且我們觀察到 RL 的持續擴充套件可以幫助中型模型實現與巨型 MoE 模型相媲美的效能。歡迎與我們的新模型聊天並向我們提供反饋!」
QwQ-32B 已在 Hugging Face 和 ModelScope 開源,採用了 Apache 2.0 開源協議。大家也可透過 Qwen Chat 直接進行體驗!
部落格:https://qwenlm.github.io/zh/blog/qwq-32b/ Hugging Face:https://huggingface.co/Qwen/QwQ-32B ModelScope:https://modelscope.cn/models/Qwen/QwQ-32B 演示:https://huggingface.co/spaces/Qwen/QwQ-32B-Demo Qwen Chat:https://chat.qwen.ai/
本地部署工具 Ollama 也第一時間提供了支援:ollama run qwq
千問官方釋出了題為「QwQ-32B: 領略強化學習之力」的官方中文部落格介紹這一吸睛無數的進展。考慮到強化學習之父 Richard Sutton 與導師 Andrew Barto 剛剛獲得圖靈獎,QwQ-32B 的釋出可說是非常應景。
部落格中寫到,大規模強化學習(RL)非常具有潛力,在提升模型效能方面可望超越傳統的預訓練和後訓練方法。
近期的研究表明,強化學習可以顯著提高模型的推理能力。例如,DeepSeek-R1 透過整合冷啟動資料和多階段訓練,實現了最先進的效能,使其能夠進行深度思考和複雜推理。
而千問團隊則探索了大規模強化學習(RL)對大語言模型的智慧的提升作用,推理模型 QwQ-32B 便由此而生。
這是一款擁有 320 億引數的模型,其效能可媲美具備 6710 億引數(其中 370 億被啟用)的 DeepSeek-R1。該團隊表示:「這一成果突顯了將強化學習應用於經過大規模預訓練的強大基礎模型的有效性。」
QwQ-32B 中還整合了與 Agent(智慧體)相關的能力,使其能夠在使用工具的同時進行批判性思考,並根據環境反饋調整推理過程。該團隊表示:「我們希望我們的一點努力能夠證明強大的基礎模型疊加大規模強化學習也許是一條通往通用人工智慧的可行之路。」
模型效果
QwQ-32B 在一系列基準測試中進行了評估,包括數學推理、程式設計和通用能力。以下結果展示了 QwQ-32B 與其他領先模型的效能對比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。
可以看到,QwQ-32B 的表現非常出色,在 LiveBench、IFEval 和 BFCL 基準上甚至略微超過了 DeepSeek-R1-671B。
強化學習
QwQ-32B 的大規模強化學習是在冷啟動的基礎上開展的。
在初始階段,先特別針對數學和程式設計任務進行 RL 訓練。與依賴傳統的獎勵模型(reward model)不同,千問團隊透過校驗生成答案的正確性來為數學問題提供反饋,並透過程式碼執行伺服器評估生成的程式碼是否成功透過測試用例來提供程式碼的反饋。
隨著訓練輪次的推進,QwQ-32B 在這兩個領域中的效能持續提升。
在第一階段的 RL 過後,他們又增加了另一個針對通用能力的 RL。此階段使用通用獎勵模型和一些基於規則的驗證器進行訓練。結果發現,透過少量步驟的通用 RL,可以提升其他通用能力,同時在數學和程式設計任務上的效能沒有顯著下降。
API
如果你想透過 API 使用 QwQ-32B,可以參考以下程式碼示例:

未來工作
千問團隊還在部落格中分享了未來計劃,其中寫到:「這是 Qwen 在大規模強化學習(RL)以增強推理能力方面的第一步。透過這一旅程,我們不僅見證了擴充套件 RL 的巨大潛力,還認識到預訓練語言模型中尚未開發的可能性。在致力於開發下一代 Qwen 的過程中,我們相信將更強大的基礎模型與依託規模化計算資源的 RL 相結合,將會使我們更接近實現人工通用智慧(AGI)。此外,我們正在積極探索將智慧體與 RL 整合,以實現長時推理,目標是透過推理時間擴充套件來釋放更高的智慧。」
QwQ-32B 收穫無數好評
QwQ-32B 一發布就收穫了無數好評,甚至我們的不少讀者也在催促我們趕緊報導。
在前段時間的 DeepSeek 熱潮中,大家都熱衷於討論滿血版,因為蒸餾版效能受限。但是 671B 的滿血版模型無法輕易部署,普通的端側裝置只能退而求其次。現在,Qwen 把模型大小打下來了,端側有希望了嗎?
有網友表示,手機上肯定還不行,但執行記憶體比較高的 Mac 或許可以一戰。
還有人喊話阿里巴巴通義實驗室科學家 Binyuan Hui 去做更小的模型。
還有人曬出體驗,表示執行很快:


