阿里QwQ-32B或超越DeepSeek滿血版

banq發表於2025-03-06


今天,我們釋出了 QwQ-32B,這是我們全新的推理模型,雖然只有 320 億個引數,但它能跟頂尖的推理模型,比如 DeepSeek-R1,拼一拼實力。

  • 部落格:https://qwenlm.github.io/blog/qwq-32b
  • HF:https://huggingface.co/Qwen/QwQ-32B
  • ModelScope:https://modelscope.cn/models/Qwen/QwQ-32B
  • 演示:https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
  • Qwen 聊天:https://chat.qwen.ai

這次,我們研究瞭如何放大 RL(強化學習)的配方,並且基於我們的 Qwen2.5-32B 取得了一些很牛的結果。

我們發現,RL 訓練能一直提升模型的表現,尤其是在數學和程式設計方面特別明顯。
而且我們還注意到,持續加大 RL 的規模,能讓一箇中等大小的模型在效能上跟那些超大的 MoE 模型一較高下。

歡迎大家來試試我們的新模型!

網友:
1、如果它在基準測試之外表現良好,那麼就是真的。那將是巨大的

2、小型模型就是裝不下那麼多知識,而知識在任何實際工作中都是最關鍵的。這個模型沒啥特別的地方,但這個發現基本上對所有小型模型都適用。期待它能有別的表現基本上是扯淡。

不過話說回來,你可以在本地把它跟 RAG(檢索增強生成)搭配起來,用這個辦法補上知識的缺口,而對於 R1 來說,這是做不到的。

3、我更相信 RAG,而不是大型模型所包含的任何“知識”

4、剛剛測試了拍手鳥示例,結果很糟糕。(Q6 MLX 使用 mlx_lm.convert 自我量化)

5、僅比較一下 QWQ-Preview 與 QWQ:

Benchmark    QWQ-Preview    QWQ
AIME    50    79.5
LiveCodeBench    50    63.4
LIveBench    40.25    73.1
IFEval    40.35    83.9
BFCL    17.59    66.4

這些數字與 o3-mini-medium 相當,僅次於grok3o3。難以置信。

6、自我報告的基準測試往往會受到選擇、測試過度擬合和其他偏見的影響,並描繪出更樂觀的前景。我個人預測它不會在大多數應用程式中取代 R1。
然而,它只有32B,所以即使它達不到完整的 R1 617B MoE,僅僅“足夠接近”也是一個巨大的勝利。
與 R1 不同,量化 QwQ 應該可以在消費級 GPU 上執行良好。

7、 Qwen 和其他中國模型在過去一年半中屢屢被西方研究人員和媒體發表的比較結果所忽視。希望 DeepSeek R1 的巨大突破能讓這些冷落成為過去。

8、我被震驚了。我把它插入 VSCode中的 Cline 並要求它複製 ChatGPT。它做得很出色,頁面載入成功,沒有任何錯誤。

9、32B 型號不可能擁有 R1 所擁有的完整網際網路複製記憶體,但我仍然希望改進能夠達到基準(與其他幾款型號不同)。
一個超級智慧的小型模型,能夠可靠地訪問大量資訊,而不會產生大量幻覺,總有一天會成為王者。

10,一天前,位元組跳動推出:位元組跳動釋出SuperGPQA:評估大型語言模型的新基準:
位元組跳動豆包大模型團隊與 MAP 開源社群合作,宣佈釋出 SuperGPQA,這是一項綜合基準,旨在評估 285 個研究生學科的大型語言模型 (LLM) 的知識和推理能力。該資料集包含 26,529 道多項選擇題,可對 LLM 的表現進行嚴格評估
HuggingFace 論文[url=https://supergpqa.github.io/]排行榜[/url]

11、到目前為止,這個模型在處理24K長度的文字時表現得很好,尤其是在使用Q8_0量化方法的情況下。在3090和4090顯示卡上執行速度也還不錯。雖然我不確定它能不能只用32B的引數就打敗671B的Deepseek-R1模型,但它應該能輕鬆打敗其他32B的模型,甚至是一些70/72B的模型。希望即使它被簡化了,也能保持這樣的表現。從我的測試來看,它確實已經打敗了“Deepseek-R1”-32B。

不過我發現一個問題,就是它總是想得太多……想得太多!這讓它的反應速度比我期望的要慢一些。雖然它生成內容的速度很快,但因為想得太多,整體響應就比較慢。希望透過給它一個合適的系統提示,告訴它不要想太多,能解決這個問題。另外,我也不是完全不能做其他事情——如果多思考能讓它表現得更好,我想我也可以接受。

我給它一些提示,測試了其他模型,目前它的表現還不錯。我還給它設計了一些測試程式(不算太難,畢竟我能寫出來——雖然花了不少心思!)來測試它會不會遵守系統提示,不要過度思考……目前它還在思考中……

12、順便說一句,可以在這裡訪問:https://www.neuroengine.ai/Neuroengine-Reason使用 FP8,可能會有點慢,因為我正在測試它,到目前為止,效果非常好。

13、這太令人震驚了,等不及美國市場價值下跌了

相關文章