推理水平對標OpenAI o1!阿里雲通義開源最新推理模型QwQ

新闻助手發表於2024-11-28

11月28日,阿里雲通義團隊釋出全新AI推理模型QwQ-32B-Preview,並同步開源。評測資料顯示,預覽版本的QwQ,已展現出研究生水平的科學推理能力,在數學和程式設計方面表現尤為出色,整體推理水平比肩OpenAI o1。

QwQ(Qwen with Questions)是通義千問Qwen大模型最新推出的實驗性研究模型,也是阿里雲首個開源的AI推理模型。阿里雲通義千問團隊研究發現,當模型有足夠的時間思考、質疑和反思時,其對數學和程式設計的理解就會深化。基於此,QwQ取得了解決複雜問題的突破性進展。

推理水平對標OpenAI o1!阿里雲通義開源最新推理模型QwQ

在考察科學問題解決能力的GPQA評測集上,QwQ獲得65.2%的準確率,具備研究生水平的科學推理能力;在涵蓋綜合數學主題的AIME評測中,QwQ以50%的勝率證明其擁有解決數學問題的豐富技能;在全面考察數學解題能力的MATH-500評測中,QwQ斬獲90.6%的高分,一舉超越o1-preview和o1-mini;在評估高難度程式碼生成的LiveCodeBench評測中,QwQ答對一半的題,在程式設計競賽題場景中也有出色表現。

面對複雜問題,QwQ展現了深度自省的能力,會質疑自身假設,進行深思熟慮的自我對話,並仔細審視其推理過程的每一步。比如,在經典智力題“猜牌問題”中,QwQ透過梳理各方對話並推演現實情況,像個擅長思考的人一樣,揣摩“這句話有點tricky”,反思“等一下,也許我需要更仔細地思考”,最終分析得出正確答案,讓人驚豔。

目前,QwQ-32B-Preview已在魔搭社群和HuggingFace等平臺上開源。釋出短短几小時,引起全球開發者熱情體驗。有開發者認為該模型“是完全沒有預料到的瘋狂的躍進”、“今年開源領域最重大的突破”、“讓中國在開源大模型和AI推理上佔據先機”。通義團隊透露,儘管QwQ展現了強大的分析能力,但該模型仍是個供研究的實驗型模型,存在不同語言的混合使用、偶有不恰當偏見、對專業領域問題不瞭解等侷限。隨著研究深入模型迭代,這些問題將逐步得到解決。

附:

Modelscope開源地址:https://modelscope.cn/models/Qwen/QwQ-32B-Preview

Modelscope創空間體驗:https://modelscope.cn/studios/Qwen/QwQ-32B-preview

HuggingFace開源地址:https://huggingface.co/Qwen/QwQ-32B-Preview

HuggingFace Space體驗:https://huggingface.co/spaces/Qwen/QwQ-32B-preview

相關文章