阿里雲Qwen2.5釋出!再登開源大模型王座,Qwen-Max效能逼近GPT-4o

机器之心發表於2024-09-19
人工智慧領域再度迎來重磅訊息!

2023 年 8 月,通義首次開源後迅速引起全球開發者的關注和熱議,短短一年時間內,阿里雲大模型又迎來了重要升級。

在 9 月 19 日的雲棲大會上,CTO 周靖人宣佈:通義千問釋出新一代開源模型 Qwen2.5,開源旗艦模型 Qwen2.5-72B 效能超越 Llama 3.1-405B,再次登上全球開源大模型的王座;通義旗艦模型 Qwen-Max 全方位升級,效能已經逼近 GPT-4o。

圖片

釋出現場,圖源:澤南

通義千問憑藉不斷迭代的技術和豐富的應用場景,迅速崛起為開發者的熱門選擇,尤其是在中文社群中引發了廣泛關注。這次釋出,模型不僅展現出更強大的程式碼、數學和語言處理能力,還擁有領先的多模態處理和視覺智慧,使其成為當前 AI 技術領域的佼佼者。

百寶箱:Qwen2.5

這次,Qwen2.5 系列是一個超級 AI 模型「百寶箱」,涵蓋了多個尺寸的大語言模型、多模態模型、數學模型和程式碼模型。每個尺寸都有基礎版本、指令跟隨版本和量化版本,總計上架了 100 多個模型,重新整理了業界紀錄。

圖片

集合連結:https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

在語言模型方面,Qwen2.5 開源了 7 個尺寸:0.5B、1.5B、3B、7B、14B、32B、72B,每個都在同等引數賽道創造了業界最佳成績。這些型號的設定充分考慮了下游場景的不同需求:3B 是適配手機等端側裝置的黃金尺寸;32B 是最受開發者期待的「價效比之王」,可在效能和功耗之間獲得最佳平衡。令人驚喜的是,Qwen2.5-32B 的整體表現甚至超越了 Qwen2-72B。

所有 Qwen2.5 系列模型都在 18 萬億(18T)tokens 的資料上進行了預訓練。相比 Qwen2,整體效能提升了 18% 以上,擁有更多的知識、更強的程式設計和數學能力。旗艦模型 Qwen2.5-72B 在 MMLU-redux(通用知識)、MBPP(程式碼能力)和 MATH(數學能力)等基準測試中,分別取得了 86.8、88.2、83.1 的高分。72B 作為 Qwen2.5 系列的旗艦模型,在多個核心任務上,以不到 1/5 的引數超越了擁有 4050 億巨量引數的 Llama3.1-405B。

圖片

在專項模型方面,用於程式設計的 Qwen2.5-Coder 和用於數學的 Qwen2.5-Math 都有了實質性飛躍。Qwen2.5-Coder 在多達 5.5 萬億(5.5T)token 的程式設計相關資料上進行了訓練,當天開源了 1.5B 和 7B 版本,未來還將開源 32B 版本。Qwen2.5-Math 支援使用思維鏈和工具整合推理(TIR)解決中英雙語的數學題,是迄今為止最先進的開源數學模型系列。本次開源了 1.5B、7B、72B 三個尺寸和一款數學獎勵模型 Qwen2.5-Math-RM。

圖片

Qwen2.5 模型支援高達 128K 的上下文長度,最多可生成 8K 的內容。它們還擁有強大的多語言能力,支援中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 種以上語言。

在多模態模型領域,備受期待的視覺語言模型 Qwen2-VL-72B 正式開源!Qwen2-VL 具備強大的視覺理解能力,能夠識別不同解析度和長寬比的圖片,還可以理解長達 20 分鐘以上的影片內容。同時,它還支援自主操作手機和機器人的視覺智慧功能,展現了高度靈活的應用場景。

圖片

Qwen2-VL-72B 在權威測評 LMSYS Chatbot Arena Leaderboard 成為全球得分最高的開源視覺理解模型

Qwen-Max 全方位升級

現在,通義官網和通義 APP 的後臺模型都已切換為 Qwen-Max,繼續為所有使用者免費服務。你還可以透過阿里雲百鍊平臺呼叫 Qwen-Max 的 API,親自體驗它的強大實力。

圖片

那麼,Qwen-Max 到底有多厲害呢?

相比上一代模型,它在訓練中使用了更多的訓練資料、更大的模型規模,並進行了更深入的人類對齊,最終實現了智慧水平的飛躍。在 MMLU-Pro、MATH、GSM8K、MBPP、MultiPL-E、LiveCodeBench 等十多個權威基準測試中,Qwen-Max 的表現已經接近 GPT-4o,尤其是在數學能力和程式碼能力上,甚至超越了 GPT-4o!要知道,數學和程式碼所代表的推理能力可是大模型智慧的核心體現。

圖片

更令人興奮的是,與 2023 年 4 月的初代通義千問大模型相比,Qwen-Max 的理解能力提升了 46%、數學能力提升了 75%、程式碼能力提升了 102%、抗幻覺能力提升了 35%、指令遵循能力提升了 105%。還有一個更加驚喜的資料,模型與人類偏好的對齊水平實現了質的飛躍,提升了 700% 以上。這意味著 Qwen-Max 不僅更聰明,還更懂你!

相關文章