閉源趕超GPT-4 Turbo、開源擊敗Llama-3-70B,歪果仁:這中國大模型真香

机器之心發表於2024-05-09
在釋出一週年之際,阿里雲通義千問大模型在閉源和開源領域都交上了一份滿意的答卷。

國內的開發者們或許沒有想到,有朝一日,他們開發的 AI 大模型會像出海的網文、短劇一樣,讓世界各地的網友坐等更新。甚至,來自韓國的網友已經開始反思:為什麼我們就沒有這樣的模型?
圖片
圖片
這個「別人家的孩子」就是阿里雲的通義千問(英文名為 Qwen)。在過去的一年裡,我們經常能夠在 X 等社交平臺上看到它的身影。這些帖子一般有兩個主題:通義千問又開源新模型了!通義千問新模型還挺好用!

還有人以通義千問為例,反駁中國在人工智慧方面落後的說法。而且,這一反駁並非來自主觀感受。在最近的 HuggingFace 開源大模型排行榜 Open LLM Leaderboard 上,我們驚訝地發現,剛剛開源的 Qwen1.5-110B 已經登上了榜首,效能比 Llama-3-70B 還強。

圖片

部分開發者的實測體驗也佐證了這一結果。
圖片
要知道,這還只是 Qwen1.5 的實力。等到 Qwen 2.x 系列模型開源,我們還將看到更多驚喜。

這份驚喜已經能從通義千問的新模型裡看到端倪,即阿里雲今天釋出的新模型 —— 通義千問 2.5。在效能上,該模型在中文場景已經趕超GPT-4 Turbo,成為地表最強中文大模型。

去年 3 月份,OpenAI 釋出了 GPT-4。如今,通義千問 2.5 的釋出表明,歷經一年多追趕,國產大模型終於進入核心競技場,可與國外一流大模型一較高下。

這一過程的艱辛是能夠視覺化的。它就像一場逆流而上的龍舟競賽,稍有懈怠就會被衝到下游,而且競爭對手全是重量級。閉源趕超GPT-4 Turbo、開源擊敗Llama-3-70B,歪果仁:這中國大模型真香
過去一年大模型競技場排名變化影片(不含 Qwen1.5-110B)。可以看到,儘管面對的是谷歌、Anthropic、Meta 等強大競爭對手,阿里雲的 Qwen 也一度躋身前列。

那麼,通義千問的開源大模型是如何一步一步走到今天的?最新發布的通義千問 2.5 又帶來了哪些驚喜?這篇文章將逐一揭曉。

超越 Llama-3-70B
通義千問開源大模型如何一步一步登頂?

不久之前,業內曾有過一場「開源模型是否會越來越落後」的爭論。但後續出現的 Llama3、Qwen1.5 等模型用實力表明,開源模型的發展勢頭依然迅猛。

最近風頭正盛的 Qwen1.5-110B 於 4 月 28 日開源,是 Qwen1.5 系列中規模最大的模型,也是該系列中首個擁有超 1000 億引數的模型。該模型可以處理 32K tokens 的上下文長度,並支援英、中、法、西、德、俄、日、韓、越、阿等多種語言。

在技術細節上,Qwen1.5-110B 沿用了 Transformer 解碼器架構,包括分組查詢注意力(GQA),使得模型推理更加高效。

也因此,Qwen1.5-110B 在 MMLU、TheoremQA、ARC-C、GSM8K、MATH 和 HumanEval 等多個基準測評中不僅優於自家 Qwen1.5-72B,更超越了 Meta 的 Llama-3-70B。這意味著,就基礎能力而言,Qwen1.5-110B 成為了比 Llama-3-70B 更優秀的模型。
圖片
而在對話聊天場景,Qwen1.5-110B-Chat 在 MT-Bench 和 AlpacaEval 2.0 基準測試上的表現也雙雙好於 Llama-3-70B-Instruct。
圖片
來源:https://mp.weixin.qq.com/s/wrW3JWQWb8W7DqANitrMVw

看到這裡,有的開發者可能會說,Qwen1.5-110B 好是好,就是太大了,跑不動啊。

這個時候,通義千問「家大業大」的優勢就體現出來了。在 Qwen1.5-110B 釋出之前,他們已經開源了從 0.5B 到 72B 的七種尺寸的模型,提供了從端側到伺服器部署的多種選擇。
圖片
而且,這些模型在各自所處的引數量級上都名列前茅。

以 Qwen1.5-72B 為例,這個模型不僅登頂過 HuggingFace 開源大模型排行榜、OpenCompass 開源基座大模型排行榜,而且在 MT-Bench 和 Alpaca-Eval v2 評測中也表現不俗,超過 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-I nstruct 等模型。
圖片
圖片
圖片
在開放研究機構 LMSYS Org 推出的基準測試平臺 Chatbot Arena 上,Qwen1.5-72B 模型更是多次進入「盲測」結果全球 Top 10,創造了國產大模型的先例。

圖片

而且,和 Qwen1.5-110B 一樣,它也展現出了卓越的多語言能力。

有位越南網友表示,在越南版的 MMLU(VMLU)上,Qwen-72B 開箱即用,拿到了和 GPT-4 一樣的分數,直接衝到了 SOTA。
圖片
而一位韓國網友看到後跟帖說,「在 wuli(我們的)韓國版 MMLU 上也一樣。」
圖片
除了語言,還有人發現了 Qwen-72B 的隱藏技能 —— 醫療知識。不需要寫任何特殊提示(prompt),Qwen-72B 給出的答案就能勝過專業的醫療 LLM。
圖片
當然,可能會有開發者說,72B 還是太大了,跑不動。那不妨試試更小的模型:14B、7B 的 Qwen 也很好用。
圖片
圖片
而且,這個 7B 模型還有「平替」,即效能與之相當的 Qwen1.5-MoE-A2.7B。Qwen1.5-7B 包含 65 億個 Non-Embedding 引數,Qwen1.5-MoE-A2.7B 只有 20 億個,僅為前者的 1/3。但是,後者推理速度提升了 1.74 倍,對於開發者來說更為高效。

可以看到,在眾多的大模型廠商中,通義千問在開源領域罕見地做到了「全尺寸」的開源,而且還在利用 MoE 等技術不斷最佳化推理成本,這極大地擴充套件了其適用範圍。

除此之外,通義千問還在多模態以及一些實用的專有能力上進行了探索,開源了視覺理解模型 Qwen-VL,音訊理解模型 Qwen-Audio 以及程式碼專家模型 CodeQwen1.5。

其中,CodeQwen1.5-7B 登頂過 Huggging Face 程式碼模型榜單 BigCode。

圖片

這些模型在開發者社群也廣受好評。
圖片
有人在評論區喊話 Qwen 的核心維護者 Binyuan Hui,希望這些模型的升級版也能進一步開源。
圖片
此外,還有很多人在等 Qwen2 開源。
圖片
測試中的 Qwen-Max-0428 更是引發了各種猜測(有人認為它就是即將開源的 Qwen2)。最新訊息顯示,這個模型已經躋身 Chatbot Arena 總榜第 10 名,英文場景排名第 8,中文場景排名第 2。
圖片
在今天的釋出會上,阿里雲 CTO 周靖人透露,未來通義大模型還會持續開源,感覺大家千呼萬喚的 Qwen2 已經在路上了(coming soon)。
圖片
地表最強中文大模型
通義千問 2.5 趕超 GPT-4 Turbo

在堅持 Qwen1.5 系列模型開源之外,通義千問大模型專注於「修煉內功」,基礎能力得到不斷進步。自問世以來,通義千問的不斷迭代帶來自然語言、影像、音影片等生成式 AI 能力的持續升級,為更好、更快、更準的使用者體驗打好基礎。

果不其然,此次釋出會上,我們見證了通義千問 2.5 基礎能力的又一次全方位提升。

相較於前序版本通義千問 2.1,通義千問 2.5 的理解能力、邏輯推理、指令遵循和程式碼能力分別提升了 9%、16%、19%、10%,將基礎能力「卷」出新高度。

其中,中文語境下的文字生成和理解、 知識問答、生活建議、閒聊對話等垂直場景的能力更是趕超 GPT-4,成為中文社群最佳選擇。
圖片
在權威大模型評測基準平臺 OpenCompass 上,通義千問 2.5 的得分追平了 GPT-4 Turbo。這是國產大模型首次在該基準上取得如此出色的成績,讓我們看到了通義千問能力持續進化的巨大潛力。

至此,通義千問已經站到了國內外大模型領域的第一梯隊。
圖片
而得益於更強大的基礎能力,通義千問 2.5 在文件處理、音影片理解和智慧程式碼使用場景形成了獨有優勢。

首先,通義千問 2.5 具備了超強的文件處理能力,在支援輸入的文字長度上可以單次處理 1000 萬字,在支援輸入的文件數量上可以單次處理 100 個文件,實現了單次最長和最多。

通義千問 2.5 支援豐富的檔案格式和文字型別,比如 Word、PDF、Excel 以及表單、合同、白皮書、論文、財報研報等。文字任務也多樣化,比如解析標題、文字段落、表格、圖表等多種版面型別及文件層級目錄的識別和抽取。在輸出時支援 Markdown、JSON 等格式,對使用者友好、易用性拉滿。

其次,通義千問 2.5 具有出色的音影片理解能力。

在通義千問語言能力、LLM 能力、多模態能力和翻譯能力的加持下,透過通義聽悟、語言視覺 AI 模型等,實現音影片場景的資訊挖掘、知識沉澱和高效閱讀。相關能力已在釘釘阿里雲盤等內部產品以及合作伙伴的具體場景中有了廣泛的落地實踐,讓模型應用實現「開花結果」。

此外,通義千問 2.5 賦予了開發者和企業卓越的智慧編碼能力。

以通義程式碼大模型CodeQwen1.5為底座的智慧程式碼助手「通義靈碼」,它的國內使用者規模已經達到了第一,其中外掛下載量超過 350 萬,每日推薦程式碼超過 3000 萬次,開發者採納程式碼超過 1 億行。同時,正式釋出的通義靈碼企業版能夠基於企業需求進行定製,幫助他們提升編碼體系的整體效率。

可以預見,隨著通義千問 2.5 的到來,它將成為更強大的模型底座,進而為普通使用者、開發者和企業客戶提供更多樣化、更準確、更快速的生成式 AI 體驗。

實戰效果

當然,評測資料的高低不能全方面代表大模型的實際效果。接下來,我們從普通使用者的角度考驗一下模型的能力到底如何。
圖片
通義千問網頁版地址:https://tongyi.aliyun.com/

輸入問題:「我今天有 3 個蘋果,昨天吃了一個。現在有幾個蘋果?」
圖片
對於這個問題,假如不細想的話,很可能會給出錯誤答案 2,但通義千問不但給出了準確的答案,還分析了原因。

自打大模型爆火以來,「弱智吧」就成了檢測大模型能力的一項重要指標。我們測試一下通義千問會不會被弱智吧的問題繞進去。
圖片
圖片
從結果可以看出,通義千問不但給出了原因,還為我們補充了很多相關知識。

通義千問解讀笑話也是信手拈來:
圖片
接下來我們考察通義千問文字生成能力如何。
圖片
通篇讀下來,確實很有《紅樓夢》風格,連唇膏名字都替我們想好了。

在長文字方面,通義千問也表現突出, 對論文《KAN: Kolmogorov–Arnold Networks 》(論文長達 48 頁)的亮點概括非常全面。
圖片
在程式碼方面,我們要求通義千問編寫一個打地鼠的遊戲,一眨眼的功夫,程式就完成了。
圖片
我們接著測試了通義千問對圖片的理解能力。比如吉娃娃和藍莓鬆餅之間有著驚人的相似之處,大模型經常分辨不出,當我們輸入帶有兩者的圖片時,通義千問都能進行很好的區分:
圖片
圖片
根據 emoji 表情猜成語也不在話下。
圖片
生活中遇到了問題,拍張圖片上傳到通義千問,它也能給出一些指導性建議。
圖片
通義千問不僅能夠理解圖片,還能生成圖片。唐代詩人王之渙筆下的《登鸛雀樓》描述的場景被活靈活現的呈現出來了。
圖片
以上測試,只是通義千問眾多功能中的冰山一角,感興趣的讀者可以前去官方網站一試。

一年時間趕超 GPT-4 Turbo
通義千問做對了什麼?

回顧過去的一年,上半年是百模大戰,後半年是瞄準 GPT-4 的全面衝刺。在如此激烈的戰場上廝殺,並保持自身對於外界的辨識度,即使對於通義千問這樣的大廠模型來說也不是件容易的事。

但是,通義千問不僅做到了,還在國內外都建立起了良好的口碑。這不僅得益於其背後團隊對於智慧極限的探索,也得益於其對開源路線的堅持。

其實,這兩者是相輔相成的。我們看到,無論是在開源還是閉源的競技場上,開發者、企業使用者都有很多的模型可以選擇,因此,即使是做開源,也要開源最強的模型才有人用。而有人用才會有反饋,這點對於提升開源模型的能力至關重要。

在採訪中,阿里雲副總裁、公眾溝通部總經理張啟提到,現在圍繞通義千問的開發者社群非常活躍,他們每天會給通義千問的模型開發人員提供非常多有意義的反饋,有很多反饋甚至超出了他們自己原來的設想。這也是為什麼通義千問能夠在一年的時間內先後超越 GPT-3.5、GPT-4 Turbo 的效能。「開源後,來自全球開發者的真實反饋,對我們模型本身進步發展速度的意義非常重大。」張啟說到。

在這種體系下,通義千問的開發人員與企業、開發者之間形成了一種並行探索的關係,有利於進一步挖掘 AI 大模型的潛力。

「如今,有很多開發者、企業能夠結合自己的實際開發場景和業務需求,藉助 AI 模型實現翻天覆地的變化。在這個時間點,我們希望能夠以一個開放的心態,將最先進的技術在各個方面開源,讓大家做並行的探索。這對整個產業乃至每個企業的創新性開發都至關重要,並已被全球範圍內多次證明其價值。」周靖人說到。

其實,Meta 的成功就是周靖人提到的「證明」之一。前段時間,Meta CEO 祖克伯在採訪中舉例說明了自家的 Open Compute 專案如何透過開源伺服器、網路交換機和資料中心的設計,最終導致供應鏈圍繞這些設計建立,從而提高了產量並降低了成本,為公司節省了數十億美元。他們預計 AI 大模型領域也將發生同樣的事情。

此外,他還提到,開源有利於減少個別大公司對創新生態的限制。這和周靖人的觀點不謀而合。「曾幾何時,大家用雲端計算的時候,最擔心的就是上了某家的雲之後就被繫結。我們把技術進展以開源的方式展現給大家,也是希望給大家多種選擇,讓大家沒有後顧之憂。」周靖人說到。

從 12 年前的深度學習革命開始,開源對 AI 技術的發展就起著關鍵性的推動作用。即使到如今的大模型時期,開源依然是推動大模型技術普遍落地應用的有效方式之一。

在我們看來,近一年來通義系列的持續開源,對中文大模型社群的發展非常有意義,也期待後續有越來越多的強勁大模型繼續開源。

相關文章