開源超閉源!通義千問Qwen2釋出即爆火,網友:GPT-4o危

China Soft發表於2024-06-11

 魚羊發自凹非寺量子位公眾號 QbitAI

  開源大模型全球格局,一夜再變。

  這不,全新開源大模型亮相,效能全面超越開源標杆 Llama 3。王座易主了。不是“媲美”、不是“追上”,是全面超越。釋出兩小時,直接衝上 HggingFace 開源大模型榜單第一。

  這就是最新一代開源大模型 Qwen2,來自通義千問,來自阿里巴巴。

  在十幾項國際權威測評中,Qwen2-72B 得分均勝過 Llama3-70B,尤其在 HumanEval、MATH 等測試程式碼和數學能力的基準中表現突出。

  不僅如此,作為國產大模型,Qwen2-72B 也“畢其功於一役”,超過了國內一眾閉源大模型:

  Qwen2-72B 相比於自家前代模型 Qwen1.5-110B 實現了整體效能的代際提升,而在上海 AI Lab 推出的 OpenCompass 大模型測評榜單上,Qwen1.5-110B 已經超過了文心4、Moonshot-v1-8K 等一眾國內閉源模型。隨著 Qwen2-72B 的問世,這一領先優勢還在擴大。

  有網友便感慨說:這還只是剛開始。開源模型很可能在未來幾個月,就能擊敗 GPT-4o 為代表的閉源模型。

  Qwen2 的釋出,可以說是一石激起千層浪。

  上線僅 1 天,下載量已經超過 3 萬次。

  網友們還發現,除了 72B 和指令調優版本,這次同步開源的 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B,開源許可都換成了 Apache 2.0——

  就是說可以更加自由地商用。這是 Llama 3 系列都沒做到的。

  在 AI 大模型領域,時間和速度都不同了。

  因為距離阿里推出 Qwen1.5-110B 模型重新整理 SOTA,全球開源大模型形成雙雄格局,才剛過去 1 個月時間。

  而現在,Qwen2 獨領風騷,全球開源第一,國產大模型第一——連不開源的大模型都超越了。

  Qwen2 挑戰高考數學真題

  還是先來整體梳理一下 Qwen2 的基本情況。

  根據官方技術部落格介紹,Qwen2 的特點和相比 Qwen1.5 的主要升級包括:

  • 釋出 5 個尺寸的預訓練和指令微調模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B。其中 Qwen2-57B-A14B 是一個 MoE 模型。
  • 在中文英語的基礎上,對 27 種語言進行了增強。有阿拉伯語開發者表示,Qwen 已經成為 4 億阿拉伯語使用者喜歡的大模型,穩居阿拉伯語開源模型榜單第一。

  • 在 MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench 等國際權威測評中,Qwen2-72B 斬獲十幾項世界第一,超過 Llama 3。
  • 程式碼和數學能力顯著提升。
  • 增大了上下文長度支援,最長實現 128K tokens 上下文長度支援(Qwen2-7B-Instruct 和 Qwen2-72B-Instruct)。

  紙面資料上,Qwen2 在開源大模型中已經達成全球最強,那麼實際表現又會如何?

  我們用新鮮出爐的高考數學真題上手實測了一波。

  先來個簡單題:已知集合A={x-5<x^3<5},B={-3,-1,0,2,3},則A∩B=()

  左邊是 Qwen2-72B-Instruct,右邊是 Llama-3-70B-Instruct。除了 Llama 3 原版的老問題不咋支援中文外,兩邊的答案都是正確的。

  那麼就稍微上點難度:當x∈[0, 2π]時,曲線y=sinx 與y=2sin (3x-π/6) 的交點個數為?

  Qwen2-72B-Instruct 依然沒有被難住,一通計算後給出正確答案:交點個數為 6 個。

  而 Llama-3-70B-Instruct 則計算錯誤,扣 5 分。

  Qwen2 在數學能力方面,已經到了高考考場接受真題檢驗的水平。

  通義千問此番升級,官方和評測資料還突出了程式碼能力的提升,我們也有 LeetCode 中等難度真題淺測了一下:給你一個按照非遞減順序排列的整數陣列 nums,和一個目標值 target。請你找出給定目標值在陣列中的開始位置和結束位置。如果陣列中不存在目標值 target,返回 [-1, -1]。你必須設計並實現時間複雜度為 O (log n) 的演算法解決此問題。

  Qwen2-72B-Instruct 給出的 python 實現如下:

  defsearchRange (nums, target):defbinary_search_left (nums, target):

  left, right =0, len (nums) whileleft < right:

  mid = (left + right) //2ifnums[mid] < target:

  left = mid +1else:

  right = midreturn left

  defbinary_search_right (nums, target):

  left, right =0, len (nums) whileleft < right:

  mid = (left + right) //2ifnums[mid] <= target:

  left = mid +1else:

  right = midreturn left

  left, right = binary_search_left (nums, target), binary_search_right (nums, target) return[left, right -1]ifleft <= right -1andnums[left] == targetandnums[right -1] == targetelse[-1,-1]

  一開始沒有定義 Solution 類導致報錯,不過直接把報錯資訊反饋給 Qwen2,它自己就能完成 debug:

  順利透過測試。

  全尺寸模型標配 GQA

  這波實測,你給通義千問打幾分?

  值得關注的是,這次阿里官方的技術部落格中,還透露出了不少Qwen 變強的技術細節

  首先,是GQA(Grouped Query Attention)的全面加持。

  GQA,即分組查詢注意力機制,主要思想將輸入序列劃分成若干個組,在組內和組間分別應用注意力機制,以更好地捕捉序列內的區域性和全域性依賴關係。

  GQA 能夠有效降低計算複雜度,同時很容易實現並行化從而提高計算效率。

  在 Qwen1.5 系列中,只有 32B 和 110B 模型使用了 GQA。而 Qwen2 則全系列用上了這一注意力機制。也就是說,無論是高階玩家還是愛好者入門,這回都能在 Qwen2 各個尺寸模型中體驗到 GQA 帶來的推理加速和視訊記憶體佔用降低的優勢。

  另外,針對小模型(0.5B 和 1.5B),由於 embedding 引數量較大,研發團隊使用了 tie embedding 的方法讓輸入和輸出層共享引數,以增加非 embedding 引數的佔比。

  其次,在上下文長度方面,Qwen2 系列中所有 Instruct 模型,均在 32K 上下文長度上進行訓練,並透過 YARN 或 Dual Chunk Attention 等技術擴充套件至更長的上下文長度。

  其中,Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支援 128K 上下文。72B 版本的最長上下文長度可以達到 131072 個 token。

  Qwen2-57B-A14B-Instruct 能處理 64K 上下文,其餘兩個較小的模型(0.5B 和 1.5B)則支援 32K 的上下文長度。

  大海撈針的實驗結果如下。可以看到,Qwen2-72B-Instruct 在處理 128K 上下文長度內的資訊抽取任務時,表現稱得上完美。

  除此之外,在資料方面,Qwen2 繼續探索 Scaling Law 的路線。

  比如數學能力的提升,就是研究團隊給模型餵了大規模高質量數學資料的結果。

  在多語言能力方面,研究團隊也針對性地在訓練資料中增加了 27 種語言相關的高質量資料。

  部落格還透露,接下來,通義千問研究團隊還將繼續探索模型及資料的 Scaling Law,還會把 Qwen2 擴充套件為多模態模型。

  重新認識中國開源大模型

  更強的效能、更開放的態度,Qwen2 剛一發布,堪稱好評如潮。

  而在此前,生態方面,Qwen 系列下載量已突破 1600 萬次。海內外開源社群也已經出現了超過 1500 款基於 Qwen 二次開發的模型和應用。

  已經有開發者感受到了:在開源路線上,現在中國大模型正在成為引領者

  Qwen2 的最新成績單,至少印證了兩個事實。

  其一,中國開源大模型,從效能到生態,都已具備跟美國最強開源大模型 Llama 3 全面對壘的硬實力。

  其二,如圖靈獎得主 Yann LeCun 所預言,開源大模型已經走在了超越閉源模型的道路上,拐點已現。

  事實上,這也是包括阿里在內,開源大模型玩家的明牌——

  大模型的持續最佳化和進步,一方面依賴於強大的 AI 研發能力、領先的基礎設施能力,也就是人工智慧和雲的強強聯合。

  以阿里為例,作為中國雲廠商份額第一,依託於強大的雲端計算能力,能為 AI 訓練、AI 應用提供穩定高效的 AI 基礎服務體系,同時在人工智慧方面有長期的積累。

  另一方面也需要來自外界的不斷反饋和技術推動。

  開源社群的技術反哺,從 Qwen2 上線第一天,GitHub 上的 Issues 數量就可見一斑。

  在技術領域,開源就是我為人人、人人為我,是全球科技網際網路繁榮發展至今最核心的精神要素。

  不論任何一個時代,不管哪種新興技術浪潮,沒有程式設計師、工程師不以開源感到驕傲,甚至快樂。

  阿里高階演算法專家、開源負責人林俊暘,曾對外分享過通義千問進展飛快的“秘籍”:

  快樂。

  因為面向全球開發者服務,面向其他開發者交流,給別人帶去實實在在的幫助,這樣通義千問大模型的打造者們快樂又興奮,關注著每一個開發者的反饋,激動於全新意想不到的落地應用。

  這也是科技網際網路世界曾經快速發展的核心原因,黃金時代,開源才是約定俗成的,不開源反而要遭受質疑。

  然而時移世易,在大模型時代,由於研發成本、商業模式和競爭多方面的原因,閉源的光芒一度掩蓋了開源,Close 成了寵兒。

  所以 Meta 的 Llama 也好,阿里通義千問的 Qwen 也好,復興傳統,重新證明科技網際網路領域不變的精神和核心。

  這種精神和核心,在通義千問這裡,也擁有不言自明的可持續飛輪。

  阿里巴巴董事長蔡崇信已經對外分享了思考,在全球雲端計算和 AI 的第一梯隊中,有領先的雲業務又有自研大模型能力的,僅谷歌和阿里兩家。其他有云服務的微軟、亞馬遜,都是合作接入大模型;其他自研大模型的 OpenAI、Meta,沒有領先的雲服務。

  全球唯二,中國唯一。

  而在開源生態的推動中,技術迭代會更快,雲端計算的服務延伸會越廣,技術模型和商業模式,飛輪閉環,迴圈迭代,在固有基礎設施的基礎上壘起新的基礎設施,形成穩固持續的競爭力。

  但開源大模型,最大的價值和意義依然迴歸開發者,只有足夠強大的開源大模型,AI for All、AI 無處不在才不會成為紙上空談。

  所以通義千問 Qwen2,此時此刻,登頂的是全球開源效能最高峰,引領的是開源對閉源的超越階段,象徵著中國大模型在新 AI 時代中的競爭力。

  但更值得期待的價值是透過開源大模型,讓天下沒有難開發的 AI 應用、讓天下沒有難落地的 AI 方案。完整兌現 AI 價值,讓新一輪 AI 復興,持續繁榮,真正改變經濟和社會。

相關文章