在「最難LLM評測榜單」上,階躍萬億引數模型拿下中國第一

机器之心發表於2024-11-19

大模型格局又變了?


剛剛,國內 AI 領域傳來一則重要訊息。

頭部大模型創業公司階躍星辰,憑藉萬億引數大語言模型 Step-2,在業內權威大模型基準 LiveBench AI 上獲得了第五名的好成績,成為了前十名之內唯一的國產大模型。

排在階躍星辰 Step-2 身前的,只剩下 OpenAI 和 Anthropic 兩家公司。
圖片
榜單地址:https://livebench.ai/#

LiveBench 是當前生成式 AI 領域最權威、客觀的模型能力評測榜單之一。它是由圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 聯合 Abacus.AI、紐約大學等機構推出的,今年六月才首次上線。

它旨在消除現有 LLM 基準的侷限性,被稱作是「世界上第一個無法被操縱的大語言模型基準測試」。
圖片
LiveBench 提出了一種創新的基準測試方法,其中包含 6 大類 18 項任務。

為了避免大模型「作弊」,LiveBench 每月釋出新問題,並根據最近釋出的資料集、arXiv 論文、新聞文章和 IMDb 電影簡介設計問題,以限制潛在的資料汙染。每個問題都有可驗證的、客觀的基本真實答案,這樣就可以在不使用 LLM 評審員的情況下,對難題進行準確的自動評分。

透過定期更新的問題集和客觀的自動化評分方法,LiveBench 提供了一個公平、準確的評估平臺,還同時推動了 LLM 的持續改進和社群參與。

此次殺入榜單前十的 step-2-16k-202411 模型的「Global Average」得分位列第五,已經非常接近第三名和第四名的 claude-3-5-sonnet-20240620 和 o1-mini-2024-09-12。

值得注意的是,在這次提交的成績中,Step-2 的指令跟隨(IF Average)得分全榜排名第一,展示了對語言生成細節的強大控制力。具體來說,該任務是對《衛報》最近的新文章進行轉述、簡化、概括或編寫故事,但須遵守一項或多項指令,例如字數限制或在答辯中納入特定元素。
圖片
不斷進化的 Step-2 萬億引數大模型

自從最初的預覽版釋出以來,Step-2 一直在經歷快速的技術迭代,迅速縮短與國際最頂級大模型的差距。

今年 3 月,階躍星辰釋出了 Step-2 語言大模型預覽版,這是國內首個由創業公司釋出的萬億引數模型。WAIC 2024 期間,階躍星辰釋出了 Step-2 萬億引數語言大模型正式版,在數理邏輯、程式設計、中文知識、英文知識、指令跟隨等方面的體感都非常接近全球頂尖模型。

細看下來,Step-2 萬億引數語言大模型有兩大亮點:採用 MoE 架構,萬億引數。

訓練 MoE 模型主要有兩種方式:基於已有模型透過 upcycle(向上複用)開始訓練,或者從頭開始訓練。upcycle 方式對算力的需求低、訓練效率高,但上限低(比如基於複製複製得到的 MoE 模型容易造成專家同質化嚴重)。如果選擇從頭開始訓練 MoE 模型,雖然訓練難度高,但能獲得更高的模型上限。

階躍星辰團隊在設計 Step-2 MoE 架構時選擇完全自主研發從頭開始訓練,透過部分專家共享引數、異構化專家設計等創新 MoE 架構設計,讓 Step-2 中的每個「專家模型」都得到充分訓練,不僅總引數量達到了萬億級別,每次訓練或推理所啟用的引數量也超過了市面上的大部分 Dense 模型。

此外,從頭訓練這樣一個萬億引數模型對於系統團隊是很大的考驗。在 Step-2 訓練過程中,階躍星辰系統團隊突破了 6D 並行、極致視訊記憶體管理、完全自動化運維等關鍵技術,成功完成了 Step-2 的每一次升級。

基於 Scaling Law,在模型引數達到萬億規模之後,數學、程式設計等涉及推理的能力都會顯著提升。這也最終推動了 Step-2 今天能夠取得媲美 OpenAI o1、Claude 3.5 Sonnet 等模型的好成績。

不斷進化的 Step-2 萬億引數語言大模型,已經接入了階躍星辰 C 端智慧助手「躍問」,在躍問 App 和躍問網頁端(https://yuewen.cn)都可以使用。

階躍星辰的大模型矩陣打造之路

相比國內大模型領域的幾家知名公司,階躍星辰可謂是後來者。它由微軟前全球副總裁姜大昕創辦,於去年 4 月成立,今年 3 月才開始嶄露頭角。
圖片
階躍星辰創始人、CEO 姜大昕,曾任職微軟全球副總裁、微軟亞洲網際網路工程院首席科學家。

但這家公司卻在短短几個月時間站穩了國內 AI 創業公司的第一梯隊,並在一年內快速釋出了包括萬億 MoE 語言大模型 Step-2、多模態理解大模型 Step-1.5V、影像生成模型 Step-1X 在內的 Step 系列模型 “全家桶”。

從 AGI 技術路線上看,階躍星辰的選擇是:單模態 - 多模態 - 統一多模態理解和生成 - 世界模型 - 通用人工智慧(AGI)。
圖片
在快速迭代模型的同時,這家公司也將模型接入了兩款 C 端產品智慧生活助手躍問和 AI 開放世界冒泡鴨。目前,階躍星辰已經完成了自身的大模型 + 產品矩陣,呈現出強勢崛起的姿態。

相關文章