元象 XVERSE 釋出中國最大 MoE 開源模型:XVERSE-MoE-A36B,加速 AI 應用低成本部署,將國產開源提升至國際領先水平。
該模型總引數 255B,啟用引數 36B,達到 100B 模型效能的「跨級」躍升,同時訓練時間減少 30%,推理效能提升 100%,使每 token 成本大幅下降。
元象「高效能全家桶」系列全部開源,無條件免費商用,讓海量中小企業、研究者和開發者能按需選擇。
MoE(Mixture of Experts)是業界最前沿的混合專家模型架構 ,將多個細分領域的專家模型組合成一個超級模型,打破了傳統擴充套件定律(Scaling Law)的侷限,可在擴大模型規模時,不顯著增加訓練和推理的計算成本,保持模型效能最大化。出於這個原因,行業前沿模型包括谷歌 Gemini-1.5、OpenAI 的 GPT-4 、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。
在多個權威評測中,元象 MoE 效果大幅超越多個同類模型,包括國內千億 MoE 模型 Skywork-MoE、傳統 MoE 霸主 Mixtral-8x22B 以及 3140 億引數的 MoE 開源模型 Grok-1-A86B 等。
免費下載大模型
Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B
魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github:https://github.com/xverse-ai/XVERSE-MoE-A36B
官網:chat.xverse.cn
落地應用好且省 登頂港臺娛樂應用榜
元象此次開源,不僅填補國內空白,也在商業應用上更進一步。
元象基於 MoE 模型自主研發的 AI 角色扮演與互動網文 APP Saylo,透過逼真的 AI 角色扮演和有趣的開放劇情,火遍港臺,下載量在中國臺灣和香港娛樂榜分別位列第一和第三。
MoE 訓練正規化具有「更高效能、更低成本」優勢,元象在通用預訓練基礎上,使用海量劇本資料「繼續預訓練」(Continue Pre-training),並與傳統 SFT(監督微調)或 RLHF(基於人類反饋的強化學習)不同,採用了大規模語料知識注入,讓模型既保持了強大的通用語言理解能力,又大幅提升「劇本」這一特定應用領域的表現。
高效能「開源標杆」
元象是國內領先的 AI 與 3D 公司,秉持「通用人工智慧 AGI」信仰,持續打造「高效能開源全家桶」,不僅填補國產開源空白,更將其推向了國際領先水平。
2023 年 11 月,此前國內大部分開源引數多在 7B 到 13B,而行業共識是模型達到 50 到 60B 引數門檻,大模型才能「智慧湧現」,生態亟需「大」模型時,元象率先開源了 XVERSE-65B,是當時中國最大引數開源。
2024 年 1 月,元象又開源全球最長上下文視窗大模型,支援輸入 25 萬漢字,還附手把手訓練教程,讓大模型應用一舉進入「長文字時代」。
此次國內最大引數 MoE 開源,又是給生態貢獻了一個助推低成本 AI 應用利器。
引領文娛應用
藉助在 AI 和 3D 領域的客戶積累,元象也迅速將大模型推向商用。
2023 年 11 月,元象成為全國最早一批、廣東省前五獲得《生成式人工智慧服務管理暫行辦法》國家備案的大模型,具備向全社會開放的產品能力。
而在更早的 10 月,元象與騰訊音樂聯合推出 lyraXVERSE 加速大模型,並藉助該技術全面升級音樂助手「AI 小琴」的問答、聊天與創作能力,讓她情商與智商雙高,為使用者提供個性化、更深入、陪伴感十足的音樂互動體驗。
元象大模型陸續與 QQ 音樂、虎牙直播、全民 K 歌、騰訊雲等深度合作與應用探索,為文化、娛樂、旅遊、金融領域打造創新領先的使用者體驗。
MoE 技術自研與創新
MoE 是目前業界最前沿的模型框架,由於技術較新,國內開源模型或學術研究尚未普及。元象自研 MoE 的高效訓練和推理框架,並持續推動技術創新。
2024 年 4 月推出的 XVERSE-MoE-A4.2B 中,元象推動 MoE 專家架構革新。與傳統 MoE(如 Mixtral 8x7B)將每個專家大小等同於標準 FFN 不同,元象採用更細粒度的專家設計,每個專家大小僅為標準 FFN 的四分之一,提高了模型靈活性與效能;還將專家分為共享專家(Shared Expert)和非共享專家(Non-shared Expert)兩類。共享專家在計算過程中始終保持啟用狀態,而非共享專家則根據需要選擇性啟用。這種設計有利於將通用知識壓縮至共享專家引數中,減少非共享專家引數間的知識冗餘。
此次推出 XVERSE-MoE-A36B,繼續在 MoE 效率和效果方面進行技術創新。
(1)效率方面
MoE 架構與 4D 拓撲設計:MoE 架構的關鍵特性是由多個專家組成。由於專家之間需要大量的資訊交換,通訊負擔極重。為了解決這個問題,我們採用了 4D 拓撲架構,平衡了通訊、視訊記憶體和計算資源的分配。這種設計最佳化了計算節點之間的通訊路徑,提高了整體計算效率。
專家路由與預丟棄策略:MoE 的另一個特點是「專家路由機制」,即需要對不同的輸入進行分配,並丟棄一些超出專家計算容量的冗餘資料。為此團隊設計一套預丟棄策略,減少不必要的計算和傳輸。同時在計算流程中實現了高效的運算元融合,進一步提升模型的訓練效能。
通訊與計算重疊:由於 MoE 架構的專家之間需要大量通訊,會影響整體計算效率。為此團隊設計了「多維度的通訊與計算重疊」機制,即在進行引數通訊的同時,最大比例並行地執行計算任務,從而減少通訊等待時間。
(2)效果方面
專家權重:MoE 中的專家總數為 N ,每個 token 會選擇 topK 個專家參與後續的計算,由於專家容量的限制,每個 token 實際選擇到的專家數為 M,M<=K<N。被選擇到的專家計算完之後,會透過加權平均的方式彙總得到每個 token 的計算結果。這裡專家的權重如何設定是一個問題,我們透過對比實驗的方式來進行選擇。根據對比實驗的效果,我們選擇實驗 2 的設定進行正式實驗。
實驗 1:權重在 topM 範圍內歸一化
實驗 2:權重在 topK 範圍內歸一化
實驗 3:權重在 topN 範圍內歸一化
實驗 4:權重都為 1
對比實驗結果
舉例說明,假設 N=8,K=4,M=3(2 號專家上 token 被丟棄),不同專家權重的計算方式所得的權重如下圖:
資料動態切換:元象以往開源的模型,往往在訓練前就鎖定了訓練資料集,並在整個訓練過程中保持不變。這種做法雖然簡單,但會受制於初始資料的質量和覆蓋面。此次 MoE 模型的訓練借鑑了「課程學習」理念,在訓練過程中實現了動態資料切換,在不同階段多次引入新處理的高質量資料,並動態調整資料取樣比例。
這讓模型不再被初始語料集所限制,而是能夠持續學習新引入的高質量資料,提升了語料覆蓋面和泛化能力。同時透過調整取樣比例,也有助於平衡不同資料來源對模型效能的影響。
不同資料版本的效果曲線圖
學習率排程策略(LR Scheduler):在訓練過程中動態切換資料集,雖有助於持續引入新知識,但也給模型帶來了新的適應挑戰。為了確保模型能快速且充分地學習新進資料,團隊對學習率排程器進行了最佳化調整,在每次資料切換時會根據模型收斂狀態,相應調整學習率。實驗表明,這一策略有效提升了模型在資料切換後的學習速度和整體訓練效果。
下圖是整個訓練過程中 MMLU、HumanEval 兩個評測資料集的效果曲線圖。
訓練過程中 MMLU、HumanEval 的效能曲線持續拔高
透過設計與最佳化,元象 MoE 模型與其 Dense 模型 XVERSE-65B-2 相比,訓練時間減少 30%、推理效能提升 100%,模型效果更佳,達到業界領先水平。