國內最大MoE開源大模型來了，還基於此搞出個火遍港臺的AI聊天應用

机器之心發表於2024-09-13

原文網址 : https://www.jiqizhixin.com/articles/2024-09-13-6

元象 XVERSE 釋出中國最大 MoE 開源模型：XVERSE-MoE-A36B，加速 AI 應用低成本部署，將國產開源提升至國際領先水平。

該模型總引數 255B，啟用引數 36B，達到 100B 模型效能的「跨級」躍升，同時訓練時間減少 30%，推理效能提升 100%，使每 token 成本大幅下降。

元象「高效能全家桶」系列全部開源，無條件免費商用，讓海量中小企業、研究者和開發者能按需選擇。

MoE（Mixture of Experts）是業界最前沿的混合專家模型架構，將多個細分領域的專家模型組合成一個超級模型，打破了傳統擴充套件定律（Scaling Law）的侷限，可在擴大模型規模時，不顯著增加訓練和推理的計算成本，保持模型效能最大化。出於這個原因，行業前沿模型包括谷歌 Gemini-1.5、OpenAI 的 GPT-4 、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。

在多個權威評測中，元象 MoE 效果大幅超越多個同類模型，包括國內千億 MoE 模型 Skywork-MoE、傳統 MoE 霸主 Mixtral-8x22B 以及 3140 億引數的 MoE 開源模型 Grok-1-A86B 等。

免費下載大模型

Hugging Face：https://huggingface.co/xverse/XVERSE-MoE-A36B
魔搭：https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github：https://github.com/xverse-ai/XVERSE-MoE-A36B
官網：chat.xverse.cn

落地應用好且省登頂港臺娛樂應用榜

元象此次開源，不僅填補國內空白，也在商業應用上更進一步。

元象基於 MoE 模型自主研發的 AI 角色扮演與互動網文 APP Saylo，透過逼真的 AI 角色扮演和有趣的開放劇情，火遍港臺，下載量在中國臺灣和香港娛樂榜分別位列第一和第三。

MoE 訓練正規化具有「更高效能、更低成本」優勢，元象在通用預訓練基礎上，使用海量劇本資料「繼續預訓練」（Continue Pre-training），並與傳統 SFT（監督微調）或 RLHF（基於人類反饋的強化學習）不同，採用了大規模語料知識注入，讓模型既保持了強大的通用語言理解能力，又大幅提升「劇本」這一特定應用領域的表現。

高效能「開源標杆」

元象是國內領先的 AI 與 3D 公司，秉持「通用人工智慧 AGI」信仰，持續打造「高效能開源全家桶」，不僅填補國產開源空白，更將其推向了國際領先水平。

2023 年 11 月，此前國內大部分開源引數多在 7B 到 13B，而行業共識是模型達到 50 到 60B 引數門檻，大模型才能「智慧湧現」，生態亟需「大」模型時，元象率先開源了 XVERSE-65B，是當時中國最大引數開源。

2024 年 1 月，元象又開源全球最長上下文視窗大模型，支援輸入 25 萬漢字，還附手把手訓練教程，讓大模型應用一舉進入「長文字時代」。

此次國內最大引數 MoE 開源，又是給生態貢獻了一個助推低成本 AI 應用利器。

引領文娛應用

藉助在 AI 和 3D 領域的客戶積累，元象也迅速將大模型推向商用。

2023 年 11 月，元象成為全國最早一批、廣東省前五獲得《生成式人工智慧服務管理暫行辦法》國家備案的大模型，具備向全社會開放的產品能力。

而在更早的 10 月，元象與騰訊音樂聯合推出 lyraXVERSE 加速大模型，並藉助該技術全面升級音樂助手「AI 小琴」的問答、聊天與創作能力，讓她情商與智商雙高，為使用者提供個性化、更深入、陪伴感十足的音樂互動體驗。

元象大模型陸續與 QQ 音樂、虎牙直播、全民 K 歌、騰訊雲等深度合作與應用探索，為文化、娛樂、旅遊、金融領域打造創新領先的使用者體驗。

MoE 技術自研與創新

MoE 是目前業界最前沿的模型框架，由於技術較新，國內開源模型或學術研究尚未普及。元象自研 MoE 的高效訓練和推理框架，並持續推動技術創新。

2024 年 4 月推出的 XVERSE-MoE-A4.2B 中，元象推動 MoE 專家架構革新。與傳統 MoE（如 Mixtral 8x7B）將每個專家大小等同於標準 FFN 不同，元象採用更細粒度的專家設計，每個專家大小僅為標準 FFN 的四分之一，提高了模型靈活性與效能；還將專家分為共享專家（Shared Expert）和非共享專家（Non-shared Expert）兩類。共享專家在計算過程中始終保持啟用狀態，而非共享專家則根據需要選擇性啟用。這種設計有利於將通用知識壓縮至共享專家引數中，減少非共享專家引數間的知識冗餘。

此次推出 XVERSE-MoE-A36B，繼續在 MoE 效率和效果方面進行技術創新。

（1）效率方面

MoE 架構與 4D 拓撲設計：MoE 架構的關鍵特性是由多個專家組成。由於專家之間需要大量的資訊交換，通訊負擔極重。為了解決這個問題，我們採用了 4D 拓撲架構，平衡了通訊、視訊記憶體和計算資源的分配。這種設計最佳化了計算節點之間的通訊路徑，提高了整體計算效率。

專家路由與預丟棄策略：MoE 的另一個特點是「專家路由機制」，即需要對不同的輸入進行分配，並丟棄一些超出專家計算容量的冗餘資料。為此團隊設計一套預丟棄策略，減少不必要的計算和傳輸。同時在計算流程中實現了高效的運算元融合，進一步提升模型的訓練效能。

通訊與計算重疊：由於 MoE 架構的專家之間需要大量通訊，會影響整體計算效率。為此團隊設計了「多維度的通訊與計算重疊」機制，即在進行引數通訊的同時，最大比例並行地執行計算任務，從而減少通訊等待時間。

（2）效果方面

專家權重：MoE 中的專家總數為 N ，每個 token 會選擇 topK 個專家參與後續的計算，由於專家容量的限制，每個 token 實際選擇到的專家數為 M，M<=K<N。被選擇到的專家計算完之後，會透過加權平均的方式彙總得到每個 token 的計算結果。這裡專家的權重如何設定是一個問題，我們透過對比實驗的方式來進行選擇。根據對比實驗的效果，我們選擇實驗 2 的設定進行正式實驗。

實驗 1：權重在 topM 範圍內歸一化

實驗 2：權重在 topK 範圍內歸一化

實驗 3：權重在 topN 範圍內歸一化

實驗 4：權重都為 1

對比實驗結果

舉例說明，假設 N=8，K=4，M=3（2 號專家上 token 被丟棄），不同專家權重的計算方式所得的權重如下圖：

資料動態切換：元象以往開源的模型，往往在訓練前就鎖定了訓練資料集，並在整個訓練過程中保持不變。這種做法雖然簡單，但會受制於初始資料的質量和覆蓋面。此次 MoE 模型的訓練借鑑了「課程學習」理念，在訓練過程中實現了動態資料切換，在不同階段多次引入新處理的高質量資料，並動態調整資料取樣比例。

這讓模型不再被初始語料集所限制，而是能夠持續學習新引入的高質量資料，提升了語料覆蓋面和泛化能力。同時透過調整取樣比例，也有助於平衡不同資料來源對模型效能的影響。

不同資料版本的效果曲線圖

學習率排程策略（LR Scheduler）：在訓練過程中動態切換資料集，雖有助於持續引入新知識，但也給模型帶來了新的適應挑戰。為了確保模型能快速且充分地學習新進資料，團隊對學習率排程器進行了最佳化調整，在每次資料切換時會根據模型收斂狀態，相應調整學習率。實驗表明，這一策略有效提升了模型在資料切換後的學習速度和整體訓練效果。

下圖是整個訓練過程中 MMLU、HumanEval 兩個評測資料集的效果曲線圖。

訓練過程中 MMLU、HumanEval 的效能曲線持續拔高

透過設計與最佳化，元象 MoE 模型與其 Dense 模型 XVERSE-65B-2 相比，訓練時間減少 30%、推理效能提升 100%，模型效果更佳，達到業界領先水平。國內最大MoE開源大模型來了，還基於此搞出個火遍港臺的AI聊天應用

騰訊混元又來開源，一出手就是最大MoE大模型
2024-11-06
大模型
單個4090可推理，2000億稀疏大模型「天工MoE」開源
2024-06-04
大模型
基於 WebRTC 與 Webcam 開發一個聊天應用
2019-03-13
Web
基於大模型的智慧體徹底顛覆AI應用
2024-01-25
大模型智慧體AI
10個最新開源大模型Llama 3應用
2024-04-22
大模型
基於大模型的人工智慧應用開發
2024-06-02
大模型人工智慧
AI應用體驗-QiWen-Plus大模型之聊天小助手
2024-08-09
AI大模型
[應用案例]基於OT1.0 開發——菩提灣【一個值得你常來的心靈港灣】
2020-04-04
璞華AI大模型應用的探索之路：從AI大模型開發與運營平臺到應用寶庫的最佳實踐
2024-11-01
AI大模型
首個基於Mamba的MLLM來了！模型權重、訓練程式碼等已全部開源
2024-04-22
模型
它來了！Flutter 應用內除錯工具 UME 開源啦
2021-07-22
Flutter除錯
基於AI的英語學習應用WordUp推出"幻想聊天"功能
2023-03-24
AI
PODsys：大模型AI算力平臺部署的開源“神器”
2023-11-13
大模型AI
PODsys：大模型AI算力平臺部署的開源"神器"
2023-11-07
大模型AI
新火種AI | 馬斯克的AI大模型來了！其他AI不能回答的問題，它能回答嗎？
2023-11-11
AI馬斯克大模型
蔚來開啟國內最大規模城區智慧駕駛應用
2024-04-20
完全開源！快速上手 AI 理論及應用實戰來了
2021-08-02
AI
基於Flutter的仿微信聊天應用
2020-02-13
Flutter
100%國產的AI作業系統，現在開源了！還有個AI版的App Store
2021-06-24
AI作業系統APP
大語言模型中的MoE
2024-11-30
模型
全球首個開放應用模型 OAM 開源
2019-10-22
模型
Springboot --- 使用國內的 AI 大模型對話
2024-10-12
Spring BootAI大模型
人工智慧大模型之開源大語言模型彙總（國內外開源專案模型彙總）
2024-06-21
人工智慧大模型
首批開源超300個頂尖模型：這幾家中國「AI主力軍」，合力打造了一個AI模型社群「魔搭」
2022-11-04
模型AI
聊天室應用開發實踐（二）：實現基於 Web 的聊天室
2019-04-10
Web
AI的未來是一個巨大的模型，還是多個specialized小模型
2024-05-28
AI模型Zed
第一個100%開源的MoE大模型，7B的引數，1B的推理成本
2024-09-05
大模型
基於 Vue3 開發的 Lumen IM 線上聊天應用
2023-11-19
Vue
基於 Vue2.0 開發的 Lumen IM 線上聊天應用
2020-12-30
Vue
國內首個自研MoE多模態大模型，揭秘騰訊混元多模態理解
2024-08-22
大模型
[資源]基於 Pytorch 的 TorchGAN開源了！
2018-12-30
PyTorch
引入長思維鏈！微信基於阿里千問大模型搞出個翻譯版o1
2024-12-26
阿里大模型
基於 swoole 的laravel 聊天平臺
2020-10-22
Laravel
開源專案：採用 Laravel 編寫的一個聊天應用 Laravel-Chat
2018-10-08
Laravel
本週open-interpreter等10個開源AI大模型
2024-03-31
AI大模型
他們掰開神經元，終於讓大模型9.8大於9.11了：神秘創業公司，開源AI「洗腦」工具
2024-10-24
大模型創業AI
基於 AI 大模型的精準測試分享
2024-04-23
AI大模型
國內首個短劇創作大模型開源了，一個人就能拍短劇，單卡80秒出大片
2025-02-18
大模型

國內最大MoE開源大模型來了，還基於此搞出個火遍港臺的AI聊天應用

相關文章