最新中文大模型測評出爐,騰訊混元居卓越領導者象限

新闻助手發表於2024-05-06

5月6日 記者獲悉,國內權威的大模型評測機構SuperCLUE最新發布了《中文大模型基準測評2024年度4月報告》。其中,騰訊混元大模型位列國內大模型第一梯隊,在基礎和場景應用上均處於領先位置,位於卓越領導者象限。

最新中文大模型測評出爐,騰訊混元居卓越領導者象限

SuperCLUE是國內權威的通用大模型綜合性測評基準,其前身是知名的第三方中文語言理解測評基準CLUE(The Chinese Language Understanding Evaluation)。SuperCLUE基於通用大模型在學術、產業與使用者側的廣泛應用,構建了多層次、多維度的綜合性測評基準,由十大基礎任務組成,包括邏輯推理、程式碼、語言理解、長文字、角色扮演等。

本次報告選取了國內外具有代表性的32個大模型4月份的版本,透過多維度綜合性測評,真實準確地反映了國內外大模型在中文領域的綜合能力和發展現狀。測評報告的總分排名上,騰訊混元大模型位列前三,體現了領先的模型實力。 最新中文大模型測評出爐,騰訊混元居卓越領導者象限

在十大能力得分中,騰訊混元大模型的各項能力較為均衡,在語義理解能力上,以75.4的高分排名國內第一;在角色扮演、安全能力、計算、邏輯推理、工具使用、長文字能力上,也均處於位於國內一流水平。

最新中文大模型測評出爐,騰訊混元居卓越領導者象限

整體來看,國內大模型的第一梯隊已達到或接近國際一流的水平,其中既有騰訊混元、文心一言、通義千問等來自大廠的大模型,也有GLM-4、Baichuan3、Moonshot和Minimax等大模型創業公司的代表。

最新中文大模型測評出爐,騰訊混元居卓越領導者象限

據瞭解,混元大模型作為騰訊基於全鏈路自主可控技術打造的實用級大模型,自2023年9月首次亮相以來,透過持續迭代和實踐,積累了從底層算力到機器學習平臺再到上層應用的完整自主技術。

算力上,騰訊擁有自研的星脈高效能運算網路,可為AI大模型帶來10倍通訊效能提升;訓練和推理框架上,騰訊自研的機器學習平臺訓練速度是主流框架的2.6倍,大模型推理成本相比業界主流框架下降70%;演算法上,騰訊混元大模型率先採用混合專家模型 (MoE) 結構,模型總體效果相比上代模型提升50%。

最近,騰訊聯合北京大學、北京科技大學共同完成的研究《面向大規模資料的Angel機器學習平臺關鍵技術及應用》,也斬獲2023中國電子學會科學技術獎一等獎,體現了騰訊深厚的自研技術積累。

在應用上,騰訊混元大模型已經支援了騰訊內部超過400個業務和場景接入,騰訊旗下協作SaaS產品全面接入混元,並實現了智慧化升級。騰訊混元也已經透過騰訊雲面向企業和個人開發者全面開放。

目前,騰訊混元大模型引數量超過萬億,tokens數超過7萬億。此前國際權威調研機構沙利文釋出的《2024年中國大模型能力評測》顯示,騰訊混元在通用基礎能力和專業應用能力已居國內第一梯隊。

相關文章