全球140+大模型全方位評測結果出爐，智源評測體系釋出

机器之心發表於2024-05-18

原文網址 : https://www.jiqizhixin.com/articles/2024-05-18-5

2024 年 5 月 17 日，智源研究院舉辦大模型評測釋出會，正式推出科學、權威、公正、開放的智源評測體系，釋出並解讀國內外 140 餘個開源和商業閉源的語言及多模態大模型全方位能力評測結果。

本次智源評測，分別從主觀、客觀兩個維度考察了語言模型的簡單理解、知識運用、推理能力、數學能力、程式碼能力、任務解決、安全與價值觀七大能力；針對多模態模型則主要評估了多模態理解和生成能力。

在中文語境下，國內頭部語言模型的綜合表現已接近國際一流水平，但存在能力發展不均衡的情況。在多模態理解圖文問答任務上，開閉源模型平分秋色，國產模型表現突出。國產多模態模型在中文語境下的文生圖能力與國際一流水平差距較小。多模態模型的文生影片能力上，對比各家公佈的演示影片長度和質量，Sora 有明顯優勢，其他開放評測的文生影片模型中，國產模型 PixVerse 表現優異。

由於安全與價值觀對齊是模型產業落地的關鍵，但海外模型與國內模型在該維度存在差異，因此語言模型主客觀評測的總體排名不計入該單項分數。語言模型主觀評測結果顯示，在中文語境下，位元組跳動豆包 Skylark2、OpenAI GPT-4 位居第一、第二，國產大模型更懂中國使用者。在語言模型客觀評測中，OpenAI GPT-4、百川智慧 Baichuan3 位列第一、第二。百度文心一言 4.0、智譜華章 GLM-4 和月之暗面 Kimi 均進入語言模型主客觀評測前五。

多模態理解模型客觀評測結果顯示，圖文問答方面，阿里巴巴通義 Qwen-vl-max 與上海人工智慧實驗室 InternVL-Chat-V1.5 先後領先於 OpenAI GPT-4，LLaVA-Next-Yi-34B 和上海人工智慧實驗室 Intern-XComposer2-VL-7B 緊隨其後。

多模態生成模型文生圖評測結果顯示，OpenAI DALL-E3 位列第一，智譜華章 CogView3、Meta-Imagine 分居第二、第三，百度文心一格、位元組跳動 doubao-Image 次之。多模態生成模型文生影片評測結果顯示，OpenAI Sora、Runway、愛詩科技 PixVerse、Pika、騰訊 VideoCrafter-V2 位列前五。

^{圖注：文生圖模型的客觀評測指標與主觀感受差異巨大，有失效的跡象，因此排名以主觀評測為準；Mdjourney 基本無法理解中文提示詞，因此排名靠後；僅使用其官方公佈的 prompts 和影片片段與其他模型生成的影片進行對比評測，評測結果存在一定的偏差。}

首次聯合權威教育機構進行大模型 K12 學科測試

當前，大模型的發展具備了通用性，在邏輯推理能力上有顯著提升，日趨接近人腦的特徵。因此，在海淀區教委支援下，智源研究院聯合與海淀區教師進修學校對齊學生測驗方式，考察大模型與人類學生的學科水平差異，其中，答案不唯一的主觀題，由海淀教師親自評卷。

智源評測發現，模型在綜合學科能力上與海淀學生平均水平仍有差距，普遍存在文強理弱的情況，並且對圖表的理解能力不足，大模型未來有很大的提升空間。

北京市海淀區教師進修學校校長姚守梅解讀大模型 K12 學科測試結果時指出，在語文、歷史等人文學科的考試中，模型欠缺對文字背後的文化內涵以及家國情懷的理解。面對歷史地理綜合題時，模型並不能像人類考生一樣有效識別學科屬性。相較於簡單的英語題，模型反而更擅長複雜的英語題。解理科題目時，模型會出現以超出年級知識範圍外的方法解題的情況。當出現無法理解的考題時，模型依然存在明顯的 “幻覺”。

系統化構建文生影片模型主觀評價體系

中國傳媒大學智慧媒體計算實驗室負責人史萍教授表示，相較文字，影片的主觀評價複雜度極高。自動化指標無法完全捕捉模型生成的質量，更無法對生成影片的真實性、圖文語義一致性等進行量化。因此，需要系統化構建針對文生影片模型的主觀評價體系。

該評價體系，由智源研究院與中國傳媒大學基於雙方在大模型評測領域和影片質量評價領域的豐富科研成果與實踐經驗共同建立，在圖文一致性、真實性、影片質量、美學質量四大方面給出多維度評分，為 AIGC 影片生成技術的應用及發展提供參考。

科學權威公正開放的智源評測體系

依託科技部 “人工智慧基礎模型支撐平臺與評測技術” 和工信部 “大模型公共服務平臺” 專案，智源研究院與 10 餘家高校和機構聯合開展大模型評測方法與工具研發。

2023 年 6 月，由智源研究院與多個高校團隊共建的 FlagEval 大模型評測平臺上線，迄今為止已完成了 1000 多次覆蓋全球多個開源大模型的評測，並持續釋出評測結果，廣泛地積累了國際領先的評測技術。

智源研究院牽頭成立了 IEEE 大模型評測標準小組 P3419，組織 20 餘家企業及學者參與大模型標準建設，同時作為《人工智慧預訓練模型評測指標與方法》國家標準草案的共建單位，智源此次的模型評測，借鑑了該標準，採取了客觀評測統一規則與主觀評測多重校驗打分相結合的方法。其中，開源模型採用模型釋出方推薦的推理程式碼及執行環境，對所有模型統一使用業界通用的提示語，不針對模型做提示語的最佳化。

本次智源評測使用 20 餘個資料集、超 8 萬道考題，包括與合作單位共建和智源自建的多個評測資料集，如中文多模態多題型理解及推理評測資料集 CMMU、中文語義評測資料集 C-SEM、中文語言及認知主觀評測集 CLCC、面向複雜演算法程式碼生成任務的評測集 TACO、文生圖主觀評測集 Image-gen、多語言文生圖質量評測資料集 MG18、文生影片模型主觀評測集 CUC T2V prompts。

其中，主觀題 4000 餘道，均來源於自建原創未公開並保持高頻迭代的主觀評測集，嚴格校準打分標準，採取多人獨立匿名評分、嚴格質檢與抽檢相結合的管理機制，降低主觀偏差的影響。此外，為了更準確地評測語言模型的各項能力，智源專門對所有客觀資料集的子資料集進行了能力標籤對映。

科學權威公正開放，是智源評測的最高綱領。智源研究院院長王仲遠表示，未來，智源將攜手生態合作伙伴繼續共建完善評測體系，促進模型效能的最佳化以及在多元複雜場景下的產業落地，推動大模型技術應用的有序發展。

智源釋出FlagEval「百模」評測結果，丈量模型生態變局
2024-12-20
模型
SecBench：首個網路安全大模型評測平臺釋出
2024-01-19
大模型
最新中文大模型測評出爐，騰訊混元居卓越領導者象限
2024-05-06
大模型
DeepSeek R1有沒有趕上OpenAI o1？八大場景測評結果出爐
2025-01-30
OpenAI
自緣身在最高層？OpenAI o1 pro競賽級評測結果新鮮出爐
2024-12-22
OpenAI
豆包大模型團隊釋出全新Detail Image Caption評估基準，提升VLM Caption評測可靠性
2024-07-15
大模型AIAPT
聊聊發版提測和釋出評審
2024-04-10
新鮮出爐：金亨泰《NIKKE：勝利女神》遊戲評測
2022-03-24
遊戲
大模型學習進階 5-大模型測評
2024-06-16
大模型
2018雲端計算開源產業大會將釋出四大報告、三項評估結果
2018-03-05
產業
一手實測結果出爐！智譜「超大杯」模型全家桶亮相KDD，部分任務超越GPT-4o
2024-08-30
模型GPT
NeurIPS 2019評審結果已出爐，21%接收率，你的Rebuttal成功了麼
2019-09-04
可信行業雲評估結果出爐雲端計算標準體系建設更進一步
2021-07-29
行業
多模態模型評測框架lmms-eval釋出！全面覆蓋，低成本，零汙染
2024-08-21
模型框架
蘋果釋出會最新訊息彙總與點評 2018蘋果新品釋出會前瞻
2018-09-05
蘋果
驍龍855超越麒麟980？手機晶片AI效能最新評測基準出爐
2019-02-13
晶片AI
國產大模型新高度！訊飛星火4.0釋出：整體超越GPT-4 Turbo，8個國際權威測試集測評第一
2024-06-28
大模型GPT
源1.0大模型登頂中文語言能力評測基準CUGE榜首
2022-06-09
大模型
軟體測評中心▏軟體產品測試的准入準出標準有哪些?
2022-11-16
【討論】用大模型評審測試用例？
2024-05-15
大模型
2020年CCF-綠盟科技“鯤鵬”科研基金評審結果釋出
2020-10-10
2021年CCF-綠盟科技“鯤鵬”科研基金評審結果釋出
2021-10-01
軟體體系結構課堂測試02– 架構評價
2024-03-27
架構
【測試】HD-G2L-IO評估板測試結果表
2023-03-08
AIIA 公佈首輪AI晶片基準評測結果
2019-03-07
AI晶片
電子政務系統軟體評測
2022-08-30
IDC釋出：2019年全球智慧城市十大預測
2019-01-31
第八屆“金鬆獎”評選結果出爐，平安銀行榮獲最佳金融科技安全獎
2022-02-23
5個效能測試工具哪個更好用？對比結果新鮮出爐！
2020-07-14
華為開源映象站體驗評測報告
2019-01-28
測評 | 家佳保二代測評
2019-02-22
測試釋出
2021-12-06
評測姬
2024-04-09
哪款安卓手機適合跑AI？移動端晶片效能評測論文出爐
2018-10-09
安卓AI晶片
寫SAE評測，獲 Airpods 2大獎【集結令】！
2023-09-25
AI
資訊系統效能評測
2022-08-30
2021可信雲評估結果釋出白皮書解讀雲端計算六大發展趨勢
2021-07-30
實時語音互動中文基準首期測評出爐；美取消 SB-1047 法案，大模型廠商大難不死丨 RTE 開發者日報
2024-09-30
大模型開發者日報

全球140+大模型全方位評測結果出爐，智源評測體系釋出

相關文章