豆包大模型披露評測成績，較上一代“雲雀”提升19%

新闻助手發表於2024-05-24

原文網址 : https://www.jiqizhixin.com/articles/2024-05-24-11

近日，豆包大模型在火山引擎原動力大會上正式釋出。以超低價格掀起大模型降價潮的同時，豆包的模型能力也引發行業關注。

在火山引擎的一份產品資料中，豆包模型團隊公佈了一期內部測試結果：在 MMLU、BBH、GSM8K、HumanEval等11個業界主流的公開評測集上，Doubao-pro-4k 的總分為76.8分，相比上一代模型雲雀Skylark2 的64.5分提升了19%，也優於同期測試的其他國產模型。

此次評測在今年5月完成，主要包括豆包通用模型-pro、雲雀Skylark2 在內的九款國產大語言模型。除了雲雀Skylark2 以外，其他模型均為各家廠商最新發布的高階版本，透過API呼叫進行測試。

豆包大模型披露評測成績，較上一代“雲雀”提升19%

圖：豆包模型團隊內部測試結果

評測結果顯示，在評估程式碼能力的兩個評測集 HumanEval 和 MBPP 上，豆包相比上一代模型提升了50%左右；在專業知識和指令遵循的評測集上，豆包分別獲得33%和24%的效能提升，同時也是得分最高的國產模型。

此外，豆包模型在數學能力、語言理解能力，以及綜合評測集 CMMLU 和 CEval 的評測上也有不錯的表現，得分排在前三。綜合11個公開評測集上的測試成績，豆包通用模型-pro的總分為76.8分。根據OpenAI公佈的測試成績，GPT-4在這些評測集上的總分為80.1分，相比國產模型仍有一定領先優勢。

據悉，豆包模型在5月15日剛剛推出，尚未加入到第三方機構測試中。預計未來一到兩個月內，很多第三方評測機構將會陸續披露該模型的評測結果。與模型同名的AI對話助手“豆包”，官方公佈的月活使用者數已經達到2600萬，使用者可以自由體驗測試。

此前，智源研究院公佈了覆蓋全球91個語言模型的評測報告。在偏重考察中文能力的主觀評測中，雲雀Skylark2 排名第一，中文能力超過 GPT-4。

豆包大模型披露評測成績，較上一代“雲雀”提升19%

圖：智源研究院語言模型評測結果（模型為4月20日之前的版本）

豆包大模型團隊釋出全新Detail Image Caption評估基準，提升VLM Caption評測可靠性
2024-07-15
大模型AIAPT
將大模型能力融入 7 大產品，百度智慧雲交出「企業大模型應用成績單」
2024-03-27
大模型
大模型學習進階 5-大模型測評
2024-06-16
大模型
豆包大模型團隊開源RLHF框架，訓練吞吐量最高提升20倍
2024-11-01
大模型框架
豆包大模型披露2024技術進展，亮相7個月綜合能力全面對齊GPT-4o
2024-12-30
大模型GPT
SOLIDWORKS提升 SAE賽車隊成績
2023-03-03
Solid
大模型時代的ASR就是不一樣！豆包“聽力”水平現場評測，方言&小朋友口音直接拿捏！
2024-08-22
大模型
AI 程式設計助手測評：GitHub Copilot vs 豆包 MarsCode
2024-07-03
AI程式設計Github
python運用——成績等級評定
2020-12-07
Python
有贊新零售首度披露獨立後成績單KDZ
2022-03-19
GUI成績檢測程式碼
2020-09-28
GUI
L2-015 互評成績【模擬】
2019-03-27
大模型的高考數學成績單：及格已經非常好了
2024-06-11
大模型
火山引擎釋出豆包大模型文旅解決方案
2024-08-15
大模型
【討論】用大模型評審測試用例？
2024-05-15
大模型
豆包大模型日均Tokens使用量破5000億，模型家族再升級
2024-07-25
大模型
PAT乙級比賽-互評成績計算
2020-10-16
如何用CRM軟體系統提升銷售成績
2023-09-21
大模型價格進入“釐”時代，豆包大模型定價每千tokens僅0.8釐
2024-05-15
大模型
TUV 南德解析如何透過高質量資訊披露提升ESG評級
2022-08-10
PAT-B 1077 互評成績計算【模擬】
2019-02-26
PAT1077互評成績計算(java實現)
2019-01-23
Java
兩家頭部消金公司業績披露
2023-03-31
UOJ #514. 【UR #19】通用測評號
2024-04-04
全球140+大模型全方位評測結果出爐，智源評測體系釋出
2024-05-18
大模型
大模型如何提升訓練效率
2024-07-08
大模型
Intel酷睿i7-8086K評測:更高超頻成績和更好的穩定性
2018-06-28
Intel
SecBench：首個網路安全大模型評測平臺釋出
2024-01-19
大模型
成績單
2018-08-15
如何評估大語言模型
2023-03-29
模型
尤大親自評測 Vue3 和 Svelte(19個元件後Vue更好!)
2021-07-12
Vue元件
豆包大模型再造爆款：抖音“AI繪本特效”播放超11億
2024-10-11
大模型AI特效
聯想與火山引擎官宣合作，為AI桌面助手接入豆包大模型
2024-12-27
AI大模型
【2018可信雲大會】CTO袁國成：HTTPS網站安全評估與監測告警解決方案
2018-08-29
HTTP網站
免費！國產大模型程式設計助手豆包MarsCode重磅上線，還有登入即用的雲端IDE
2024-07-02
大模型程式設計IDE
手搓大模型Task04：如果評估你的大模型
2024-10-02
大模型
火山引擎釋出大模型訓練影片預處理方案，已應用於豆包影片生成模型
2024-10-15
大模型
TechEmpower 22輪Web框架效能評測：.NET 8 戰績斐然
2023-11-13
Web框架

豆包大模型披露評測成績，較上一代“雲雀”提升19%

相關文章