近日,豆包大模型在火山引擎原動力大會上正式釋出。以超低價格掀起大模型降價潮的同時,豆包的模型能力也引發行業關注。
在火山引擎的一份產品資料中,豆包模型團隊公佈了一期內部測試結果:在 MMLU、BBH、GSM8K、HumanEval等11個業界主流的公開評測集上,Doubao-pro-4k 的總分為76.8分,相比上一代模型雲雀Skylark2 的64.5分提升了19%,也優於同期測試的其他國產模型。
此次評測在今年5月完成,主要包括豆包通用模型-pro、雲雀Skylark2 在內的九款國產大語言模型。除了雲雀Skylark2 以外,其他模型均為各家廠商最新發布的高階版本,透過API呼叫進行測試。
圖:豆包模型團隊內部測試結果
評測結果顯示,在評估程式碼能力的兩個評測集 HumanEval 和 MBPP 上,豆包相比上一代模型提升了50%左右;在專業知識和指令遵循的評測集上,豆包分別獲得33%和24%的效能提升,同時也是得分最高的國產模型。
此外,豆包模型在數學能力、語言理解能力,以及綜合評測集 CMMLU 和 CEval 的評測上也有不錯的表現,得分排在前三。綜合11個公開評測集上的測試成績,豆包通用模型-pro的總分為76.8分。根據OpenAI公佈的測試成績,GPT-4在這些評測集上的總分為80.1分,相比國產模型仍有一定領先優勢。
據悉,豆包模型在5月15日剛剛推出,尚未加入到第三方機構測試中。預計未來一到兩個月內,很多第三方評測機構將會陸續披露該模型的評測結果。與模型同名的AI對話助手“豆包”,官方公佈的月活使用者數已經達到2600萬,使用者可以自由體驗測試。
此前,智源研究院公佈了覆蓋全球91個語言模型的評測報告。在偏重考察中文能力的主觀評測中,雲雀Skylark2 排名第一,中文能力超過 GPT-4。
圖:智源研究院語言模型評測結果(模型為4月20日之前的版本)