智源釋出FlagEval「百模」評測結果,丈量模型生態變局
机器之心發表於2024-12-20
2024 年 12 月 19 日,智源研究院釋出並解讀國內外 100 餘個開源和商業閉源的語言、視覺語言、文生圖、文生影片、語音語言大模型綜合及專項評測結果。相較於今年 5 月的模型能力全方位評估,本次智源評測擴充套件、豐富、細化了任務解決能力內涵,新增了資料處理、高階程式設計和工具呼叫的相關能力與任務;首次增加了面向真實金融量化交易場景的應用能力評估,測量大模型的收益最佳化和效能最佳化等能力;首次探索基於模型辯論的對比評估方式,對模型的邏輯推理、觀點理解、語言表達等核心能力進行深入分析。智源評測發現,2024 年下半年大模型發展更聚焦綜合能力提升與實際應用。多模態模型發展迅速,湧現了不少新的廠商與新模型,語言模型發展相對放緩。模型開源生態中,除了持續堅定開源的海內外機構,還出現了新的開源貢獻者。語言模型,針對一般中文場景的開放式問答或者生成任務,模型能力已趨於飽和穩定,但是複雜場景任務的表現,國內頭部語言模型仍然與國際一流水平存在顯著差距。語言模型主觀評測重點考察模型中文能力,結果顯示位元組跳動 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022 位列第三、第四,阿里巴巴 Qwen-Max-0919 排名第五;在語言模型客觀評測中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴 Qwen-max-0919、位元組跳動 Doubao-pro-32k-preview 位居第三、第四,Meta Llama-3.3-70B-Instruct 排名前五。視覺語言多模態模型,雖然開源模型架構趨同(語言塔 + 視覺塔),但表現不一,其中較好的開源模型在圖文理解任務上正在縮小與頭部閉源模型的能力差距,而長尾視覺知識與文字識別以及複雜圖文資料分析能力仍有提升空間。評測結果顯示,OpenAI GPT-4o-2024-11-20 與位元組跳動 Doubao-Pro-Vision-32k-241028 先後領先於 Anthropic Claude-3-5-sonnet-20241022,阿里巴巴 Qwen2-VL-72B-Instruct 和 Google Gemini-1.5-Pro 緊隨其後。文生圖多模態模型,今年上半年參評的模型普遍無法生成正確的中文文字,但此次參評的頭部模型已經具備中文文字生成能力,但整體普遍存在複雜場景人物變形的情況,針對常識或知識性推理任務,小於 3 的數量關係任務表現有所提升,大於 3 的數量關係依然無法處理,涉及中國文化和古詩詞理解的場景對於模型而言是不小的挑戰。評測結果顯示,騰訊 Hunyuan Image 位列第一,位元組跳動 Doubao image v2.1、Ideogram 2.0 分居第二、第三,OpenAI DALL・E 3、快手可圖次之。文生影片多模態模型,畫質進一步提升,動態性更強,鏡頭語言更豐富,專場更流暢,但普遍存在大幅度動作變形,無法理解物理規律,物體消失、閃現、穿模的情況。評測結果顯示,快手可靈 1.5(高品質)、位元組跳動即夢 P2.0 pro、愛詩科技 PixVerse V3、Minimax 海螺 AI、Pika 1.5 位列前五。語音語言模型,得益於文字大模型的進步,能力提升巨大,覆蓋面更全,但在具體任務上與專家模型還存在一定差距,整體而言,效能好、通用能力強的開源語音語言模型偏少。專項評測結果顯示,阿里巴巴 Qwen2-Audio 位居第一,香港中文大學 & 微軟 WavLLM、清華大學 & 位元組跳動 Salmon 位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU 均進入前五。本次評測,智源研究院再次聯合與海淀區教師進修學校新編了 K12 全學段、多學科試卷,進一步考察大模型與人類學生的能力差異,其中,答案不唯一的主觀題依然由海淀教師親自評卷。得益於多模態能力的帶動發展,模型本次 K12 學科測驗綜合得分相較於半年前提升了 12.86%,但是仍與海淀學生平均水平存在差距;在英語和歷史文科試題的表現上,已有模型超越了人類考生的平均分;模型普遍存在 「文強理弱」的偏科情況。FlagEval 大模型角鬥場,是智源研究院今年 9 月推出的面向使用者開放的模型對戰評測服務,以反映使用者對模型的偏好。目前,FlagEval 覆蓋國內外約 50 款大模型,支援語言問答、多模態圖文理解、文生圖、文生影片四大任務的自定義線上或離線盲測。此次評測,共有 29 個語言模型、16 個圖文問答多模態模型、7 個文生圖模型、14 個文生影片模型參評。評測發現,使用者對模型的響應時間有更高要求,對模型輸出的內容傾向於更結構化、標準化的格式。作為模型對戰評測服務 FlagEval 大模型角鬥場的延展,今年 10 月智源研究院推出了模型辯論平臺 FlagEval Debate,對模型的邏輯推理、觀點理解以及語言表達等核心能力進行深入評估,以甄別語言模型的能力差異。本次評測發現,大模型普遍缺乏辯論框架意識,不具備對辯題以整體邏輯進行綜合闡述;大模型在辯論中依然存在「幻覺問題」,論據經不起推敲;大模型更擅長反駁,各個模型表現突出的辯論維度趨同,在不同的辯題中,模型表現差距顯著。FlagEval Debate 評測結果表明,Anthropic Claude-3-5-sonnet-20241022、零一萬物 Yi-Lighting、OpenAI o1-preview-2024-09-12 為前三名。此次評測,智源研究院探索了基於實際應用場景的全新方法,透過評測模型的量化程式碼實現能力,探索模型在金融量化交易領域的潛在應用能力和商業價值。評測發現,大模型已經具備生成有回撤收益的策略程式碼的能力,能開發量化交易典型場景裡的程式碼;在知識問答方面,模型整體差異較小,整體分數偏高,但在實際程式碼生成任務上,模型差異較大,整體能力偏弱;頭部模型能力已接近初級量化交易員的水平。金融量化交易評測結果顯示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。本次評測依託智源研究院自 2023 年 6 月上線的大模型評測平臺 FlagEval,經過數次迭代,目前已覆蓋全球 800 多個開閉源模型,包含 20 多種任務,90 多個評測資料集,超 200 萬條評測題目。在評測方法與工具上,智源研究院聯合全國 10 餘家高校和機構合作共建,探索基於 AI 的輔助評測模型 FlagJudge 和靈活全面的多模態評測框架 FlagEvalMM,並構建面向大模型新能力的有挑戰的評測集,包括與北京大學共建的 HalluDial 幻覺評測集、與北師大共建的 CMMU 多模態評測集、多語言跨模態評測集 MG18、複雜程式碼評測集 TACO 以及長影片理解評測 MLVU 等,其中與北京大學共建的 HalluDial 是目前全球規模最大的對話場景下的幻覺評測集,有 18000 多個輪次對話,和 14 萬多個回答。 為規避資料集洩露風險以及資料集飽和度問題,本次評測吸納了近期釋出的資料集並持續動態更新評測資料,替換了 98% 的題目,並提升了題目的難度。智源研究院副院長兼總工程師林詠華在評測釋出會上表示,FlagEval 評測體系一直堅守科學、權威、公正、開放的準則,透過技術方法平臺持續創新,打造丈量模型能力的標尺,為大模型技術生態發展提供洞察。2025 年,FlagEval 評測體系的發展將進一步探索動態評測與多工能力評估體系,以評測為標尺感知大模型的發展趨勢。