多模態模型評測框架lmms-eval釋出!全面覆蓋,低成本,零汙染

机器之心發表於2024-08-21
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

隨著大模型研究的深入,如何將其推廣到更多的模態上已經成為了學術界和產業界的熱點。最近釋出的閉源大模型如 GPT-4o、Claude 3.5 等都已經具備了超強的影像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等開源領域模型也展現出了越來越接近閉源的效能。

在這個「畝產八萬斤」,「10 天一個 SoTA」的時代,簡單易用、標準透明、可復現的多模態評估框架變得越來越重要,而這並非易事。

為解決以上問題,來自南洋理工大學 LMMs-Lab 的研究人員聯合開源了 LMMs-Eval,這是一個專為多模態大型模型設計的評估框架,為多模態模型(LMMs)的評測提供了一站式、高效的解決方案。

圖片

  • 程式碼倉庫: https://github.com/EvolvingLMMs-Lab/lmms-eval

  • 官方主頁: https://lmms-lab.github.io/

  • 論文地址: https://arxiv.org/abs/2407.12772

  • 榜單地址:https://huggingface.co/spaces/lmms-lab/LiveBench

自 2024 年 3 月釋出以來, LMMs-Eval 框架已經收到了來自開源社群、公司和高校等多方的協作貢獻。現已在 Github 上獲得 1.1K Stars,超過 30+ contributors,總計包含 80 多個資料集和 10 多個模型,並且還在持續增加中。

圖片

標準化測評框架

為了提供一個標準化的測評平臺,LMMs-Eval 包含了以下特性:

  1. 統一介面: LMMs-Eval 在文字測評框架 lm-evaluation-harness 的基礎上進行了改進和擴充套件,透過定義模型、資料集和評估指標的統一介面,方便了使用者自行新增新的多模態模型和資料集。

  2. 一鍵式啟動:LMMs-Eval 在 HuggingFace 上託管了 80 多個(且數量不斷增加)資料集,這些資料集精心從原始來源轉換而來,包括所有變體、版本和分割。使用者無需進行任何準備,只需一條命令,多個資料集和模型將被自動下載並測試,等待幾分鐘時間即可獲得結果。

  3. 透明可復現:LMMs-Eval 內建了統一的 logging 工具,模型回答的每一題以及正確與否都會被記錄下來, 保證了可復現性和透明性。同時也方便比較不同模型的優勢與缺陷。

LMMs-Eval 的願景是未來的多模態模型不再需要自行編寫資料處理、推理以及提交程式碼。在當今多模態測試集高度集中的環境下,這種做法既不現實,測得的分數也難以與其他模型直接對比。透過接入 LMMs-Eval,模型訓練者可以將更多精力集中在模型本身的改進和最佳化上,而不是在評測和對齊結果上耗費時間。

評測的「不可能三角」

LMMs-Eval 的最終目標是找到一種 1. 覆蓋廣 2. 成本低 3. 零資料洩露 的方法來評估 LMMs。然而,即使有了 LMMs-Eval,作者團隊發現想同時做到這三點困難重重,甚至是不可能的。

如下圖所示,當他們將評估資料集擴充套件到 50 多個時,執行這些資料集的全面評估變得非常耗時。此外,這些基準在訓練期間也容易受到汙染的影響。為此, LMMs-Eval 提出了 LMMs-Eval-Lite 來兼顧廣覆蓋和低成本。他們也設計了 LiveBench 來做到低成本和零資料洩露。

圖片

LMMs-Eval-Lite: 廣覆蓋輕量級評估

圖片

在評測大模型時,往往龐大的引數量和測試任務會使得評測任務的時間和成本急劇上升,因此大家往往會選擇使用較小的資料集或是使用特定的資料集進行評測。然而,有限的評測往往會使得對於模型能力的理解有所缺失,為了同時兼顧評測的多樣性和評測的成本,LMMs-Eval 推出了 LMMs-Eval-Lite

圖片

LMMs-Eval-Lite 旨在構建一個簡化的基準測試集,以在模型開發過程中提供有用且快速的訊號,從而避免現在測試的臃腫問題。如果我們能夠找到現有測試集的一個子集,在這上面的模型之間的絕對分數和相對排名與全集保持相似,那麼我們可以認為修剪這些資料集是安全的。

為了找到資料集中的資料顯著點,LMMs-Eval 首先使用 CLIP 和 BGE 模型將多模態評測資料集轉換為向量嵌入的形式並使用 k-greedy 聚類的方法找到了資料顯著點。在測試中,這些規模較小的資料集仍然展現出與全集相似的評測能力。

圖片

隨後 LMMs-Eval 使用了相同的方法制作了涵蓋更多資料集的 Lite 版本,這些資料集旨在幫助人們節省開發中的評測成本,以便快速判斷模型效能

圖片

LiveBench: LMMs 動態測試

傳統基準側重於使用固定問題和答案的靜態評估。隨著多模態研究的進展,開源模型在分數比較往往優於商用模型,如 GPT-4V,但在實際使用者體驗中卻有所不及。動態的、使用者導向的 Chatbot Arenas 和 WildVision 在模型評估中越來越受歡迎,但是它們需要收整合千上萬的使用者偏好,評估成本極高。

LiveBench 的核心思想是在一個不斷更新的資料集上評估模型的效能,以實現零汙染且保持低成本。作者團隊從網路上收集評估資料,並構建了一條 pipeline,自動從新聞和社群論壇等網站收集最新的全球資訊。為了確保資訊的及時性和真實性,作者團隊從包括 CNN、BBC、日本朝日新聞和中國新華社等 60 多個新聞媒體,以及 Reddit 等論壇中選擇來源。具體步驟如下:

  1. 捕捉主頁截圖並去除廣告和非新聞元素。

  2. 使用當前最強大的多模態模型(如 GPT4-V、Claude-3-Opus 和 Gemini-1.5-Pro)設計問題和答案集。由另一模型審查和修訂

  3. 問題,確保準確性和相關性。

  4. 人工審查最終的問答集,每月收集約 500 個問題,保留 100-300 個作為最終的 \livebench 問題集。

  5. 採用 LLaVA-Wilder 和 Vibe-Eval 的評分標準 -- 評分模型根據提供的標準答案評分,得分範圍為 [1, 10]。預設評分模型為 GPT-4o,還包括 Claude-3-Opus 和 Gemini 1.5 Pro 作為備選。最終的報告結果將基於得分轉換為 0 到 100 的準確率指標。

圖片

未來也可以在我們動態更新的榜單裡檢視多模態模型在每個月動態更新的最新評測資料,以及在榜單上的最新評測的結果。

相關文章