摘要
評估和比較大語言模型 (LLMs) 是一項艱鉅的任務。我們 RLHF 團隊在一年前就意識到了這一點,當時他們試圖復現和比較多個已釋出模型的結果。這幾乎是不可能完成的任務:論文或營銷釋出中的得分缺乏可復現的程式碼,有時令人懷疑,大多數情況下只是透過最佳化的提示或評估設定來儘量提升模型表現。因此,他們決定建立一個地方,在完全相同的設定(同樣的問題,按相同的順序提問等)下評估參考模型,從而收集完全可復現和可比較的結果;Open LLM Leaderboard 就這樣的背景下發布啦!
在一系列高調的模型釋出後,它成為了機器學習社群及更廣泛領域內的廣泛資源,過去 10 個月中有超過 200 萬的獨立訪問者。
每月約有 30 萬社群成員透過提交和討論使用這個平臺,通常是為了:
- 尋找最先進的開源釋出,因為排行榜提供了可復現的得分,區分了營銷炒作與實際進展。
- 評估他們的工作,無論是預訓練還是微調,公開比較方法並與最佳現有模型進行比較,並獲得公眾認可。
然而,隨著排行榜的成功以及模型效能的不斷提升,也帶來了挑戰。經過一年多的激烈使用和大量社群反饋後,我們認為是時候進行升級了!因此,我們推出了 Open LLM Leaderboard v2!
以下是我們認為需要新排行榜的原因👇
為什麼需要更具挑戰性的排行榜
在過去的一年裡,我們使用的基準測試已經被過度使用和飽和:
- 它們對模型來說變得太容易。例如,模型現在在 HellaSwag、MMLU 和 ARC 上達到了人類基準效能,這種現象被稱為飽和。
- 一些較新的模型也表現出汙染的跡象。這意味著這些模型可能在基準資料或與基準資料非常相似的資料上進行訓練。因此,一些得分不再反映模型的一般效能,而是開始在某些評估資料集上過擬合,而不是反映所測試任務的一般效能。特別是 GSM8K 和 TruthfulQA,已包含在一些指令微調集中。
- 一些基準測試包含錯誤。例如,最近多個研究團隊對 MMLU 進行了深入調查(見 MMLU-Redux 和 MMLU-Pro),發現了其響應中的錯誤並提出了新版本。另一個例子是 GSM8K 使用了特定的生成結束標記(:),這不公平地降低了許多冗長模型的表現。
因此,我們決定完全更換 Open LLM Leaderboard v2 的評估!
重新選擇我們的評估標準
我們開始尋找具有未汙染、高質量資料集,使用可靠指標並測量模型關鍵能力的新基準測試。
我們決定涵蓋以下一般任務:知識測試(📚)、短期和長期上下文推理(💭)、複雜數學能力以及與人類偏好高度相關的任務(🤝),如指令遵循。
我們使用六個基準測試來涵蓋這些任務。讓我們簡要介紹它們:
📚 MMLU-Pro(大規模多工語言理解 - 專業版,論文)。MMLU-Pro 是 MMLU 資料集的改進版本。MMLU 一直是多選知識資料集的參考。然而,最近的研究表明它既包含噪音(一些問題無法回答),又太容易(透過模型能力的進化和汙染的增加)。MMLU-Pro 向模型提供十個選擇而不是四個,要求在更多問題上進行推理,並經過專家審查以減少噪音量。它比原版質量更高且更難。
📚 GPQA(研究生級別的谷歌問答基準,論文)。GPQA 是一個極其困難的知識資料集,其中問題由領域專家(生物學、物理學、化學等領域的博士水平)設計,使得外行人難以回答但專家相對容易。問題經過多輪驗證,以確保難度和準確性。資料集也只能透過閘道器機制訪問,這減少了汙染風險。(這也是為什麼我們不提供來自此資料集的純文字示例的原因,正如論文作者要求的那樣)。
💭 MuSR(多步軟推理,論文)。MuSR 是一個非常有趣的新資料集,由演算法生成的複雜問題組成,長度約為1000字。問題包括謀殺之謎、物體放置問題或團隊分配最佳化。為了解決這些問題,模型必須結合推理和非常長的上下文解析。很少有模型得分高於隨機水平。
🧮 MATH(數學啟發式測試,5級子集,論文)。MATH 是一個由多個來源收集的高中級別競賽問題的彙編,使用 Latex 一致地格式化方程和 Asymptote 格式化圖形。生成的答案必須嚴格遵循特定的輸出格式。我們只保留最難的問題。
🤝 IFEval(指令遵循評估,論文)。IFEval 是一個相當有趣的資料集,測試模型清晰遵循明確指令的能力,例如“包括關鍵詞 x”或“使用格式 y”。模型被測試是否能夠嚴格遵循格式指令,而不是實際生成的內容,從而可以使用嚴格的指標。
🧮 🤝 BBH(大基準測試難題,論文)。BBH 是 BigBench 資料集中 23 個具有挑戰性的任務的子集,其中 1)使用客觀指標,2)難度高,測量為語言模型未能超越人類基線,3)包含足夠多的樣本以具有統計顯著性。它們包含多步算術和演算法推理(理解布林表示式、幾何圖形的 SVG 等)、語言理解(諷刺檢測、名稱消歧等)和一些世界知識。BBH 的表現平均與人類偏好高度相關。我們期望這個資料集能夠提供對特定能力的有趣見解,吸引人們的興趣。
為什麼我們選擇這些子集?
總的來說,我們的選擇標準是:
- 評估質量:
- 資料集的人工審查:MMLU-Pro 和 GPQA
- 學術界和開源社群的廣泛使用:BBH、IFEval、MATH
- 指標的可靠性和公平性:
- 多選評估在模型之間通常是公平的。
- 生成性評估應嚴格限制格式(如 MATH),或使用非常明確的指標(如 IFEval)或後處理(如 BBH)來提取正確答案。
- 模型汙染的一般缺失:
- 閘道器機制:GPQA
- “年輕”:MuSR、MMLU-Pro
- 測量社群感興趣的模型技能:
- 與人類偏好相關:BBH、IFEval
- 評估我們感興趣的特定能力:MATH、MuSR
選擇新的基準測試並不是全部。我們還對排行榜進行了幾項其他改進,現在我們將簡要介紹。
報告更公平的排名平均值:使用標準化分數
我們決定改變模型的最終得分。我們沒有將每個基準輸出得分相加,而是將這些得分標準化在隨機基線(0 分)和最大可能得分(100 分)之間。然後我們平均所有標準化分數以獲得最終平均得分並計算最終排名。例如,在一個每個問題包含兩個選擇的基準測試中,隨機基線將獲得 50 分(滿分 100 分)。如果使用隨機數生成器,您可能會在此評估中獲得約 50 分。這意味著得分始終在 50(如果基準不是對抗性的最低合理得分)和 100 之間。因此,我們更改範圍,使得 50 的原始分數為 0 的標準化分數。這對生成性評估如 IFEval 或 MATH 沒有影響。
這個變化比看起來更重要,因為它可以看作是改變了每個基準在最終平均分中的權重。
在上圖中,我們繪製了評估的平均得分,左側為標準化得分,右側為原始得分。如果看右側,您會得出 MATH 5 級和 MMLU-Pro 是最難的基準(原始平均值最低)。然而,我們的兩個最難評估實際上是 MATH 5 級和 GPQA,它們難得多(博士水平的問題!)——今天的大多數模型在它上面接近隨機效能,因此在未標準化得分和標準化得分之間存在巨大差異,隨機數基線得分為零分!
因此,這個變化也影響了整體模型排名。假設我們有兩個非常難的評估,一個生成性和一個多選題,有兩個選項樣本。模型 A 在生成性評估中得 0 分,在多選題中得 52 分,模型 B 在生成性評估中得 10 分,在多選題中得 40 分。看原始平均值,您可能會得出模型 A 更好的結論,平均得分為 26,而模型 B 的平均得分為 25。然而,對於多選題基準,他們實際上都同樣差(!):52 幾乎是多選題評估中的隨機分數,40 是不幸的隨機分數。當取標準化得分時,A 得 0 分,而 B 得約 1 分。然而,在生成性評估中,模型 B 比 A 高出 10 分!如果我們取標準化平均值,B 的得分為 5,而 A 幾乎為 0,因此排名非常不同。
更容易的可復現性:更新評估套件
一年前,我們選擇使用 EleutherAI 的 Harness(lm-eval)來進行我們的評估。它為多個任務提供了標準和穩定的實現。為了確保公平和可復現性,我們固定了所使用的版本。這使我們能夠在完全相同的設定下比較所有模型,因為所有評估都是以完全相同的方式執行的,在相同的硬體上,使用相同的評估套件提交和引數。
然而隨著lm-eval
的更新,某些任務或指標的實現發生了變化,這導致 1)人們在更近期版本的 harness 上獲得的評估結果和 2)我們使用固定版本的結果之間出現了差異。
對於新版的 Open LLM Leaderboard,我們與 EleutherAI 團隊(尤其感謝 Hailey Schoelkopf)合作更新了 harness。
在功能方面,我們新增了對 delta 權重(LoRA 微調/模型適配)的支援、與排行榜相容的日誌系統以及高度請求的使用聊天模板進行評估。
在任務方面,我們花了幾周時間手動檢查所有實現和生成結果,修復了我們觀察到的問題,如不一致的少樣本樣本、過於嚴格的句子結束標記等。我們為
排行榜任務實現建立了特定的配置檔案,並正在新增一個測試套件,以確保評估結果隨時間保持不變。
你可以在這裡探索我們使用的視覺化工具!
這將使我們能夠保持版本的更新,以便將來新增新功能!
關於排行榜後端和指標已經說了很多。現在,讓我們轉向模型和模型選擇/提交。
維護者推薦介紹
在過去的一年裡,我們評估了超過 7500 個模型,觀察到許多模型並沒有被社群廣泛使用。
最常用的通常是新的基礎預訓練模型,通常使用大量計算資源構建,社群可以隨後進行微調以適應其用例(如 Meta 的 Llama3 或阿里巴巴的 Qwen2)。一些高質量的聊天或指令模型找到了一個龐大的使用者社群,如 Cohere 的 Command + R,併成為社群實驗的強大起點。♥️
然而,其他模型的故事可能不同,即使在排行榜上排名靠前。一些模型是實驗性的,令人著迷且令人印象深刻的超過20個連續模型建立步驟的結合,透過微調或合併。
然而,這些模型提出了一些挑戰:
- 當堆疊如此多的步驟時,很容易丟失精確的模型配方和歷史記錄,因為一些父模型可能被刪除,先前步驟的微調資訊可能消失等。
- 然後模型可能會意外汙染 😓
去年發生了幾次,從包含 TruthfulQA 或 GSM8K 資訊的指令資料集微調的父模型派生的模型。 - 模型可能會在基準測試上表現良好,但與其實際表現無關 🙃
這可能發生在選擇在相同基準上表現優異的模型進行合併時——這似乎選擇性地提高了在這些基準上的表現,而與實際生活情況中的質量無關。(可能需要更多的研究)。
為了在排行榜中突出高質量模型並優先評估最有用的模型,我們決定引入一個類別,稱為“維護者推薦”⭐。
在這個列表中,您會發現來自各種來源的 LLM,由社群和 Hugging Face 團隊手工挑選。我們包括像 Meta 或 Google 這樣的公司,像 Cohere 或 Mistral 這樣的初創公司,像 EleutherAI 或 NousResearch 這樣的集體,以及許多其他使用者釋出的優秀模型。
該列表將根據社群建議和我們的觀察不斷髮展,旨在儘可能包括最新的 SOTA LLM,並優先評估這些模型。
我們希望這也能使非機器學習使用者更容易在排行榜上的眾多模型中找到方向。
投票模型相關性
對於 Open LLM Leaderboard 的前一版本,評估通常以排隊(“先提交,先評估”)的方式進行。隨著使用者有時一次提交許多 LLM 變體,Open LLM Leaderboard 在 Hugging Face 科學叢集的空閒計算資源上執行,我們決定為提交的模型引入投票系統。社群將能夠為模型投票,我們將優先執行票數最多的模型,將最受期待的模型排在優先佇列的頂部。如果某個模型在叢集滿負荷時獲得極高的票數,我們甚至可能考慮手動執行它而不是其他內部任務。
為避免垃圾投票,使用者必須連線到他們的 Hugging Face 帳戶才能投票,我們將儲存投票記錄。這個系統將幫助我們優先考慮社群熱衷的模型。
最後,我們一直在努力改進和簡化排行榜介面本身。
更好和更簡單的介面
如果您是我們的常規使用者之一,您可能已經注意到我們前端從上個月開始變得更快了。
這得益於 Gradio 團隊的工作,尤其是 Freddy Boulton,他開發了 Leaderboard gradio 元件!它特別在客戶端載入資料,使任何列選擇或搜尋幾乎即時!你也可以在你自己的排行榜中重用它!
我們還決定將 FAQ 和關於標籤移到它們自己的專用文件頁面!
新排行榜,新結果!
我們開始新增和評估“維護者推薦”部分的模型(見上文),並期待社群向新版排行榜提交他們的新模型!!
排名結果如何?
看看 Open LLM Leaderboard 之前版本的前 10 名模型,並與這個更新版本進行比較,一些模型的排名相對穩定(如下加粗):Qwen-2-72B instruct,Meta 的 Llama3-70B instruct,01-ai 的 Yi-1.5-34B chat,Cohere 的 Command R + model,以及最後來自 AbacusAI 的 Smaug-72B。
我們對 Qwen2-72B-Instruct 特別印象深刻,它比其他模型高出一大步,平均得分為 43.02(尤其得益於其在數學、長範圍推理和知識方面的表現)。
目前的第二名模型,Llama-3-70B-Instruct(平均得分36.67),在 GPQA 上與其預訓練版相比失去了 15 分(4.92 vs 19.67)!這引發了一個問題,即 Meta 團隊對這個模型進行的廣泛指令微調是否影響了一些專家/研究生級別的知識。
當然,這個排名只是排行榜的開始,我們期望它在更多模型得到評估後會很快改變。你可以檢視佇列狀態,看看哪些模型正在執行!
排名 | 新排行榜排名 |
---|---|
⭐ | Qwen/Qwen2-72B-Instruct |
2 | meta-llama/Meta-Llama-3-70B-Instruct |
3 | microsoft/Phi-3-medium-4k-instruct |
4 | 01-ai/Yi-1.5-34B-Chat |
5 | CohereForAI/c4ai-command-r-plus |
6 | abacusai/Smaug-72B-v0.1 |
7 | Qwen/Qwen1.5-110B |
8 | Qwen/Qwen1.5-110B-Chat |
9 | microsoft/Phi-3-small-128k-instruct |
10 | 01-ai/Yi-1.5-9B-Chat |
以下是排名變化的細節:
讓我們以一些來自維護者團隊的建議結束這些思考。
你應該關注哪些評估?
根據你的實際使用情況,你應該關注排行榜的各個方面。總體排名會告訴你哪個模型平均更好,但你可能對特定能力更感興趣。
特別是,我們觀察到我們的不同評估結果並不總是相互關聯,如以下相關矩陣所示:
如你所見,MMLU-Pro 和 BBH 相關性較高。正如其他團隊所指出的,這些基準測試也與人類偏好高度相關(例如,它們傾向於與 LMSys 的聊天機器人競技場中的人類判斷一致)。
我們的另一個基準,IFEval,針對聊天能力。它調查模型是否能夠遵循精確指令。然而,這個基準使用的格式傾向於有利於聊天和指令微調的模型,預訓練模型難以達到高效能。
如果你特別關注模型知識而不是對齊或聊天能力,最相關的評估可能是 MMLU-Pro 和 GPQA。
讓我們看看這些更新的基準測試上的表現與我們之前版本排行榜的評估相比如何。
如我們所見,MMLU-PRO(橙色)和 GPQA(黃色)得分與 Open LLM Leaderboard v1 的 MMLU 得分合理相關。然而,我們注意到得分總體上低得多,因為 GPQA 難得多。因此,模型有很大的改進空間——這是個好訊息 😃
MATH-Lvl5 顯然對專注於數學能力的人很有趣。這個基準測試的結果通常與 GSM8K 的表現相關,除了某些異常值,如下圖所示。
綠色點突出了在 GSM8K 上由於上述評估限制而之前得分為 0 但現在在新基準 MATH-Level5 上得分非常不錯的模型。這些模型(主要來自 01-ai)在之前的格式中被嚴重懲罰。紅色點顯示了在 GSM8K 上得分高但在 MATH-Lvl5 上幾乎為 0 的模型。
從我們目前對模型輸出和行為的深入研究來看,基礎模型的聊天版本有時在 MATH 上得分明顯低於原始模型!這個觀察似乎表明一些聊天微調程式可能會削弱數學能力(根據我們的觀察,使模型過於冗長)。
MuSR,我們的最後一個評估,對長上下文模型特別有趣。我們觀察到表現最好的模型具有 10K 及以上的上下文大小,並且它似乎足以特異性地區分長上下文推理。
讓我們以對 Open LLM Leaderboard 未來的展望結束!
接下來是什麼?
就像 Open LLM Leaderboard 的第一個版本在過去一年推動了
模型開發的社群方法一樣,我們希望新的版本2將成為開放和可復現模型評估的里程碑。
因為向後相容和開放知識很重要,你仍然可以在 Open LLM Leaderboard Archive 找到所有之前的結果存檔!
回顧 Open LLM Leaderboard 中評估的所有7400個模型的演變,我們可以注意到該領域的一些更廣泛的趨勢!例如,我們看到一個強烈的趨勢,從更大的(紅點)模型轉向更小的(黃點)模型,同時提高效能。
這是該領域的好訊息,因為較小的模型更容易嵌入,更節能/記憶體/計算效率更高,我們希望在新版本的排行榜中看到類似的進展模式。鑑於我們更難的基準,我們的起點要低得多(黑點),所以讓我們看看幾個月後該領域會帶我們到哪裡 😃
如果你讀到了這裡,非常感謝。我們希望你會喜歡新版的 Open LLM Leaderboard。願開源之風推動我們的 LLM 之船在深度學習的大洋中遠航。 ⛵