自動化、可復現,基於大語言模型群體智慧的多維評估基準Decentralized Arena來了

机器之心發表於2024-10-22

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等學術機構學者組成的開源組織,致力於發展大語言模型 (LLM)、世界模型 (World Model)、智慧體模型 (Agent Model) 的技術以構建 AI 驅動的現實。Maitrix.org 此前成功開發了 Pandora 影片-語言世界模型、LLM Reasoners,以及 MMToM-QA 評測(ACL 2024 Outstanding Paper Award)。

研究者們已經並陸續構建了成千上萬的大規模語言模型(LLM),這些模型的各項能力(如推理和生成)也越來越強。因此,在多樣的應用場景中對其進行效能基準測試已成為了一項重大挑戰。目前最受歡迎的基準測試是 Chatbot Arena,它透過收集使用者對模型輸出的偏好來對 LLM 進行綜合排名。然而,隨著 LLM 逐漸落地於眾多應用場景,無論是針對工業生產目標,還是科學場景輔助需求,評估 LLM 在精細化維度上的能力都是至關重要的,例如:

  • 數學及其專門分支領域,如代數、幾何、機率和微積分

  • 不同型別的推理能力,例如符號推理、類比推理、反事實推理和社會推理。

  • 不同程式語言的編碼能力,如 Python、C++、JavaScript 和 SQL。

  • 各種科學領域,如物理學、生物學和化學。

  • 以及任何與開發者實際應用相關的具體問題。

如此大規模且精細化(甚至定製化)的評估對於依賴於人群眾包的 Chatbot Arena 或類似的基準測試來說是一大挑戰 —— 在成百上千個維度上為數千對模型(或數萬對模型)收集足夠的使用者投票是不切實際的。此外,由於人類查詢和投票過程存在噪聲以及個人主觀因素,評估結果往往難以復現。

最近,研究者們還探索了其他的自動評估方案,透過選擇一個(或幾個)“最強” 模型(通常是 GPT-4)作為評委來評估所有其他模型。然而,評委模型可能存在偏見,例如更傾向於選擇與其自身風格相似的輸出。基於這種評估進行模型最佳化可能會導致所有模型過度擬合 GPT-4 的偏見。

為了結合這兩種方案的優勢,透過利用 “群體智慧”(Chatbot Arena 依賴於人群智慧)來實現更穩健且更少偏見的評估,同時使該過程自動化且可擴充套件到多維度能力比較,Maitrix.org 釋出了 Decentralized Arena。

圖片
  • 原文地址: https://de-arena.maitrix.org

  • Leaderboards: https://huggingface.co/spaces/LLM360/de-arena

圖 1 展示了這些基準測試正規化之間的主要區別。Decentralized Arena 的核心理念是利用所有 LLM 的集體智慧進行相互評估和比較。這形成了一個去中心化、民主化的系統,在該系統中,所有被評估的 LLM 同時也是能夠評估其他模型的評審者,與依賴於中心化的 “權威” 模型作為評審相比,Decentralized Arena 能夠實現更公平的排名。

圖片

圖 1:Open-ended 場景下 LLM 評估的不同正規化,Decentralized Arena 結合了兩者的優點,即去中心化與自動化。
圖片
圖 2:Decentralized Arena 與 Chatbot Arena 的 “整體” 排名表現出最強的相關性。

Decentralized Arena 的關鍵優勢包括:
  • 穩健且無偏:去中心化避免了單個或少數評委模型所帶來的偏見,並且不容易透過過擬合評委模型進行操控。參與競技場的 LLM 越多,評估越穩健(圖 4)。此外,Decentralized Arena 在 50 多個模型的 “整體” 維度上與 Chatbot Arena 達到了非常高的相關性(95%,圖 2)。

  • 自動化、易於擴充套件且可定製到任何評估維度:由於使用者投票的數量有限,Chatbot Arena 只能評估少數維度,而 Decentralized Arena 由於完全自動化的設計,其能夠擴充套件到無限的評估維度,並且還提供了自動選擇特定維度問題以實現定製化評估的方案。

  • 快速、即時的新模型排名:同樣,由於自動化和高效的二分搜尋排名演算法,Decentralized Arena 能夠即時獲得新模型的評估結果,無需等待數週以收集使用者投票。

  • 透明且完全可復現:所有演算法、實現和輸入 / 輸出都會公開,使得結果完全可復現。

  • 值得信賴:憑藉其穩健性、與現有人類評估結果的高度一致性、精細的維度分析以及透明度,Decentralized Arena 最終旨在提供一個值得社群信賴的基準

圖 3 展示了最終排行榜的截圖。研究團隊正在繼續新增更多的模型和維度,歡迎來自社群的貢獻和提交!
圖片
圖 3:Decentralized Arena 排行榜,包括不同維度的排名。

方法:透過大語言模型群體智慧進行基準測試

去中心化的概念是透過讓所有 LLM 充當評審,對每一對模型(即決定哪個模型的輸出 “獲勝”,類似於 Chatbot Arena 中的人類評審)進行投票。一個簡單的做法是讓每個模型對所有其他模型對進行投票,其複雜度為 O (n^3*k),其中 n 是模型數量,k 是查詢數量。當 n 和 k 都很大時,這種方法的速度會非常慢。因此,研究團隊設計了一種基於增量排名、二分搜尋插入和由粗到精調整的更高效的方法。

該研究從一小組 “種子” 模型(例如 15 個)開始,利用上述簡單方法迅速對它們進行排名。然後,其他模型一個接一個地透過粗篩和精排的步驟被增量插入到排名列表中。排名列表中的所有模型都將作為評審幫助新模型找到其位置。影片 1 說明了這一過程。自動化、可復現,基於大語言模型群體智慧的多維評估基準Decentralized Arena來了

影片 1: 演示大語言模型插入過程。
  • 步驟 1: 基於二分搜尋插入的粗略排名。該步驟旨在找到新模型在當前排名中的大致位置,其核心思想是使用二分搜尋快速縮小位置範圍。在比較新模型與現有模型時,排名中的其他模型將作為評審,該二分搜尋的時間複雜度為 O (k*n*logn)。

  • 步驟 2: 視窗內精細排名和滑動。為了進一步細化新模型的排名,該研究將它與排名中相鄰的模型進行比較(例如,排名中前後兩個模型)。這些相鄰的 LLM 往往是最難區分的,因此需要進行更細緻的比較。視窗外的所有其他模型將作為評審,如果視窗內的比較導致新模型的位置發生變化,則在更新後的視窗內重複該過程,直到排名穩定下來。此過程類似於一個滑動視窗,指導 LLM 群體關注最具模糊性的 LLM 比較對,確保精確排名並最小化計算成本。

在上述排名過程中,該研究收集了模型的成對比較結果,然後使用 Bradley-Terry (BT) 方法來估計每個模型在排名中的得分。這些得分用於在模型作為評審時賦予它們不同的權重 —— 得分較高的模型在評估其他模型對時影響更大(該研究還使用了其他簡單的加權方法,例如基於模型排名的線性遞減權重,這將在即將釋出的技術報告中進一步討論)。這些得分在整個排名過程中會自動調整,最終得分在排名完成時確定。

去中心化評估系統的一個關鍵優勢是,隨著更多模型的參與,排名將變得更加穩定,如圖 4。
圖片
圖 4: 隨著模型數量的增加,排名中的方差(陰影區域)逐漸減小,表明排名變得越來越穩健。

透過將上述自動化評估方法應用於多個評估維度,以獲得流行 LLM 的精細排名 (參見排行榜頁面)。

該方法與依賴大量人工評審的 Chatbot Arena 取得了高度的相關性(“整體” 維度的相關性為 95%)。圖 2 和圖 5 展示了這些相關性,表明 Decentralized Arena 優於其他流行的基準測試,並展示了不同維度的排名之間的關係。
圖片
圖 5: 不同維度排名之間的相關性 (底部)。

構建自定義維度:選擇高價值問題集

Decentralized Arena 的另一個關鍵優勢是其可擴充套件性,以便於增加任意新評估維度對 LLM 進行基準測試。使用者可以輕鬆地為自己關心的新維度建立排名。作為演示,該研究為數學、推理、科學和程式設計等多個維度建立了維度排名 (排行榜)。

要為新維度建立排名,需要為該維度準備一組問題集,然後在此問題集上對 LLM 進行比較。對於某一新維度(例如數學 - 代數),需要先從各種相關的開源資料集中提取併合並了一個大型初始問題集,然後進一步從中抽取少量核心問題以實現高效排名。最簡單的方法是從初始問題集中隨機抽取問題,其抽取的問題越多,最終排名就越穩定。

為了在較少的問題集下獲得穩定的排名(從而提高排名效率),該研究還設計了一種新的自動問題集選擇的方法,如圖 6 所示。其核心思路是利用 LLM 的群體智慧選擇出能夠在一小組 LLM 上產生一致排名的問題集,研究團隊將在即將釋出的技術報告中介紹更多細節。
圖片
圖 6: 新維度的自動查詢選擇。

圖 7 顯示,其查詢選擇方法比隨機查詢抽樣產生了更好且更一致的排名。
圖片
圖 7: 使用其方法選擇的問題集比隨機抽樣的問題集實現了更高的相關性和更低的方差。

更多的結果

該研究做了更多的分析來以深入理解 Decentralized Arena 的結果。

圖 8 展示了排名中 LLM 的得分及其置信區間
圖片
圖 8: LLM 的得分和置信區間

該研究對排名過程中每一對 LLM 的勝率和比較次數分佈進行了視覺化處理(“Overall” 維度)。

如圖 9 和圖 10 所示,LLM 的群體智慧自動集中在難以區分的鄰近 LLM 對上(在圖 10 中靠近對角線的模型,或在圖 9 中勝率接近 50% 的模型)。相比之下,效能差距較大的 LLM 之間的比較較為稀少(甚至被省略),從而降低了整體計算成本。
圖片
圖 9: 勝率分佈圖。
圖片
圖 10: 對比次數分佈圖。

相關文章