AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等學術機構學者組成的開源組織,致力於發展大語言模型 (LLM)、世界模型 (World Model)、智慧體模型 (Agent Model) 的技術以構建 AI 驅動的現實。Maitrix.org 此前成功開發了 Pandora 影片-語言世界模型、LLM Reasoners,以及 MMToM-QA 評測(ACL 2024 Outstanding Paper Award)。
研究者們已經並陸續構建了成千上萬的大規模語言模型(LLM),這些模型的各項能力(如推理和生成)也越來越強。因此,在多樣的應用場景中對其進行效能基準測試已成為了一項重大挑戰。目前最受歡迎的基準測試是 Chatbot Arena,它透過收集使用者對模型輸出的偏好來對 LLM 進行綜合排名。然而,隨著 LLM 逐漸落地於眾多應用場景,無論是針對工業生產目標,還是科學場景輔助需求,評估 LLM 在精細化維度上的能力都是至關重要的,例如:
數學及其專門分支領域,如代數、幾何、機率和微積分。
不同型別的推理能力,例如符號推理、類比推理、反事實推理和社會推理。
不同程式語言的編碼能力,如 Python、C++、JavaScript 和 SQL。
各種科學領域,如物理學、生物學和化學。
以及任何與開發者實際應用相關的具體問題。
如此大規模且精細化(甚至定製化)的評估對於依賴於人群眾包的 Chatbot Arena 或類似的基準測試來說是一大挑戰 —— 在成百上千個維度上為數千對模型(或數萬對模型)收集足夠的使用者投票是不切實際的。此外,由於人類查詢和投票過程存在噪聲以及個人主觀因素,評估結果往往難以復現。
最近,研究者們還探索了其他的自動評估方案,透過選擇一個(或幾個)“最強” 模型(通常是 GPT-4)作為評委來評估所有其他模型。然而,評委模型可能存在偏見,例如更傾向於選擇與其自身風格相似的輸出。基於這種評估進行模型最佳化可能會導致所有模型過度擬合 GPT-4 的偏見。
為了結合這兩種方案的優勢,透過利用 “群體智慧”(Chatbot Arena 依賴於人群智慧)來實現更穩健且更少偏見的評估,同時使該過程自動化且可擴充套件到多維度能力比較,Maitrix.org 釋出了 Decentralized Arena。
原文地址: https://de-arena.maitrix.org
Leaderboards: https://huggingface.co/spaces/LLM360/de-arena
穩健且無偏:去中心化避免了單個或少數評委模型所帶來的偏見,並且不容易透過過擬合評委模型進行操控。參與競技場的 LLM 越多,評估越穩健(圖 4)。此外,Decentralized Arena 在 50 多個模型的 “整體” 維度上與 Chatbot Arena 達到了非常高的相關性(95%,圖 2)。
自動化、易於擴充套件且可定製到任何評估維度:由於使用者投票的數量有限,Chatbot Arena 只能評估少數維度,而 Decentralized Arena 由於完全自動化的設計,其能夠擴充套件到無限的評估維度,並且還提供了自動選擇特定維度問題以實現定製化評估的方案。
快速、即時的新模型排名:同樣,由於自動化和高效的二分搜尋排名演算法,Decentralized Arena 能夠即時獲得新模型的評估結果,無需等待數週以收集使用者投票。
透明且完全可復現:所有演算法、實現和輸入 / 輸出都會公開,使得結果完全可復現。
值得信賴:憑藉其穩健性、與現有人類評估結果的高度一致性、精細的維度分析以及透明度,Decentralized Arena 最終旨在提供一個值得社群信賴的基準。
步驟 1: 基於二分搜尋插入的粗略排名。該步驟旨在找到新模型在當前排名中的大致位置,其核心思想是使用二分搜尋快速縮小位置範圍。在比較新模型與現有模型時,排名中的其他模型將作為評審,該二分搜尋的時間複雜度為 O (k*n*logn)。
步驟 2: 視窗內精細排名和滑動。為了進一步細化新模型的排名,該研究將它與排名中相鄰的模型進行比較(例如,排名中前後兩個模型)。這些相鄰的 LLM 往往是最難區分的,因此需要進行更細緻的比較。視窗外的所有其他模型將作為評審,如果視窗內的比較導致新模型的位置發生變化,則在更新後的視窗內重複該過程,直到排名穩定下來。此過程類似於一個滑動視窗,指導 LLM 群體關注最具模糊性的 LLM 比較對,確保精確排名並最小化計算成本。