現在大語言模型們也要像王者榮耀 / LoL / Dota 這些遊戲裡的玩家一樣打排位賽了!

前段時間,來自 LMSYS Org(UC 伯克利主導)的研究人員搞了個大新聞 —— 大語言模型版排位賽!

這次,團隊不僅帶來了 4 位新玩家,而且還有一個(準)中文排行榜。

  • OpenAI GPT-4
  • OpenAI GPT-3.5-turbo
  • Anthropic Claude-v1
  • RWKV-4-Raven-14B(開源)

毫無疑問,只要 GPT-4 參戰,必定是穩居第一。

不過,出乎意料的是,Claude 不僅超過了把 OpenAI 帶上神壇的 GPT-3.5 位列第二,而且只比 GPT-4 差了 50 分。

相比之下,排名第三的 GPT-3.5 只比 130 億引數的最強開源模型 Vicuna 高了 72 分。

而 140 億引數的「純 RNN 模型」RWKV-4-Raven-14B 憑藉著卓越的表現,超越一眾 Transformer 模型排到了第 6—— 除 Vicuna 模型外,RWKV 在與所有其他開源模型的非平局比賽中贏得了超過 50% 的比賽。

此外,團隊還分別製作了「僅英語」和「非英語」(其中大部分是中文)這兩個單獨的排行榜。

可以看到,不少模型的排位都出現了明顯的變化。

比如,用更多中文資料訓練的 ChatGLM-6B 確實表現更好,而 GPT-3.5 也成功超越 Claude 排到了第二的位置。

本次更新的主要貢獻者是盛穎、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez 和 Ion Stoica。

盛穎是 LMSYS Org 的 3 個創始人之一(另外兩位是 Lianmin Zheng 和 Hao Zhang),史丹佛大學電腦科學系的博士生。

她也是之前爆火的、可以在單 GPU 上可以跑 175B 模型推理的系統 FlexGen 的一作,目前已獲 8k 星。

論文地址:https://arxiv.org/ abs / 2303.06865

專案地址:https://github.com/ FMInference / FlexGen

個人主頁:https://sites.google.com/ view / yingsheng / home

「開源」VS「閉源」

在社群的幫助下,團隊共收集了 13k 條匿名投票,並且有了一些有趣的發現。

專有與開源的差距

在三個專有模型中,Anthropic 的 Claude 模型比 GPT-3.5-turbo 更受使用者歡迎。

而且,Claude 在與最強大的 GPT-4 競爭時,也表現得非常有競爭力。

從下面這個勝率圖來看,GPT-4 和 Claude 之間的 66 場非平局比賽中,Claude 贏得了 32 場(48%)比賽。

所有非平局 A vs B 對戰中,模型 A 勝利的比例

然而,其他開源模型與這三個專有模型之間,依然存在著很大的差距。

特別是,GPT-4 以 1274 的 Elo 分數領跑排行榜。這比榜單上最好的開源替代 ——Vicuna-13B—— 要高出近 200 分。

在去掉平局後,GPT-4 在與 Vicuna-13B 對戰時贏得了 82% 的比賽,甚至在與前一代 GPT-3.5-turbo 對戰時贏得了 79% 的比賽。

然而,值得注意的是,排行榜上的這些開源模型通常具有比專有模型更少的引數,範圍在 30 億 – 140 億之間。

實際上,最近在 LLM 和資料策劃方面的進展使得使用較小模型取得顯著效能改進成為可能。

谷歌的最新 PaLM 2 就是一個很好的例子:我們知道 PaLM 2 在使用較小模型大小時,比其前一代實現了更好的效能。

因此,團隊對開源語言模型迎頭趕上充滿樂觀。

GPT-4 在何時會「翻車」?

在下圖中,使用者提出了一個需要仔細推理和規劃的棘手問題。雖然 Claude 和 GPT-4 提供了類似的答案,但 Claude 的回應稍微好一些。

然而,由於取樣的隨機性,團隊發現這種情況並不能總能復刻。有時 GPT-4 也能像 Claude 一樣給出相同的順序,但在這次生成試驗中失敗了。

另外,團隊注意到,當使用 OpenAI API 和 ChatGPT 介面時,GPT-4 的行為略有不同,這可能是由於不同的提示、取樣引數或其他未知因素導致的。

使用者更喜歡 Claude 而不是 GPT-4 的一個例子

在下圖中,儘管 Claude 和 GPT-4 都具有驚人的能力,但它們仍在處理這類複雜的推理問題上掙扎。

一個使用者認為 Claude 和 GPT-4 都錯了的例子

除了這些棘手的情況,還有許多並不需要複雜推理或知識的簡單問題。

在這種情況下,像 Vicuna 這樣的開源模型可以與 GPT-4 表現相當,因此我們可能可以使用稍微弱一些(但更小或更便宜)的大型語言模型(LLM)來替代像 GPT-4 這樣更強大的模型。

Elo 分數的變化

自從三個強大的專有模型參與以來,聊天機器人競技場的競爭從未如此激烈。

由於在與專有模型對戰時,開源模型輸掉了不少比賽,因此它們的 Elo 分數都有所下降。

最後,團隊還計劃開放一些 API,讓使用者可以註冊自己的聊天機器人來參加排位賽。

新智元