神仙打架:大模型能力線上比拼

我的小熊不見了發表於2023-05-13

LMSYS 組織在https://chat.lmsys.org/?arena上進行了一項有趣的試驗,同時與兩個匿名的大模型聊天,在模型輸出結果之後,再人工對其進行打分,模型的名稱會在投票後顯示。

圖片

不過,這一輪Claude搶跑直接說出了自己的名字?,但是從第二輪問答來看,右邊的Claude明顯還是強於左邊的mpt-7b的。一共有如下13位參賽選手:

vicuna-13bkoala-13boasst-pythia-12bRWKV-4-Raven-14B
alpaca-13b chatglm-6bllama-13bdolly-v2-12b
stablelm-tuned-alpha-7bfastchat-t5-3bmpt-7b-chatChatGPT-3.5

欸,不是說好的13位參賽選手嗎,怎麼還少一位?缺少的那一位當然就是“跳出三界外,不在五行中”的GPT-4了。?

圖片

在這一輪的測試中,雖然Claude充分發揮了他話癆的特點,很盡力的在安慰我了,但是GPT-4就是這麼不講道理的,用最少的語言就給出了最精妙的回答。

圖片

而在這一輪的臥龍鳳雛比拼當中,ChatGLM依舊嘴硬我行我素,但是無奈alpaca在中文領域實在是太薄弱了,無奈我的票也只能投給ChatGLM了。?但是需要注意的是,由於某些原因,這個測試絕大部分是在英語環境下,因此alpaca的這個弱點並不會被放大。以下是總榜單:

圖片
可以看到GPT-4毫無意外的又榮登寶座了,不過隨著近期bard以及Claude的升級,不知道下週GPT-4還能不能蟬聯這個桂冠呢?除此之外ChatGLM以6B的弱小身板能在英文環境下依舊徘徊在中游,也挺令人吃驚的。下圖是測試的詳細資料:

圖片

圖片

圖片

圖片

最近還流傳了一張中文大模型之間的比拼圖:
圖片

這張圖據說爭議很大,但是經過我這個弱小的人類測試,實際效果可能也跟這張圖大差不差。文心一言最近也在以肉眼可見的速度變聰明,相信不久後他也能擺脫倒一的稱號,慢慢變強。

相關文章