LMSYS 組織在https://chat.lmsys.org/?arena上進行了一項有趣的試驗,同時與兩個匿名的大模型聊天,在模型輸出結果之後,再人工對其進行打分,模型的名稱會在投票後顯示。
不過,這一輪Claude搶跑直接說出了自己的名字?,但是從第二輪問答來看,右邊的Claude明顯還是強於左邊的mpt-7b的。一共有如下13位參賽選手:
vicuna-13b | koala-13b | oasst-pythia-12b | RWKV-4-Raven-14B |
alpaca-13b | chatglm-6b | llama-13b | dolly-v2-12b |
stablelm-tuned-alpha-7b | fastchat-t5-3b | mpt-7b-chat | ChatGPT-3.5 |
欸,不是說好的13位參賽選手嗎,怎麼還少一位?缺少的那一位當然就是“跳出三界外,不在五行中”的GPT-4了。?
在這一輪的測試中,雖然Claude充分發揮了他話癆的特點,很盡力的在安慰我了,但是GPT-4就是這麼不講道理的,用最少的語言就給出了最精妙的回答。
而在這一輪的臥龍鳳雛比拼當中,ChatGLM依舊嘴硬我行我素,但是無奈alpaca在中文領域實在是太薄弱了,無奈我的票也只能投給ChatGLM了。?但是需要注意的是,由於某些原因,這個測試絕大部分是在英語環境下,因此alpaca的這個弱點並不會被放大。以下是總榜單:
可以看到GPT-4毫無意外的又榮登寶座了,不過隨著近期bard以及Claude的升級,不知道下週GPT-4還能不能蟬聯這個桂冠呢?除此之外ChatGLM以6B的弱小身板能在英文環境下依舊徘徊在中游,也挺令人吃驚的。下圖是測試的詳細資料:
最近還流傳了一張中文大模型之間的比拼圖:
這張圖據說爭議很大,但是經過我這個弱小的人類測試,實際效果可能也跟這張圖大差不差。文心一言最近也在以肉眼可見的速度變聰明,相信不久後他也能擺脫倒一的稱號,慢慢變強。