近日SuperCLUE釋出了最新的中文大模型10月榜單,GPT4繼續霸榜位列第1,vivo自研大模型vivoLM以70.74的成績位列第4,在國內大模型中排行第1

緊隨vivoLM後面的分別是月之暗面的Moonshot、百度的文心一言4.0和商湯科技的SenseChat 3.0。

SuperCLUE主要考察大模型在中文能力上的表現,包括專業知識技能、語言理解與生成、AI 智慧體和安全四大能力維度的上百個任務

本次評測共選取了目前國內外最具代表性的20個通用大語言模型,與9月相比新增了月之暗面的Moonshot、百度的文心一言4.0、科大訊飛的星火V3.0、vivo的vivoLM和阿里雲的Qwen-14B。

本次評測資料集為全新的3754道測試題,其中包括606道多輪簡答題和3148道客觀選擇題,最終評選出總排行榜等5大榜單。

評測結果顯示,國內第一梯隊大模型格局已基本形成,頭部的幾個中文大模型已經與GPT3.5極為接近,但與GPT4的距離依然遙遠,尚未發現有對標和媲美GPT4的跡象

SuperCLUE還認為在今年第四季度內將會出現全面超越GPT3.5的通用大模型,但如何趕超GPT4,又會成為擺在所有中文模型研發機構面前的新難題。

自 快科技