現在起,真正的強者敢於直面「釦子」的「模型廣場」

机器之心發表於2024-06-16

實時 Pk、“蒙面“ 對壘、大眾點評、定期排名...... 就問敢不敢揭榜?


位元組版 GPTs “釦子”上線後,五年級小學生都能建立自己的英語外教。

“釦子”有一個相當大的優勢,就是支援國內知名大語言模型作為底座,還免費,許多 “AI bot" 孕育而生。

不過,無限續杯也有煩惱。“學霸”這麼多,挑誰最合適?看跑分?不太懂,也飄渺。要不,大家現場"全開麥“ PK一下?

“釦子”已經把舞臺搭好。一個相當刺激的新功能“模型廣場”,上線了。

圖片

一、“模型廣場”:評測玩出盲盒的樂趣

“釦子”支援國內多個知名主流大語言模型作為底座,最新名單除了自家的豆包、通義千問、MiniMax、Moonshot ,新增了智譜 GLM-4 、百川智慧 Baichuan4 兩員大將。

圖片

圖片

名單不斷更新中,截圖時間6月13日

模型引數、架構各有千秋,特點、擅長領域、生成風格也不盡相同。一位小朋友用“釦子”做手抄報 Bot 時,就問過一個難倒大人的問題,這些“人”,該選誰啊?誰擅長做手抄報呢?

現在,有了官方指引——一個線上大語言模型對比與評估系統“模型廣場”,大夥兒“物盡其用”的難度會小很多。

你可以將 “模型廣場”視為一個類似“歌手”的競技舞臺,大語言模型“選手”可以不同方式 PK。每一輪對戰結束,由觀眾(使用者)給結果投票,看誰表現更好。

為避免先入為主,“選手”匿名出戰,使用者投票後才會亮出真實身份。

“模型廣場”支援三種對戰模式。

一個是指定 Bot 對戰。我們在 Bot 列表中選了一個感興趣的 Bot “數學老師”。

圖片

“釦子”會隨機選取兩個匿名模型,基於“數學老師” 既有工作流、知識庫等能力配置,回答我們挑選的“容斥”問題(如下圖)。

圖片

我們人工算出答案 “7”。首先,算出至少參加一科競賽的人數(15+8+6 -3*2)。然後,從班級總人數 30 中減去這個結果(30-23),即可。

模型 A 很快有了答案,思路清晰簡單,答案正確。

圖片

模型 B 把“思考”過程寫得很詳細、很複雜,但結果不對。

圖片

評估結果,有四個選項可選:

圖片

我們認為“ A 表現更好”,投票後,謎底揭曉。

圖片

第二個是隨機 Bot 對戰。

如果說,指定 Bot 對戰適合評估不同“選手”在指定崗位(比如數學教學)上的業務能力。那麼,隨機 Bot 對戰就是現場抽題、即興發揮,評測“選手”任意業務場景下的能力,綜合能力要求更高。

隨機 Bot 對戰模式下,“釦子”(不再是使用者)會從上架的 Bot 中隨機選一個出戰。我們被隨機分配到“軍事大模型評估”專家。

圖片

“釦子” 會隨機選擇兩個匿名模型,基於“軍事大模型評估專家” Bot 的編排、工作流、知識庫等能力配置,回答我們的問題。

如何看待孫子兵法的價值?模型 A 的回答,有些片面。

圖片

相比之下,模型 B 的回答更為深入、全面。

圖片

這一票給 B ,謎底揭曉。

圖片

第三個是純模型對戰。

前兩個對戰模式都是基於 Bot ,“選手”會藉助工作流等 Bot 配置來完成任務。

純模型對戰考驗的是大模型“裸”的文字生成能力,Bot 配置帶來的影響都被清空。

圖片

針對“老問題”,模型 A 像粗心的小朋友。

思路對、甚至算式都對,結果計算錯誤(29-6=24?),功虧一簣:

圖片

模型 B 簡單利落地解決了問題。

圖片

Wait,這答題風格看著眼熟,好像見過?

投票給 B ,謎底揭曉。看來, Baichuan4 數學能力確實強一些:

圖片

其實,用過 Quora AI 聊天應用 Poe 的人,對“純模型對戰“不會陌生。Poe 接入了不少炙手可熱的大模型,可以針對同一任務,直接比較不同大模型的結果(但不設投票)。

看看這些回答,如果接入“模型廣場” PK ,GPT-4o 也不見得穩操勝券。

圖片

二、為何大模型需要“大眾點評”?

紙面指標好的模型,不一定在實戰中表現優秀。

開發者和普通使用者追求的是應用落地,在“模型廣場”,他們可以直接比較“選手”在真實、具體業務場景下表現,多維度評估能力,選擇最合適的一個。

當然,還有一個關鍵,不用自己掏錢!

比如,幾輪 PK 後,我們發現 Baichuan4 數學能力突出,如果要做數學作業 Bot ,肯定會優先考慮它;如果輔導低年級語文學習 Bot ,我們會考慮豆包。

通義千問-Max 文字寫作突出,一份書單推薦也能寫得文采飛揚,看來適合做手抄報設計 Bot 的底座。

如果要找“六邊形戰士” ,最好三種對戰模式都玩到。你會體感到,有的模型的回答切中要害,但言簡意賅;有的回答豐富詳盡,但稍顯囉嗦;有的擅長多輪對話理解使用者意圖,但知識覆蓋明顯不足。多輪 PK,總能找到最靠近需求的一個。

除了實戰"親測",“模型廣場”還會定期推出大語言模型排行榜。和一些常見大語言模型效能榜單相比,它有兩個明顯不同。

一個是動態更新,可以持續納入新的評測任務和真實使用者反饋,及時反映模型的表現和進步。

另一個就是基於人類偏好,就像一個大模型的“大眾點評” 。

其實,LMSYS Org 的大模型競技場 Chatbot Arena 已經嚐鮮在前,成為引用次數最多的大語言模型排行榜之一,被領先的大模型開發商和公司廣泛引用。

至於為什麼要納入人類偏好,“釦子”也有自己的解釋:

“對於 Chat-GPT 等對齊過人類偏好的對話模型,往往需要一些半開放或開放式問題才能合理評估模型能力,傳統 LLM 基準測試框架在這種場景下可能會略有不足。”

這是“釦子”推薦的一些賽題。

圖片

第一題是一個開放性問題,評估“今朝晴朗可喜”短文,不同評估者可能對同一篇文章有不同的看法和評分標準。

第五題屬於半開放,對於 Tracy 是否應該支付生父的醫療費用,不同評估者的道德觀和價值觀可能不同,導致對答案的評價產生較大差異。

傳統方法確實拿捏不準答案好壞。一方面,回覆的質量無法用客觀指標衡量。另一方面,也沒有一成不變的評估程式,判斷不同 Bot 回答的優劣。

這個時候,對比不同模型的回覆是一個補強的辦法。另外,就是眾包評測。在“釦子”看來,客戶自己就能判斷出什麼是最合適的模型。

當然,“模型廣場”為“選手”提供展示機會的同時,也會將壓力傳給大模型廠商,特別是當自家“娃” 表現不佳、排名靠後時。

如果"模型廣場"能帶來良性競爭,對行業發展是一件好事。

真實消費場景的資料,能為大模型的最佳化提供參考。評分排名,可以幫助廠商判斷自己在行業中的位置,以及與競品的差距。

“模型廣場"聚集了大量對模型效能有強需求的開發者使用者,對於模型表現突出、口碑良好的廠商而言,這意味著廣闊的潛在客戶群體。

透過"模型廣場",開發者們可以充分“把脈”前沿大模型,快速開發和迭代各種創新應用,將 AI 生成能力嵌入到各行各業的場景應用,蓬勃 AIGC 生態。

三、“這東西,你真能用得上!”

“模型廣場”上線時,釦子還聯合 Intel 推出的一個主題 Bot 徵集活動,叫釦子 AI 工坊( Coze AI Factory )。

聚焦圖文創作、實用工具、互動創意三個賽道,未成年人也能參與,還有上萬元獎金可以拿。

“釦子” 定位在平臺,不難看出,為求取最大的使用量,他們將心思都傾注在了 “你也能上手 DIY ”。

確實,毫無程式設計背景,我們曾在一分鐘內搞定一個 Bot,儘管是“毛坯”。

“裝修”也不費力。因為,為擴充 Bot 的各種技能,外掛甚至開發者關心的工作流都有了商店。你要做的就是“選中”+“新增”。

圖片

除了技能外掛,還有知識庫資料庫、長期記憶等,讓 “AI Bot ”變得更加個性化和本地化。

為了有更好的互動體驗,”釦子”還支援配置開場白、快捷指令、背景圖片、語音等。

圖片

當然,最特別的一點是,“釦子”可以將構建的 Bot 直接釋出到飛書和微信等平臺,無縫嵌入到你的生產力工具中。

至此,除了力壓開發難度和成本,“釦子”又將 AI 應用的運營難度、成本,一降再降,並完成閉環。

圖片

經歷了過去一年的大語言模型熱,國內的玩家們也都明白,產品要有商業落地才能活下去。

最近有新聞報導,在過去六個月時間裡,OpenAI 年收入增長了一倍多,大部分收入來自 ChatGPT 等聊天機器人訂閱費,以及軟體開發人員付費訪問模型 API 。

位元組也為 AIGC 產品規劃了兩條路徑,一個是賦能既有業務,另一個就是卡位不同賽道,開發對應的 AI 原生產品。“釦子”正是面向大模型 C 端應用做的探索。

在強大技術實力、豐富的資料資源和廣泛應用場景加持下,期待“釦子”接下來的一路生花。

圖片

參考連結

https://www.coze.cn/model/arena?bid=6cqv06psk9000&utm_source=jqzx

相關文章