GPT-4o mini一手測評:懂得不多,但答得極快

机器之心發表於2024-07-19

GPT-4o mini主打一個字「快」。

昨晚,OpenAI 突然上線新模型 GPT-4o mini, 聲稱要全面取代 GPT-3.5 Turbo。

在效能方面,GPT-4o mini 在 MMLU 上的得分為 82%,在 LMSYS 排行榜的聊天方面分數優於 GPT-4。

在價格方面,GPT-4o mini 比之前的 SOTA 模型便宜一個數量級,商用價格是每百萬輸入 token 15 美分,每百萬輸出 token 60 美分,比 GPT-3.5 Turbo 便宜 60% 以上。

圖片

OpenAI 表示,ChatGPT 的免費版、Plus 版和 Team 使用者將能夠從週四開始訪問 GPT-4o mini(其知識截至 2023 年 10 月),以代替 GPT-3.5 Turbo,企業使用者可以從下週開始訪問。

圖片

目前,GPT-4o mini 在 WildBench 測試上排名第九,優於谷歌的 Gemini-flash 以及 Anthropic 的 Claude 3 Haiku。

圖片

在今天的凌晨的文章中,我們已經介紹了 GPT-4o mini 的一些基本情況(參見《GPT-4o Mini 深夜突發:即刻免費上線,API 降價 60%》)。在這篇文章中,我們將補充介紹模型的實際使用體驗以及這份工作背後的研究者。

GPT-4o mini 一手評測

在 GPT-4o mini 開放測試的第一時間,我們問了它一個最近比較熱門的話題,9.11 和 9.9 哪個大,很遺憾,GPT-4o mini 依然沒有答對,還一本正經地回答 0.11>0.9。

圖片

接著我們在 Poe(Quora 開發的應用程式,已經整合了 GPT-4o mini)中輸入人物傳記電影《Eno》的設計封面,讓兩個模型解讀,結果 mini 翻車了。GPT-4o mini 直接表示「自己認不出照片上的人。」

與之相對的,GPT-4o 的回答就比較準確。「這張圖片看起來像是一幅拼貼畫,由一張照片的多個碎片組成,照片中是一位留著白鬍子、身穿亮粉色襯衫的老人。這幅圖由同一張照片的不同部分創造性地排列而成,產生了馬賽克或拼圖般的效果。照片中的男子表情若有所思,手撫摸著臉。」

圖片

接著我們又測試了另一個問題:在客廳的桌子上放著一個杯子,杯子裡有一個戒指。這個杯子被移到了書房的桌子上,然後移到了臥室的床上。在那裡,杯子被翻倒了一次,然後又恢復了原樣。之後,杯子被放回了客廳的桌子上。那麼,現在戒指在哪裡呢?如果我們分開問,答案不一樣,GPT-4o 似乎更聰明點。

圖片

圖片

但是,如果我們一起發問,它們的答案又會變得雷同:

圖片

GPT-4o mini 回答數學題的表現如何呢?機器之心用丘成桐少年班 2024 年選拔試題測試了一下它解決數學問題的能力。

圖片

雖然 GPT-4o mini 對問題的解讀都比較清晰,但在分析過程中出現「胡言亂語」的邏輯錯誤,像極了上數學課根本聽不懂但硬答的學生。

不過也不必著急,畢竟 GPT-4o 的回答更不理想,它甚至沒有看懂數字表示的是正方形的邊長。

圖片

在文字的總結能力上,GPT-4o mini 與 GPT-4o 的能力不相上下。都能將重點資訊進行抓取,但 GPT-4o 的回答更顯條理。

圖片

不過主打「Faster for everyday tasks」的 GPT-4o mini,響應速度確實對得起「Faster」之稱。和它對話,幾乎無需等待,輸出速度也是快得離譜。

圖片

日本網友用 GPT-4o mini 搭建了一款 AI 聊天機器人,響應速度依然快得驚人。GPT-4o mini一手測評:懂得不多,但答得極快

來自推特 @maKunugi

還有網友將 GPT-4o 和 GPT-4o mini 輸出速度進行了對比,GPT-4o mini 明顯更快:GPT-4o mini一手測評:懂得不多,但答得極快

來自推特 @moz_ai_tech

從大家體驗效果上來看,GPT-4o mini 主打一個字「快」,但實際使用體驗可能還是差了一些。

作者介紹

隨著 GPT-4o mini 的釋出,很多人表示 OpenAI 又一次給大家帶來了一點點震撼。其實,這背後是一群年輕的學者,還有多位華人的身影。

GPT-4o mini 專案負責人是 Mianna Chen。

圖片

Mianna Chen 於去年 12 月加入 OpenAI,此前在谷歌 DeepMind 任產品主管。

圖片

她在普林斯頓大學獲得學士學位,2020 年獲得賓夕法尼亞大學沃頓商學院 MBA 學位。

圖片

該專案的其他領導者還包括 Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas、Felipe Petroski Such。

Kevin Lu 是 OpenAI 的一名研究員,2021 年畢業於加州大學伯克利分校。曾與強化學習大牛 Pieter Abbeel 等人一起研究強化學習和序列建模。

圖片

Shengjia Zhao 於 2022 年 6 月加入,現在是 OpenAI 的一名研究科學家,主攻 ChatGPT。他的主要研究方向是大語言模型的訓練和校準。此前,他本科畢業於清華大學,博士畢業於史丹佛大學。

圖片

Hongyu Ren 在去年 7 月加入,現在是 OpenAI 的一名研究科學家,他還是 GPT-4o 的核心貢獻者,並致力於 GPT-Next 的研究。Hongyu Ren 本科畢業於北京大學、博士畢業於史丹佛大學。此前,他在蘋果、谷歌、英偉達、微軟等工作過。

圖片

Haitang Hu 於去年 9 月加入 OpenAI,曾任職於谷歌。他本科畢業於同濟大學、碩士畢業於霍普金斯約翰大學。

圖片

Karpathy:模型變小是自然趨勢

這次,OpenAI 還是發了 GPT-4 的衍生模型。所以很多人還是會問:GPT-5 啥時候來?

圖片

這個問題目前沒有官方資訊。但從 OpenAI 等 AI 巨頭紛紛釋出小模型的動作來看,小模型正在成為一個新戰場。

OpenAI 創始成員 Karpathy 對此表示,「LLM 模型大小競爭正在加劇…… 但方向是相反的」!

我敢打賭,我們會看到非常小的模型,它們思考得非常好,而且非常可靠。甚至 GPT-2 引數的設定很可能會讓大多數人認為 GPT-2 很智慧。
當前模型如此之大的原因在於我們在訓練過程中表現得很浪費 —— 我們要求 LLM 記住網際網路上的整個內容,令人驚訝的是,它們確實可以做到,例如背誦常用數字的 SHA 雜湊值,或者回憶起非常深奧的事實。(實際上,LLM 非常擅長記憶,比人類好得多,有時只需要一次更新就可以長時間記住很多細節)。
但想象一下,如果你要接受閉卷考試,考卷要求你根據前幾句話背誦網際網路上的任意段落。這是當今模型的(預)訓練目標。想要做的更好,面臨著一個難點,在訓練資料中,思考的展示與知識「交織」在一起的。
因此,模型必須先變大,然後才能變小,因為我們需要它們(自動化)的幫助來重構和塑造訓練資料,使其成為理想的合成格式。
這是一個改進的階梯 —— 一個模型幫助生成下一個模型的訓練資料,直到我們得到「完美的訓練集」。當你用 GPT-2 對其進行訓練時,按照今天的標準, 它會成為一個非常強大、智慧的模型。也許它在 MMLU(大規模多工語言理解) 方面會低一點,因為它不會完美地記住所有的細節。也許它偶爾需要查詢一下,以確保資訊的準確性。

圖片

按照 Karpathy 的說法,以後小模型會變得越來越多,越來越好用。這個領域的競爭會有多激烈?我們拭目以待。

參考連結:https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

相關文章