實測GPT4.5，智商一般、貴得離譜，OpenAI砸5000億就造出這玩意？

AI好好用發表於2025-02-28

原文網址 : https://www.jiqizhixin.com/articles/2025-02-28-16

GPTOpenAI

AI好好用報導

編輯：楊文、Sia

網友們的一手實測。

OpenAI 打出的牌，我是越來越看不懂了。

凌晨四點，OpenAI 搞了個不到 15 分鐘的直播，釋出自家最大、最好的聊天模型 GPT‑4.5。

前不久剛「喜當爹」的奧特曼沒有露面，原因是：

在醫院帶小孩。

不過，他在 X 上並沒有缺席，第一時間帶來了兩個訊息。

好訊息是，GPT4.5 是第一個讓他感覺像是在和一個有思想的人交談的模型。

壞訊息是，它是一個龐大且昂貴的模型。

同時他還透露：GPT4.5 可不是那種靠邏輯推理的模型，所以別指望它能在那些基準測試裡拿高分。

奧特曼還說，本想同時推出 Plus 和 Pro 版本，但最近發展太快，GPU 不夠用了。下週他們會多弄幾萬個 GPU，先把 Plus 版搞定，以後還會有數十萬個 GPU。

這一點在官方部落格中也得到了驗證。

官方部落格寫道：GPT4.5 知識面更廣，「情商」更高，而且胡說八道的情況會少一些。

但在 GPQA（科學）、AIME’24（數學）、SWE-Bench Verfied（編碼）等資料集上，GPT-4.5 還比不上 o3-mini。

說了這麼多，總結下來就一句話：

GPT4.5 情商高，但是智商一般，反正在基準測試中拿不到高分，而且還很貴。

有多貴？上個圖對比對比就知道了：

相比於 DeepSeek R1 的折扣價，GPT-4.5 輸入價格（快取命中）是它的 1000 多倍。

-1-

GPT4.5槽點滿滿

果不其然，社交平臺上充斥著對 GPT4.5 的吐槽聲。

歸納一下，主要是三點。

首先，智商一般，尤其在邏輯推理和數理能力上。

X 網友 @Colin Fraser 實測了一道邏輯謎題。

一個男孩和他的母親發生車禍，男孩不幸去世。母親被緊急送往手術，外科醫生在看到她時驚呼：「我不能給這個女人做手術！她是我的母親！」

問：這是怎麼一回事？（注意：這是這個謎語的修改版，所以要仔細讀、仔細想！）

這道題目不僅考察了邏輯推理能力，還考察了大模型是否存在刻板印象 —— 因為很多人會下意識地覺得醫生是男性。

GPT4.5 給出的答案是：

外科醫生是男孩的祖母，也就是受傷女性的母親，所以當外科醫生說「我不能給這個女人做手術！她是我的母親！」時，她說得沒錯。

這回答錯得讓人摸不著頭腦，外科醫生怎麼成了受傷女人（男孩媽媽）的媽媽了？都差輩了。

其次，貴得離譜，慢得出奇。

X 網友 Casper Hansen 發帖稱，「 GPT4.5 的定價非常高，如果這些模型沒有顯著的改進，我會感到失望。」

GPT4.5 的 API 價格不僅遠超 DeepSeek R1，每百萬 Tokens 75 美元的價格甚至比 GPT-4o 的 2.5 美元都貴 30 倍。

還有一位名叫 Simon Willison 的博主，在 Hacker News 上發現了關於 GPT-4.5 的一個熱門討論串。

當評論數量達到 324 條時，作者使用 GPT-4.5 自己的指令碼執行了一個摘要，命令是：

hn-summary.sh 43197872 -m gpt-4.5-preview

結果生成耗時 154 秒，費用為 2.11 美元（使用了 25797 個輸入 token 和 1225 個輸出 token ，費用是透過作者的 LLM 定價計算器計算得出的）。

而且，作者還讓 GPT4.5 生成一隻騎腳踏車的鵜鶘的 SVG 圖片，整個響應過程花費了 112 秒！

該作者直接開噴：GPT-4.5（透過 API）給人的第一印象就是太慢了。

最後，畫 SVG、編碼的水平被 Claude 3.7 Sonnet 吊打。

GPT4.5 生成的 5 個口袋妖怪 SVG 是這樣的：

而 Claude 3.7 Sonnet 生成的效果則是這樣的：

GPT4.5 程式碼能力也遠不如 Claude 3.7 Sonnet。

Ivan Fioravanti 使用同樣的提示詞：Create an amazing animation using p5js，GPT4.5 生成的動畫是這樣的：