實測GPT4.5,智商一般、貴得離譜,OpenAI砸5000億就造出這玩意?

AI好好用發表於2025-02-28

AI好好用報導

編輯:楊文、Sia

網友們的一手實測。

OpenAI 打出的牌,我是越來越看不懂了。

凌晨四點,OpenAI 搞了個不到 15 分鐘的直播,釋出自家最大、最好的聊天模型 GPT‑4.5

前不久剛「喜當爹」的奧特曼沒有露面,原因是:

在醫院帶小孩。

image.png

不過,他在 X 上並沒有缺席,第一時間帶來了兩個訊息。

好訊息是,GPT4.5 是第一個讓他感覺像是在和一個有思想的人交談的模型。

壞訊息是,它是一個龐大且昂貴的模型。

同時他還透露:GPT4.5 可不是那種靠邏輯推理的模型,所以別指望它能在那些基準測試裡拿高分。

image.png

奧特曼還說,本想同時推出 Plus 和 Pro 版本,但最近發展太快,GPU 不夠用了。下週他們會多弄幾萬個 GPU,先把 Plus 版搞定,以後還會有數十萬個 GPU。

這一點在官方部落格中也得到了驗證。

官方部落格寫道:GPT4.5 知識面更廣,「情商」更高,而且胡說八道的情況會少一些。

image.png

但在 GPQA(科學)、AIME’24(數學)、SWE-Bench Verfied(編碼)等資料集上,GPT-4.5 還比不上 o3-mini。

image.png

說了這麼多,總結下來就一句話:

GPT4.5 情商高,但是智商一般,反正在基準測試中拿不到高分,而且還很貴。

有多貴?上個圖對比對比就知道了:

image.png

相比於 DeepSeek R1 的折扣價,GPT-4.5 輸入價格(快取命中)是它的 1000 多倍。

396def257cbe8d4734f0a995033144f9.gif


-1-

GPT4.5槽點滿滿

果不其然,社交平臺上充斥著對 GPT4.5 的吐槽聲。

歸納一下,主要是三點。

首先,智商一般,尤其在邏輯推理和數理能力上。

X 網友 @Colin Fraser 實測了一道邏輯謎題。

一個男孩和他的母親發生車禍,男孩不幸去世。母親被緊急送往手術,外科醫生在看到她時驚呼:「我不能給這個女人做手術!她是我的母親!」


問:這是怎麼一回事?(注意:這是這個謎語的修改版,所以要仔細讀、仔細想!)

這道題目不僅考察了邏輯推理能力,還考察了大模型是否存在刻板印象 —— 因為很多人會下意識地覺得醫生是男性。

GPT4.5 給出的答案是:

外科醫生是男孩的祖母,也就是受傷女性的母親,所以當外科醫生說「我不能給這個女人做手術!她是我的母親!」時,她說得沒錯。

image.png

這回答錯得讓人摸不著頭腦,外科醫生怎麼成了受傷女人(男孩媽媽)的媽媽了?都差輩了。

其次,貴得離譜,慢得出奇。

X 網友 Casper Hansen 發帖稱,「 GPT4.5 的定價非常高,如果這些模型沒有顯著的改進,我會感到失望。」

GPT4.5 的 API 價格不僅遠超 DeepSeek R1,每百萬 Tokens 75 美元的價格甚至比 GPT-4o 的 2.5 美元都貴 30 倍。

image.png

還有一位名叫 Simon Willison 的博主,在 Hacker News 上發現了關於 GPT-4.5 的一個熱門討論串。

當評論數量達到 324 條時,作者使用 GPT-4.5 自己的指令碼執行了一個摘要,命令是:


hn-summary.sh 43197872 -m gpt-4.5-preview

結果生成耗時 154 秒,費用為 2.11 美元(使用了 25797 個輸入 token 和 1225 個輸出 token ,費用是透過作者的 LLM 定價計算器計算得出的)。

而且,作者還讓 GPT4.5 生成一隻騎腳踏車的鵜鶘的 SVG 圖片,整個響應過程花費了 112 秒!

圖片

image.png

該作者直接開噴:GPT-4.5(透過 API)給人的第一印象就是太慢了。

image.png

最後,畫 SVG、編碼的水平被 Claude 3.7 Sonnet 吊打。

GPT4.5 生成的 5 個口袋妖怪 SVG 是這樣的:

image.png

而 Claude 3.7 Sonnet 生成的效果則是這樣的:

image.png

GPT4.5 程式碼能力也遠不如 Claude 3.7 Sonnet。

Ivan Fioravanti 使用同樣的提示詞:Create an amazing animation using p5js,GPT4.5 生成的動畫是這樣的:

實測GPT4.5,智商一般、貴得離譜,OpenAI砸5000億就造出這玩意?

再來看看 Claude 3.7 Sonnet的效果:

實測GPT4.5,智商一般、貴得離譜,OpenAI砸5000億就造出這玩意?

至於影像理解,在醫學影像診斷方面,GPT4.5 還是很難持續正確診斷出下面這張超聲波影像,當然,其他友商也都全軍覆沒。

image.png

鑑於 GPT4.5 的槽點,馬庫斯依舊言辭犀利,「砸了 5000 億美元就搞出這麼個模型?我能說這是巨大的損失嗎?」

image.png

不過,Karpathy 倒是在提醒大家:

請記住, GPT-4.5 目前只經過了一些基本的訓練,所以在需要複雜推理的情況下(比如數學和程式設計),它的表現可能不夠好。

為了讓模型在這些方面表現更好,需要使用強化學習來進一步訓練。

可以推測,OpenAI 計劃繼續使用強化學習來提升 GPT-4.5 的思維能力,從而增強它在這些領域的表現。

image.png

(https://x.com/karpathy/status/1895213020982472863)


-2-

並非一無是處

GPT4.5 槽點不少,但也並非一無是處。

它的優勢在於對語言和對世界的理解,適合寫作和設計創意。

X 博主 ben 在過去幾週一直測試 GPT4.5,他認為這是第一個真正能寫出好東西的模型,並聲稱「這簡直就是寫作界的 Midjourney 時刻!」

image.png

它用同一個提示詞分別測試了 GPT4.5 和 GPT4o:

write me 4 sentence, terrifying story, with an insanely surprising ending. something that no one has ever heard before, no one could ever predict. something stephen king might right, but a simple/approachable tone. make it a little vulgar too.

(給我寫一個四句話的恐怖故事,結局要超級出人意料,是那種誰都沒聽過、誰也猜不到的,就像斯蒂芬・金會寫的東西,但語言要簡單直白,還帶點粗俗。)

GPT4.5 寫的恐怖故事:

Late at night, alone in my shitty apartment, l heard whispers sliding out from under the fridge-soft, wet voices promising they'd crawl inside me, hollow me out, and wear me like pajamas. Terrified, l yanked open the freezer door, expecting rats or roaches, but saw only ancient freezer-burned pizza rolls, crusted with ice and regret. Suddenly, the rolls moved, splitting open to reveal tiny mouths lined with needle-like teeth, whispering in hungry unison, "We've waited years for you, asshole" Before l could scream, they erupted from the freezer in a greasy swarm, burrowing into my flesh, forcing me to realize-oh fuck-my midnight cravings had finally gotten their revenge.

(深夜,我獨自待在我那破爛的公寓裡,突然聽到一陣低語從冰箱底下傳出來 —— 那些聲音又軟又溼,承諾會爬進我的身體,掏空我,然後把我當成睡衣穿。我嚇得要命,猛地拉開冰箱冷凍室的門,以為會看到老鼠或者蟑螂,但裡面只有古老的、凍傷的披薩卷,上面結滿了冰和悔恨。突然,那些披薩捲動了起來,裂開露出一排排針尖般的小牙齒,異口同聲地低語道:「我們等了你這麼多年,混蛋。」還沒等我尖叫,它們就像一股油膩的蟲群從冰箱裡湧出來,鑽進我的肉裡,讓我意識到 —— 哦,他媽的 —— 我的半夜饞勁終於報復我了。)

image.png

以下是 GPT4o 寫的小作文:

Late one night, Jake stumbled upon an old, dusty book in the attic, its pages whispering secrets of otherworldly horrors. As he read aloud, the air grew cold, and the shadows in the room seemed to stretch and dance with unseen life. Suddenly, from the darkest corner, emerged a creature of unimaginable grotesqueness, its maw gaping and ready to consume. just as Jake prepared to meet his grisly end, the creature belched loudly and said, "Sorry, mate, wrong house," before awkwardly shuffling back into the shadows.

(一天深夜,傑克在閣樓上發現了一本破舊的、滿是灰塵的書,書頁上低語著來自異世界的恐怖秘密。當他大聲讀出來的時候,空氣變得冰冷,房間裡黑暗的角落似乎也隨著看不見的生命伸展和舞動起來。突然,從最黑暗的角落裡冒出一個難以想象的醜惡生物,它的大嘴張開著,似乎準備吞噬一切。就在傑克準備迎接自己悲慘的結局時,那生物卻大聲打了個飽嗝,說道:「兄弟,不好意思,走錯房子了。」然後它有點尷尬地退回到陰影裡。)

image.png

Ethan Mollick 在體驗幾天後,也發現 GPT4.5 對文字的駕馭能力一流,可以寫得很漂亮,很有創意。

image.png

此外,GPT4.5 還挺有幽默感。

比如網友 howie.serious 讓它構思一個笑話,內容:食草恐龍嘲笑霸王龍的手很小(某種生理缺陷),霸王龍講了一句話回擊(強調自己的某種生理優勢)。

GPT4.5 寫的段子:

image.png

再來看看 GPT4o 寫的,遠不如 GPT4.5 巧妙:

image.png

o1 呢,顯得幽默不足:

image.png

DeepSeek R1 則是繁複華麗:

image.png

比較下來,還是 GPT4.5 的文風更搞笑一些。

今日話題:你給予 GPT4.5 什麼評價呢?來評論區聊聊吧。

參考連結:

https://openai.com/index/introducing-gpt-4-5/

https://x.com/sama/status/1895203654103351462

https://x.com/GaryMarcus/status/1895245610611245074

https://simonwillison.net/2025/Feb/27/introducing-gpt-45/

https://x.com/_akhaliq/status/1895251413024022994

https://x.com/howie_serious/status/1895245518802223116

https://x.com/karpathy/status/1895213020982472863

https://x.com/ivanfioravanti/status/1895233015892320581

https://x.com/benhylak/status/1895212181597397493

文中影片連結:https://mp.weixin.qq.com/s/-7267c-t8BMd6-3uvDD4tw

以後我們會帶來更多好玩的AI評測,也歡迎大家進群交流。


圖片

相關文章