氛圍感成為OpenAI最大模型GPT-4.5亮點

banq發表於2025-03-02

GPT-4.5 的進步更多體現在“氛圍感”上,而不是基準測試。GPT-4.5更像一個女性,而不是理工直男。

OpenAI 的 CEO 奧特曼 剛當了爸爸(與另外一個男人結婚),沒參加 GPT-4.5 的釋出會,但他在 X 上評論說:“這是第一個讓我感覺像是在和一個有思想的人對話的模型。有好幾次,我坐在椅子上,驚訝地發現 AI 真的給了我很好的建議。” 奧特曼 強調,GPT-4.5 不是推理模型,也不會打破基準記錄:“這是一種不同型別的智慧,有一種我從未感受過的魔力。”

OpenAI 的創始成員 Andrej Karpathy 也看到了類似的進步,儘管他覺得很難量化。他在評論中說,每次版本號增加 0.5,訓練計算量大概會增加 10 倍。

Karpathy 回顧了 GPT 模型的演變:從勉強能生成連貫文字的 GPT-1,到像“令人困惑的玩具”一樣的 GPT-2,再到 GPT-3,結果明顯更有趣。接著,GPT-3.5 跨過了市場準備的門檻,引發了 OpenAI 的“ChatGPT 時刻”。

Karpathy 說,到了 GPT-4,改進已經變得更微妙了。他寫道:“一切都好了一些,但以一種分散的方式。”詞彙選擇更有創意,對提示的理解更細緻,類比更有意義,模型也稍微有趣了一點,幻覺出現的頻率也降低了。

他用同樣的期望測試了 GPT-4.5,這個模型的訓練計算量是 GPT-4 的十倍。他的結論是:“兩年前我也參加過同樣的駭客馬拉松。一切都好一點,很棒,但也並非毫無亮點。”

GPT-4.5 的表現有好有壞
在一些測試中,GPT-4.5 表現出了明顯的進步:

  • 比如在 SimpleQA 測試中,它的準確率達到了 62.5%,而 GPT-4o 只有 38.2%,最近釋出的 Grok 3 也只有 43.6%。
  • 它的“幻覺率”也從 61.8% 降到了 37.1%,比 o1 和 o3-mini 都要好。
  • 在多語言和多模態測試中,它的成績也超過了 GPT-4o 和 o3-mini。

在人工評估測試中,測試人員更喜歡 GPT-4.5 的回答,無論是創意問題、專業問題還是日常問題。

不過,在 STEM(科學、技術、工程、數學)領域的測試中,GPT-4.5 還是比不上 o3-mini 這樣的推理模型。

  • 比如在 GPQA(自然科學)測試中,GPT-4.5 的得分是 71.4%,而 o3-mini 達到了 79.7%。
  • 在數學測試中,GPT-4.5 的得分是 36.7%,雖然比 GPT-4o 的 9.3% 高很多,但離 o3-mini 的 87.3% 還差得遠。

在編碼任務中,GPT-4.5 的表現比 GPT-4o 好,但成本也高得多。比如在 SWE-Lancer Diamond 測試中,GPT-4.5 的得分是 32.6%,而 GPT-4o 只有 23.3%,o3-mini 是 10.8%。在 SWE-Bench 驗證測試中,GPT-4.5 的得分是 38.0%,GPT-4o 是 30.7%,o3-mini 則是 61.0%。

最近釋出的 Claude 3.7 Sonnet 在 Anthropic 的測試中表現也不錯,但不同模型的測試方法和問題集不一樣,所以不能直接比較。

總的來說,GPT-4.5 在基準測試中沒有表現出巨大的飛躍,最好的結果可能是在 SimpleQA 測試中。

未來幾天,可能會有很多關於“擴充套件是否已經到頭撞牆”、“深度學習是否遇到瓶頸”之類的討論。

網友討論:
預訓練很重要,但你也得透過合適的後訓練來真正用好它。如果你預測的東西很傻,那預測下一個詞就沒啥意義了。

我們現在有4種擴充套件模型的方式:預訓練、後訓練、強化學習/推理(RL/Reasoning)和推理時間計算。我們應該好好研究怎麼把這四種方式都做到位。

GPT-4.5 的問題在於它太大了,導致很難擴充套件,尤其是強化學習/推理和推理時間計算。

一個關鍵問題是,你需要一個在輸出擴充套件時不會受到“KV-Cache”嚴重影響的架構。o 系列已經有這個問題了,所以價格比 4o 還高。到了 GPT-4.5,這問題直接變成了噩夢。

另外,如果你用Chinchilla 縮放定律來搞強化學習/推理,它會更傾向於更小、更快的模型,原因有三個:

  1. 大多數最佳化不需要特別複雜的表示,而是更壓縮的,因為它不需要驗證太多知識,而是更注重推理和直覺。
  2. 完成強化學習目標通常需要很多計算,所以能更快完成的模型更受歡迎。
  3. 對於不太常見的任務,需要更多計算,這也意味著反向傳播更少,所以更快、更小的模型更吃香。

還有推理時間計算,除非你有無限的計算資源,否則它更適合那些經過更嚴格訓練的模型。把每種方式都做到位,然後再提煉成小模型,可能會得到最好的結果。

但總的來說,強化學習/推理還是更適合小模型,而不是預訓練。
GPT-4.5 也不是完全沒用,它可以透過更好的後訓練來改進,也可能對模型蒸餾有幫助。

真正的問題是,它顯然沒預見到未來推理模型需要的架構和最佳化。

現在,因為它後訓練能力弱,幾乎不適合任何任務,再加上 API 定價太高,就顯得特別離譜和讓人失望。

相關文章