神秘GPT模型引爆社群,GPT-4.5、GPT-5謠言滿天飛,奧特曼線上圍觀

机器之心發表於2024-04-30
這場等待「GPT-5」的遊戲啥時候才能結束?

GPT-5 啥時候來?估計是 AI 領域最關心的問題之一了。是像 Sora 一樣毫無預兆的釋出,還是我們可以從邊角料的爆料中得知一點點資訊,大家對未來將要釋出的這一模型充滿了期待。

但奧特曼在一次訪談中表示,OpenAI 現在採用迭代部署的方式進行研發,而不是秘密進行直到完成 GPT-5 才公佈,他們的目標不是給世界帶來震驚性的更新,恰恰相反,OpenAI 希望自己研發的成果不會給人一種跳躍式的發展趨勢,如果大家有那種感覺的話,OpenAI 會更加快速迭代地釋出他們的產品,比如在釋出 GPT-5 之前,先上線 GPT-4.5。

無論如何,大家對 GPT-5 的好奇心已經拉滿。傳言中 OpenAI 今天會有一些大的釋出,我們也沒有等來。

不過,LMSYS Chatbot Arena 上出現了一個神秘的模型,在社交媒體上引起了廣泛的熱議。

圖片

這個神秘的模型名為「gpt2-chatbot」,當有人問是誰建立了它?該模型自己的回覆時竟然是 OpenAI,並且是基於 GPT-4 架構。

圖片

圖片

圖源:X@TomDavenport

這個模型吸引了大量網友的圍觀和測試,結果很多人發現,gpt2-chatbot 的能力似乎與 GPT-4 保持在同一水準,甚至在一些任務上的表現比 GPT-4 Turbo 還要好。

因此,網友們紛紛猜測,gpt2-chatbot 是 GPT-4 的某個新版本,比如 GPT-4.5,或者 GPT-5 的測試版。

圖片

圖源:X@elder_plinius

還有人扯到了消失了很久的 OpenAI 首席科學家 Ilya Sutskever,說 gpt2-chatbot 實際上是 Ilya 在答題。

圖片

圖源:X@roramora0

不過今早,奧特曼神叨叨地回覆了一句,表示對 gpt2 情有獨鍾。GPT-2 於 2019 年推出,引數量為 15 億。

圖片

奧特曼的編輯記錄更加激起了網友的好奇,先是 gpt-2 後是 gpt2,難道 gpt2(二代)要來了嗎?

圖片

圖源:X@andromeda74356

不管 gpt2-chatbot 最終是什麼,我們先來看看它在哪些任務上表現更強。

神秘的 gpt2-chatbot 強在哪裡?

先來看 gpt2-chatbot 與 gpt-4-trubo 分別畫獨角獸(TikZ 獨角獸)的效果對比,顯然前者的效果更好一點。

圖片

圖片

圖源:X@JoshhuaSays

另一個類似的畫獨角獸示例,gpt2-chatbot 與 Claude Opus 的效果比較。

圖片

下圖從左往右依次是 GPT-4 Turbo、Llama 3 和 Gemini 1.5 pro 的生成效果。

圖片

圖源:X@SullyOmarr

再來看數學方面的一些例子,其中 gpt2-chatbot 可以一次性地解答國際數學奧林匹克(IMO)問題。

圖片

圖源:X@itsandrewgao

不僅如此,有人發現了 gpt2-chatbot 比其他所有模型表現都要好的任務:「A+B-1」問題

圖片

圖片

圖源:X@DimitrisPapail

對於一些邏輯推理題,gpt2-chatbot 也更擅長,並強於其他大模型。

比如,當問 gpt2-chatbot「我今天有 3 個蘋果,昨天吃了一個。現在有幾個蘋果?」它給出的回覆很準確(3 個),並解釋了原因(昨天吃了一個並不影響現在有幾個蘋果)。很少能有模型回答對這個典型的推理題。

圖片

作為對比,GPT-4、Claude-3 Opus、Gemini Ultra、Llama 3-70b 都回答錯了。

圖片

圖源:X@airesearch12

再比如,「Jessica 有兩個兄弟和一個姐妹。她的兄弟各有多少個姐妹?」顯然 gpt2-chatbot 回答對了。

圖片

而 Claude-3 Opus 搞錯了。

圖片

圖源:X@skirano

此外,gpt2-chatbot 在一些哲學問題上也答得很好,在完整性和基本事實方面,與 GPT-4 Turbo 相比,具有非常相似的解答思路。

圖片

圖源:X@anonkanav

圖靈獎得主 Yann LeCun 也趕來圍觀,不過他並不看好這個模型,並表示人工智慧的炒作已經變成了諷刺。

圖片

LeCun 之所以這樣說,是因為有人問 gpt2-chatbot「一個農夫帶著一隻羊和一隻山羊站在河的左岸,旁邊有一條船。船隻能裝下一個人和兩個動物。農夫如何帶著羊和山羊到達河的右岸,並儘可能減少旅行次數?」

對於這個問題,正常來說只需一趟就可以了,但 gpt2-chatbot 把答案弄得非常複雜,還分了 5 步完成。

圖片

圖源:https://twitter.com/ylecun/status/1785100806695325804

可以說,這些測試結果讓我們看到了 gpt2-chatbot 在畫圖、數學、邏輯推理等任務上的不俗能力,同時也會出現將簡單問題複雜化的情況。但要說它就是 GPT-4 或 GPT-5,有人還是不同意。

圖片

因此,有人猜測 gpt2-chatbot 實際上還是此前的 GPT-2,但是使用現代助理資料集進行了微調。在這種情況下,這意味著 OpenAI 最初的預訓練效果仍然令人驚歎,並在幾年後仍比其他模型更好。

圖片

圖源:X@albfresco

如何體驗?

首先你需要進入 chat.lmsys.org:

在如下的介面中,點選 Direct Chat:

圖片

然後選擇 gpt2-chatbot 就可以測試了:

圖片

不過,當我們向 gpt2-chatbot 提問時,收到提示「此模型速率已達到上限」,看來大家只能再等等了。

圖片

地址:https://chat.lmsys.org/?&continueFlag=7c6341bdf97e0feac7657a2181eabc99

除了 gpt2-chatbot,OpenAI 今天還發布了一個訊息,他們在 2 月份宣佈的 Memory 功能,現在可供所有 ChatGPT Plus 付費使用者使用。

圖片

相關文章