AI 圈的頭條被 DeepSeek 承包了十幾天,昨天,OpenAI 終於坐不住了,推出了全新推理模型系列 o3-mini。不僅首次向免費使用者開放了推理模型,而且相比之前的 o1 系列,成本更是降低了 15 倍之多。
OpenAI 也稱這是其推理模型系列中最新、最具成本效益的模型:
剛剛上線,已經有網友迫不及待的拿它和席捲整個大模型圈的國產大模型 DeepSeek R1 進行對比了。前段時間,AI 社群開始沉迷用 DeepSeek R1 和其他(推理)模型比拼這個任務:「編寫一個 Python 指令碼,讓一個球在某個形狀內彈跳。讓該形狀緩慢旋轉,並確保球停留在形狀內。」這種模擬彈跳球的測試是一個經典的程式設計挑戰。它相當於一個碰撞檢測演算法,需要模型去識別兩個物體(例如一個球和一個形狀的側面)何時發生碰撞。編寫不當的演算法會出現明顯的物理錯誤。在 DeepSeek R1 席捲國內外熱搜,微軟、英偉達、亞馬遜等美國雲端計算平臺爭先恐後引進 R1 的同時,R1 也在這個任務中完成了對 OpenAI o1 pro 的碾壓。再看 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 的生成結果,DeepSeek 旗下的開源模型高出的確實不只是一個 level。然而,在 o3-mini 上線後,劇情似乎一夜反轉了,比如這個帖子宣稱 OpenAI o3-mini 碾壓了 DeepSeek R1。目前已引發近 400 萬網友圍觀。該開發者用的 prompt 是:"write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically"也就是分別讓 o3-mini 和 DeepSeek R1 寫一個球在旋轉的六邊形內彈跳的 python 程式,小球跳動的過程中要遵循重力和摩擦力的影響。最後的展示效果如下:從效果來看,o3-mini 把碰撞、彈跳效果展示的更好。從對重力和摩擦力的理解來看,DeepSeek R1 版本的小球似乎有點壓不住牛頓的棺材板了,完全不受重力控制。這並非個案,@hyperbolic_labs 聯合創始人 Yuchen Jin 在此之前也發現了這個問題,他分別向 DeepSeek R1 和 o3-mini 輸入了提示詞:write a python script of a ball bouncing inside a tesseract(編寫一個 Python 指令碼,模擬一個球在四維超立方體內部彈跳)。四維超立方體的每個頂點與四條稜相鄰,每條稜則連線兩個立方體。四維空間內的幾何圖形超出了人類的直觀感知範圍,所以聽著這些描述,我們可能很難想象出一個四維超立方體長什麼樣子。而 o3mini 不僅展現出了穩定的幾何結構,小球在四維空間內彈跳的運動軌跡也較為靈活,有撞到立方體側面的打擊感。再來看 DeepSeek R1 這邊,它對四維超立方體的形狀理解似乎還不夠深入透徹。同時,小球在其中的運動軌跡也顯得有些詭異,有一種「飄忽不定」的感覺。據 Yuchen Jin 稱,他試了很多次,所有用 DeepSeek R1 嘗試都比一次性的 o3-mini 要差,比如下面這次就剩下球了。機器之心也親測了一把,同樣是 Pass@1 測試,DeepSeek R1 這次是既有球又有幾何外框了,甚至小球還會變換顏色色,遺憾的是,它把四維超立方體簡化成了三維空間座標軸。o3-mini 的表現則有些「買家秀」的意味,明明和 Yuchen Jin 輸入的是完全一樣的提示詞,為什麼 o3-mini 就不會了?得不到如上所示的「賣家秀」了呢?看來,在生成小球在幾何外框內跳動的程式這方面,DeepSeek R1 並不是完全是 o3-mini 的手下敗將。AIGC 從業者 @myapdx 用了一個更加複雜的同類提示詞來測試 o3-mini 和 DeepSeek R1:編寫一個 p5.js 指令碼,模擬 100 個彩色小球在一個球體內部彈跳。每個小球都應留下一條逐漸消失的軌跡,顯示其最近的路徑。容器球體應緩慢旋轉。請確保實現適當的碰撞檢測,使小球保持在球體內部。提示詞裡的這麼多項要求:在球體內部彈跳、留下逐漸消失的軌跡、容器緩慢旋轉......o3-mini 都完美滿足。而 DeepSeek R1 的效果,好像也沒差到哪裡去:至於為什麼會出現這樣的差異,Yuchen Jin 和 @myapdx 都在帖子中提到,這個任務對模型如何理解真實世界的物理規律有所反應。模型需要綜合自己對語言、幾何、物理和程式設計的理解,方能得出最後的模擬結果。從前兩輪的結果看來,o3-mini 有可能是物理學得最好的大模型。與此同時,OpenAI 也在昨天的釋出部落格中強調過,在博士極科學問題方面 o3-mini-low 的表現優於 o1-mini。o3-mini-high 的表現與 o1 相當,在博士級生物學、化學和物理問題上都有顯著進步。對人類來說,理解小球跳動時的重力和摩擦力並不算困難,但在大語言模型領域,這種對物體物理狀態的「世界模型」理解能力,直到最近才真正突破。還有網友猜測,DeepSeek R1 的程式有時只有一個球,會不會是它想得太多了?https://x.com/flavioAd/status/1885449107436679394https://x.com/iamRezaSayar/status/1885760491466997791https://x.com/Yuchenj_UW/status/1885416559029740007https://x.com/Yuchenj_UW/status/1885472365309833382