OpenAI 12連更第一彈:o1完全體,200刀一個月的ChatGPT Pro

机器之心發表於2024-12-06
一天前,OpenAI 官方 X 賬戶的一條推文將 AI 社群的期待值拉滿了。這家世界頭部 AI 公司宣佈將在未來的 12 天進行 12 場直播,釋出一些「大大小小的新東西」。
圖片
這是 OpenAI 準備的聖誕禮物。
圖片
至於這些「大大小小的新東西」究竟是什麼,各路網友都紛紛給出了自己的預測,大致總結一下主題包括 Sora、完全體 o1、更長的記憶能力、實時視覺能力、Canvas 整合、高階語音模式、Computer Use、智慧體甚至 AI 硬體裝置等。但究竟如何,還得等著 OpenAI 自己來揭示。

現在,OpenAI 的第一場直播來了!

總結來說,兩件事:期待已久的 o1 完全體(Full Version)、200 刀一個月的 ChatGPT Pro。
圖片
OpenAI 著名研究科學家 Noam Brown 發帖表示,o1 完全體不僅能數出「strawberry」裡有幾個「r」(此前的模型經常在這一問題上栽跟頭),還能更進一步,寫出「一篇不使用字母『e』的關於草莓的三段短文」(GPT-4o 也嘗試了這個任務,但第一個詞就失敗了)。
圖片
圖片
整場直播時間很短,大概 15 分鐘,參與者包括 CEO Sam Altman、研究科學家 Hyung Won Chung 和 Max 以及思維鏈提出者 Jason Wei。
圖片
影片:https://www.youtube.com/watch?v=iBfQTnA2n2s

o1 完全體

在今年 9 月份,OpenAI 釋出 o1-preview 版本時,就曾對 o1 的技術思路進行了介紹:o1 是使用大規模強化學習訓練並使用思維鏈進行推理的系列模型。

今天正式釋出了 o1 完全體,也放出了新的 o1 System Card:https://cdn.openai.com/o1-system-card-20241205.pdf

整體而言,o1 完全體是一款更擅長程式設計、數學和寫作的更快且更強大的推理模型,並且現在也增加了對影像上傳的支援,這讓 o1 可以使用視覺資料來生成更詳細和更有用的響應。

OpenAI 表示,OpenAI o1 的思維更加簡潔,因此響應時間比 o1-preview 更快。測試表明,o1 的效能也優於 o1-preview,將困難的現實問題的重大錯誤減少了 34%。
圖片
除了完全體 o1,還有個更輕便的 o1-mini 版本,在編碼方面特別高效。

如果你願意花更多錢,升級到 ChatGPT Pro,還可以體驗到 o1 pro 模式。這是 o1 的一個更高階版本,使用更多的計算進行更深入地思考,解答更難的問題。

與 o1 和 o1-preview 相比,o1 pro 模式在數學、科學和編碼等 ML 基準測試中表現更佳。OpenAI 發言人表示:「在外部專家測試人員的評估中,o1 pro 產生了更可靠、更準確、更全面的回應,尤其是在資料科學、程式設計和判例法分析等領域。與 o1 和 o1-preview 相比,o1 pro 模式在數學、科學和編碼方面具有挑戰性的機器學習基準測試中表現更好。特別是,我們發現在更容易反映日常程式設計查詢的編碼競賽題中,錯誤率降低了 75%。」
圖片
為了突出 o1 pro 模式的主要優勢(提高可靠性),OpenAI 使用更嚴格的評估設定:只有當模型在四次嘗試中有四次能夠正確回答問題(4/4 可靠性),而不是一次,才被認為解決了問題。
圖片
正在嚐鮮的使用者們也在陸陸續續發掘出有關 o1 的更多技術細節,比如所支援的最大 token 數量為 196608。

圖片

具體效果如何?

直播中,OpenAI 進行了演示。

首先,OpenAI 透過一個基於人工鳥巢影像生成安裝手冊的示例演示了 o1 基於視覺資料進行推理的能力:
圖片
識別手繪影像也問題不大。對於一張手繪的太空太陽能驅動的資料中心示意圖,o1 輕鬆估計出了其散熱器表面積並解答了兩個問題:如何處理太陽和深空環境,以及這裡如何體現了熱力學第一定律?並且整個推理過程僅需 10 秒鐘。
圖片圖片
推理速度方面,在解答「列出二世紀的羅馬皇帝的在位時間和成就」的任務中,o1 完全體的推理時間大概為 14 秒,而 o1-preview 大概需要 33 秒。並且 Altman 表示實際部署之後的速度還會更快。圖片
那麼,o1 處理更復雜問題的表現如何呢,比如能否基於多條描述推斷出所描述的蛋白質種類?(注意這個問題之前的 o1-preview 無法正確解答。)

最終,在 pro mode 下,o1 完全體在思考了 53 秒之後得到了正確答案,並且還可以在 canvas 中瞭解更多細節。圖片
相當昂貴的 ChatGPT Pro

OpenAI 宣佈為其人工智慧聊天機器人平臺 ChatGPT 推出新的訂閱套餐 ——ChatGPT Pro,可以無限制地訪問 OpenAI 的所有模型,包括其 o1「推理」模型的完整版本,但價格非常昂貴 —— 每月 200 美元。
圖片
OpenAI 技術人員 Jason Wei 表示:「我們認為 ChatGPT Pro 的受眾將是 ChatGPT 的高階使用者,他們已經在數學、程式設計和寫作等任務上將模型的能力推向極限。」

與大多數 AI 不同,o1 和其他推理模型可以有效地進行自我事實檢查。這有助於它們避免一些通常會使模型出錯的陷阱,但缺點是通常需要更長的時間才能找到解決方案。o1 透過任務進行推理、提前規劃並執行一系列行動來幫助模型梳理出答案。

OpenAI 在 9 月份釋出了 o1-preview,現在新版本 o1 的功能更加強大。

訪問 o1 不需要訂閱 ChatGPT Pro 套餐。所有 ChatGPT 付費使用者都可以透過 ChatGPT 模型選擇器工具訪問 o1。OpenAI 表示,計劃在未來幾個月內增加對網頁瀏覽、檔案上傳等功能的支援。
圖片
當然,升級到 ChatGPT Pro,還可以體驗到 o1 pro 模式。o1 pro 模式將「使用更多的計算來為最困難的問題提供最佳答案」。

ChatGPT Pro 使用者可以透過在模型選擇器中選擇「o1 pro 模式」並直接提問來訪問該功能。由於生成答案需要更長的時間,如果切換到另一個對話,ChatGPT 將顯示進度條併傳送應用內通知。

o1 pro 模式可能只是延長了模型在給出答案之前的「推理」時間。OpenAI 在其 o1 預覽版公告中表示,它的目標是試驗推理時間長達數小時、數天甚至數週的 o1 模型,以進一步提高其推理能力,而這很可能是朝這個方向邁出的一步。

OpenAI 還宣佈了一項捐贈計劃,向知名機構的醫學研究人員贈送 10 套 ChatGPT Pro。該公司表示,他們未來還計劃在「各個學科」提供更多捐贈。

為了增加吸引力,ChatGPT Pro 還包括無限制訪問 GPT-4o 和高階語音模式(ChatGPT 的人機對話功能)。ChatGPT Plus 使用者有每日使用時間限制,而免費使用者僅限於預覽。

然而,ChatGPT Pro 是 OpenAI 目前最昂貴的訂閱服務,是 ChatGPT Plus 的 10 倍。考慮到許多使用者已經認為 ChatGPT Plus 太貴,ChatGPT Pro 可能很難賣出去。

實際上,高階 ChatGPT 的漲價傳聞由來已久。據《紐約時報》報導,到 2029 年,OpenAI 預計 ChatGPT Plus 的月收費將達到 44 美元。根據 The Information 的報導,該公司還萌生了超高價商業訂閱的想法,這些訂閱可提供額外的功能,並可訪問正在開發的模型。

現在看來,這些傳聞基本屬實。

這些舉措反映出投資者對 OpenAI 縮小虧損的壓力。據《紐約時報》報導,雖然該公司 8 月份的月收入達到了 3 億美元,但 OpenAI 預計今年將虧損約 50 億美元。人員、辦公室租金和 AI 訓練基礎設施等開支都是虧損的根源。據報導,僅 ChatGPT 一項就一度讓 OpenAI 每天損失 70 萬美元。

OpenAI 的第一天直播最終在一個與聖誕相關的笑話中結束:

聖誕老人希望使用 LLM 來解決數學問題,他努力使用了很多提示詞,但效果都不好,那麼他最終怎麼解決了這個問題呢?

答案是他使用了 reindeer forcement learning。
圖片
對於今天的釋出,你怎麼看呢?

參考連結:https://techcrunch.com/2024/12/05/openai-confirms-its-new-200-plan-chatgpt-pro-which-includes-reasoning-models-and-more/
https://www.youtube.com/watch?v=iBfQTnA2n2s

相關文章