自從 OpenAI 的 o1 問世以來,它強大的推理能力就承包了 AI 圈近期的熱搜。不需要專門訓練,它就能直接拿下數學奧賽金牌,甚至可以在博士級別的科學問答環節上超越人類專家。
展示 o1 實力的 demo,我們看了不少,評估 o1 表現的評測,全網比比皆是,關於 o1 技術路線的討論也如火如荼,引發了廣泛的關注和深入的思考。不過 o1 背後的故事,還鮮為人知,那些在幕後默默付出的團隊成員們,他們的故事同樣值得被講述和銘記。剛剛,OpenAI 釋出了 o1 研發團隊的完整訪談,為我們揭秘了 o1 的「成長曆程」。o1 如何一步步蛻變,最終成為一個「智商高達 120」的非凡存在?他們是將強化學習和監督學習兩種正規化結合起來的?這背後是無數的突破與挑戰,OpenAI o1 的研究人員與 OpenAI 研究團隊的負責人 Bob McGrew 暢談了研發過程中的「Aha moments」—— 那些破解瓶頸、靈感迸發、豁然開朗的瞬間。在訪談中,他們揭秘了 o1 團隊的關鍵人物,最早由 Jakub Pachocki 進行了一些探索,後來又和Łukasz Kaiser (Transformer 作者之一)和 Ilya Sutskever 進行了早期的探索。這可能也是為什麼雖然 Ilya 已經離職,但仍出現在貢獻者名單前列的理由。o1 專案的關鍵時刻是 Jerry Tworek 整合了這些內容,並繼續推動專案。
原影片連結:https://www.youtube.com/watch?v=tEzs3VHyBDMHyung Won Chung:我們將使用新名稱 o1 推出一系列新模型。這是為了強調這樣一個事實:與 GPT-4 等以前的模型相比,您在使用 o1 時可能會感到不同。o1 是個推理模型,它在回答你的問題之前會做更多思考。我們將釋出兩個模型:o1 preview,也就是 o1 的內容預覽版,還有采用了與 o1 相似的訓練框架、更小更快的 o1 mini。希望你喜歡我們的新命名方案 o1。Giambattista Parascandolo:可以這麼理解:對於一些需要立即回答的簡單問題,例如,「義大利的首都是哪裡?」,不用想太多,就知道答案是羅馬。但是如果想要解一個複雜的謎題、想精心策劃一份商業企劃書、或者想寫小說,那可能需要很多思考。想得越多,可能成果越好。因此,可以說推理是一種把思考時間轉化為更好成果的能力。Giambattista ParascandoloJakub Pachocki:在 OpenAI 的初創時期,我們深受 AlphaGo 的啟發,意識到了深度強化學習的巨大潛力。因此,我們在這方面投入了大量研究,在資料和機器人技術方面取得了很好的擴充套件效果。我們一直在思考如何在通用領域中應用強化學習,以創造出強大的人工智慧。GPT 的成功,讓我們見證了擴充套件和監督學習的正規化所帶來的驚人結果。從那時起,我們就一直在思考如何將這兩種不同的正規化結合起來。o1 專案的初創成員:Jakub PachockiMark Chen:很難確切指出 o1 是從哪個具體的時刻開始的。最早和 Yakob 進行了一些探索,後來又和Łukasz 和 Ilya 進行了早期的探索。關鍵時刻是 Jerry 一起整合了這些內容,並由 Jerry 來推動專案。 Jerry Tworek:我們訓練了 GPT-2、GPT-3、GPT-4,模型剛出爐時,我們開始與模型對話,人們都說:「哇,這個模型真的很棒。」在訓練過程中,有一個特定的時刻,我們投入了更多的計算資源,並訓練模型生成連貫的思維鏈。然後我們看到:「哇,這看起來和以前真的有顯著的不同。」對我來說,那就是「Aha Moment」。Trapit Bansal:與此相關的另一個發現是。當我們開始考慮要訓練一個推理模型時,我最先想到的方法就是,可以讓人類寫下他們的思維過程,然後以此進行訓練。我的「Aha Moment」是當我們發現,透過使用強化學習來訓練模型生成和打磨它自己的思維鏈,效果竟然比讓人類為其寫下思維鏈更好。我們意識到可以真正擴充套件這個方法,並且專家模型也可以透過這種方式進行推理。Hunter Lightman:我們一直在嘗試提升模型的數學能力。我們為此付出了很多努力,也曾嘗試過很多不同方法。但有一件事讓我一直很在意,每次我閱讀模型的輸出時,我總是感到非常沮喪。模型似乎從不質疑自己哪裡出了錯,尤其是在犯錯的時候。但是,當在訓練 o1 模型的早期,我們開始與它進行對話,並向它提出這些問題,它在數學測試中的得分變高了。我們可以觀察到它是如何推理的,你可以清楚地看到它開始質疑自己,並進行有趣的反思。對我來說,那一刻我心想,「我們做出了全新的發現,這是一切都融會貫通起來了的時刻。」當你閱讀這些思維過程時,感覺像是在看一個人類的思考,還是像在看一個機器人?Liam Fedus:這更像是一種精神體驗。你可以與模型共鳴,可以看到它犯了很多人類常犯的錯誤,你還能看到它在質疑一些世俗常規。但在行為上,模型卻表現得出奇地像人類。 Wojciech Zaremba:還有一點很酷:當我們給模型設定思考時間的 ddl 時,它往往會在快到時間截止點時迅速得出結論,它彷彿意識到了:「哎呀,我必須現在完成了!」Jerry Tworek:從本質上講,訓練大型模型是非常困難的事情,有成千上萬的事情可能出錯,實際在每一輪訓練中至少有數百個地方確實出錯了。幾乎每個人都投入了大量的心血、汗水和眼淚去訓練這些模型,並想辦法讓它們繼續學習和改進。通向成功的道路非常狹窄,而失敗的可能性卻很多。Ilge Akkaya:這個模型非常優秀,很多時候甚至表現得比人類還要好,就像擁有好幾個博士學位的水平。但這有時也是一種挑戰,因為我們經常需要驗證模型是否沒有偏離軌道,或者是否在做一些不合理的事情。隨著模型規模的擴大,這開始變得非常耗時;我們已經用盡了所有行業級資源,但我們不知道接下來應該找什麼,所以這也是一個挑戰。Shengjia Zhao:讓 o1 數 Strawberry 裡有多少 r。Hunter Lightman:我們經常去推特上搜誰發了個帖子:「大語言模型不能做...」,我們就複製貼上過來,輸入我們的模型進行測試,驗證它是否能做到內部人士如何使用 o1?Hyung Won Chung:我使用 o1 來程式設計,畢竟我的工作大部分就是程式設計。所以我現在更多地專注於問題的定義,並採用 TDD(測試驅動開發)方法,與其編寫直接能實現功能的程式碼,我更傾向編寫一個單元測試,明確程式應該如何執行才能算正確,然後交給 o1 來完成。這樣我可以把精力放在更重要、更高層次的問題上。另一個方面是除錯。當我遇到 bug 時,我現在會直接交給 o1, 它會輸出一些提示。有時它能夠立即解決問題,即使沒能解決,它至少能引導我提出更好的問題,提供更有價值的思路。Jerry Tworek:我越來越多地用 o1 來學習,向它詢問各種複雜的技術問題時,它產生的幻覺更少,並且比以前的模型解釋得更好。Jason Wei:對我來說,我喜歡把 o1 當作一個頭腦風暴的夥伴,從解決某個非常具體的機器學習問題到如何寫一篇部落格都適用。比如,我最近寫了一篇關於語言模型評估的部落格,我向 o1 詢問了有關博文結構的想法、某些基準測試的優缺點,甚至包括寫作風格的建議。因為它在給出最終答案之前會思考,更好地更好地連線起思路,它還可以修改和評估備選的方案。Liam Fedus:當你只有一些散亂的思路時,它可以幫你將這些想法串聯起來,找出遺漏的部分。透過它的最終答案和它的思維過程,它真的能夠為你帶來更好的結果。Hongyu Ren:是的,我用它來嘗試我們內部的一些「秘密想法」,並努力改進。這個專案中有沒有哪些部分是必須的,但人們可能沒有意識到它有多重要?Łukasz Kondraciuk:我認為,建立實驗室規模的可靠基礎設施,用來執行我們最大、最重要的模型訓練平臺以及進行研究實驗,雖然不像研究本身那麼令人興奮,但卻至關重要,對整個專案的成功產生了巨大影響。”Jerry Tworek:我覺得 OpenAI 在如何構建其研究方面有一些特別之處,我們同樣重視演算法進步和建立可靠的大規模系統,以及建立用於訓練這些模型的資料集。我為 OpenAI 這一點感到非常自豪。Jakub Pachocki:每次我們將某件事擴大一個數量級時,都會遇到一組新的問題 —— 包括演算法和基礎設施方面的問題 ——OpenAI 無疑已經發展出了同時解決這兩個方面問題的強大能力。Hongyu Ren:我們的動機是希望將 o1 系列帶給更多的使用者,並降低成本。因此,我們建立了 o1 Mini,它的設計目的是展示整個 o1 管道或框架的簡化版本。我們讓它成為一個推理專家,它可能不一定知道你最喜歡的名人的生日,但它確實能夠非常有效地理解如何進行推理。它比我們之前最好的推理模型要聰明得多,並且幾乎與我們最好的模型 o1 持平。它確實有一些限制,比如可能不知道很多外界的資訊,尤其是與科學或技術無關的內容。但我們努力讓它大致與我們之前最好的模型(如 GPT-4o mini)相當。我們正在進一步改進它,我非常期待外部使用者能夠嘗試體驗這種「閃電般」的推理和思維。