o1 研發團隊完整採訪:Ilya早期曾參與,靈感源於AlphaGo

机器之心發表於2024-09-22

自從 OpenAI 的 o1 問世以來,它強大的推理能力就承包了 AI 圈近期的熱搜。不需要專門訓練,它就能直接拿下數學奧賽金牌,甚至可以在博士級別的科學問答環節上超越人類專家。

展示 o1 實力的 demo,我們看了不少,評估 o1 表現的評測,全網比比皆是,關於 o1 技術路線的討論也如火如荼,引發了廣泛的關注和深入的思考。

不過 o1 背後的故事,還鮮為人知,那些在幕後默默付出的團隊成員們,他們的故事同樣值得被講述和銘記。

剛剛,OpenAI 釋出了 o1 研發團隊的完整訪談,為我們揭秘了 o1 的「成長曆程」。o1 如何一步步蛻變,最終成為一個「智商高達 120」的非凡存在?他們是將強化學習和監督學習兩種正規化結合起來的?這背後是無數的突破與挑戰,OpenAI o1 的研究人員與 OpenAI 研究團隊的負責人 Bob McGrew 暢談了研發過程中的「Aha moments」—— 那些破解瓶頸、靈感迸發、豁然開朗的瞬間。

在訪談中,他們揭秘了 o1 團隊的關鍵人物,最早由 Jakub Pachocki 進行了一些探索,後來又和Łukasz Kaiser (Transformer 作者之一)和 Ilya Sutskever 進行了早期的探索。這可能也是為什麼雖然 Ilya 已經離職,但仍出現在貢獻者名單前列的理由。

o1 專案的關鍵時刻是 Jerry Tworek 整合了這些內容,並繼續推動專案。

o1 研發團隊完整採訪:Ilya早期曾參與,靈感源於AlphaGo

原影片連結:https://www.youtube.com/watch?v=tEzs3VHyBDM

以下是對訪談主要內容摘錄:

什麼是 o1?

Hyung Won Chung:我們將使用新名稱 o1 推出一系列新模型。這是為了強調這樣一個事實:與 GPT-4 等以前的模型相比,您在使用 o1 時可能會感到不同。o1 是個推理模型,它在回答你的問題之前會做更多思考。我們將釋出兩個模型:o1 preview,也就是 o1 的內容預覽版,還有采用了與 o1 相似的訓練框架、更小更快的 o1 mini。希望你喜歡我們的新命名方案 o1。
圖片
Hyung Won Chung

什麼是推理?

Giambattista Parascandolo:可以這麼理解:對於一些需要立即回答的簡單問題,例如,「義大利的首都是哪裡?」,不用想太多,就知道答案是羅馬。但是如果想要解一個複雜的謎題、想精心策劃一份商業企劃書、或者想寫小說,那可能需要很多思考。想得越多,可能成果越好。因此,可以說推理是一種把思考時間轉化為更好成果的能力。
圖片
Giambattista Parascandolo

你們研究 o1 多久了?

Jakub Pachocki:在 OpenAI 的初創時期,我們深受 AlphaGo 的啟發,意識到了深度強化學習的巨大潛力。因此,我們在這方面投入了大量研究,在資料和機器人技術方面取得了很好的擴充套件效果。我們一直在思考如何在通用領域中應用強化學習,以創造出強大的人工智慧。GPT 的成功,讓我們見證了擴充套件和監督學習的正規化所帶來的驚人結果。從那時起,我們就一直在思考如何將這兩種不同的正規化結合起來。
圖片
o1 專案的初創成員:Jakub Pachocki

Mark Chen:很難確切指出 o1 是從哪個具體的時刻開始的。最早和 Yakob 進行了一些探索,後來又和Łukasz 和 Ilya 進行了早期的探索。關鍵時刻是 Jerry 一起整合了這些內容,並由 Jerry 來推動專案。

圖片
o1 專案的初創成員:Łukasz Kaiser
圖片
o1 專案的關鍵人物:Jerry Tworek

圖片
Mark Chen

你們有沒有過「Aha Moment」?

Jerry Tworek:我們訓練了 GPT-2、GPT-3、GPT-4,模型剛出爐時,我們開始與模型對話,人們都說:「哇,這個模型真的很棒。」在訓練過程中,有一個特定的時刻,我們投入了更多的計算資源,並訓練模型生成連貫的思維鏈。然後我們看到:「哇,這看起來和以前真的有顯著的不同。」對我來說,那就是「Aha Moment」。

Trapit Bansal:與此相關的另一個發現是。當我們開始考慮要訓練一個推理模型時,我最先想到的方法就是,可以讓人類寫下他們的思維過程,然後以此進行訓練。我的「Aha Moment」是當我們發現,透過使用強化學習來訓練模型生成和打磨它自己的思維鏈,效果竟然比讓人類為其寫下思維鏈更好。我們意識到可以真正擴充套件這個方法,並且專家模型也可以透過這種方式進行推理。

Hunter Lightman:我們一直在嘗試提升模型的數學能力。我們為此付出了很多努力,也曾嘗試過很多不同方法。但有一件事讓我一直很在意,每次我閱讀模型的輸出時,我總是感到非常沮喪。模型似乎從不質疑自己哪裡出了錯,尤其是在犯錯的時候。

但是,當在訓練 o1 模型的早期,我們開始與它進行對話,並向它提出這些問題,它在數學測試中的得分變高了。我們可以觀察到它是如何推理的,你可以清楚地看到它開始質疑自己,並進行有趣的反思。對我來說,那一刻我心想,「我們做出了全新的發現,這是一切都融會貫通起來了的時刻。」

當你閱讀這些思維過程時,感覺像是在看一個人類的思考,還是像在看一個機器人?
Liam Fedus:這更像是一種精神體驗。你可以與模型共鳴,可以看到它犯了很多人類常犯的錯誤,你還能看到它在質疑一些世俗常規。但在行為上,模型卻表現得出奇地像人類。

Wojciech Zaremba:還有一點很酷:當我們給模型設定思考時間的 ddl 時,它往往會在快到時間截止點時迅速得出結論,它彷彿意識到了:「哎呀,我必須現在完成了!」

你們遇到了哪些障礙?

Jerry Tworek:從本質上講,訓練大型模型是非常困難的事情,有成千上萬的事情可能出錯,實際在每一輪訓練中至少有數百個地方確實出錯了。幾乎每個人都投入了大量的心血、汗水和眼淚去訓練這些模型,並想辦法讓它們繼續學習和改進。通向成功的道路非常狹窄,而失敗的可能性卻很多。

Ilge Akkaya:這個模型非常優秀,很多時候甚至表現得比人類還要好,就像擁有好幾個博士學位的水平。但這有時也是一種挑戰,因為我們經常需要驗證模型是否沒有偏離軌道,或者是否在做一些不合理的事情。隨著模型規模的擴大,這開始變得非常耗時;我們已經用盡了所有行業級資源,但我們不知道接下來應該找什麼,所以這也是一個挑戰。

你們用什麼方法來測試模型?

Shengjia Zhao:讓 o1 數 Strawberry 裡有多少 r。

Hunter Lightman:我們經常去推特上搜誰發了個帖子:「大語言模型不能做...」,我們就複製貼上過來,輸入我們的模型進行測試,驗證它是否能做到內部人士如何使用 o1?

Hyung Won Chung:我使用 o1 來程式設計,畢竟我的工作大部分就是程式設計。所以我現在更多地專注於問題的定義,並採用 TDD(測試驅動開發)方法,與其編寫直接能實現功能的程式碼,我更傾向編寫一個單元測試,明確程式應該如何執行才能算正確,然後交給 o1 來完成。這樣我可以把精力放在更重要、更高層次的問題上。

另一個方面是除錯。當我遇到 bug 時,我現在會直接交給 o1, 它會輸出一些提示。有時它能夠立即解決問題,即使沒能解決,它至少能引導我提出更好的問題,提供更有價值的思路。

Jerry Tworek:我越來越多地用 o1 來學習,向它詢問各種複雜的技術問題時,它產生的幻覺更少,並且比以前的模型解釋得更好。

Jason Wei:對我來說,我喜歡把 o1 當作一個頭腦風暴的夥伴,從解決某個非常具體的機器學習問題到如何寫一篇部落格都適用。比如,我最近寫了一篇關於語言模型評估的部落格,我向 o1 詢問了有關博文結構的想法、某些基準測試的優缺點,甚至包括寫作風格的建議。因為它在給出最終答案之前會思考,更好地更好地連線起思路,它還可以修改和評估備選的方案。

圖片

Jason Wei

Liam Fedus:當你只有一些散亂的思路時,它可以幫你將這些想法串聯起來,找出遺漏的部分。透過它的最終答案和它的思維過程,它真的能夠為你帶來更好的結果。
Hongyu Ren:是的,我用它來嘗試我們內部的一些「秘密想法」,並努力改進。

圖片
Hongyu Ren

這個專案中有沒有哪些部分是必須的,但人們可能沒有意識到它有多重要?

Łukasz Kondraciuk:我認為,建立實驗室規模的可靠基礎設施,用來執行我們最大、最重要的模型訓練平臺以及進行研究實驗,雖然不像研究本身那麼令人興奮,但卻至關重要,對整個專案的成功產生了巨大影響。”

圖片
Łukasz Kondraciuk

Jerry Tworek:我覺得 OpenAI 在如何構建其研究方面有一些特別之處,我們同樣重視演算法進步和建立可靠的大規模系統,以及建立用於訓練這些模型的資料集。我為 OpenAI 這一點感到非常自豪。

Jakub Pachocki:每次我們將某件事擴大一個數量級時,都會遇到一組新的問題 —— 包括演算法和基礎設施方面的問題 ——OpenAI 無疑已經發展出了同時解決這兩個方面問題的強大能力。

O1 Mini 是如何誕生的?

Hongyu Ren:我們的動機是希望將 o1 系列帶給更多的使用者,並降低成本。因此,我們建立了 o1 Mini,它的設計目的是展示整個 o1 管道或框架的簡化版本。我們讓它成為一個推理專家,它可能不一定知道你最喜歡的名人的生日,但它確實能夠非常有效地理解如何進行推理。它比我們之前最好的推理模型要聰明得多,並且幾乎與我們最好的模型 o1 持平。

它確實有一些限制,比如可能不知道很多外界的資訊,尤其是與科學或技術無關的內容。但我們努力讓它大致與我們之前最好的模型(如 GPT-4o mini)相當。我們正在進一步改進它,我非常期待外部使用者能夠嘗試體驗這種「閃電般」的推理和思維。

完整訪談影片內容,請檢視原影片。

相關文章