2024年9月12日,OpenAI正式推出全新的推理模型系列——OpenAI o1。這款全新AI模型系列專為解決複雜問題而設計,能夠在響應前花費更多時間進行思考,並透過深入推理應對比以往模型更具挑戰性的科學、程式設計和數學問題。
1. 開發背景與首發版本
今天,OpenAI正式釋出了這一系列的首款模型——o1-preview版本,使用者可以透過ChatGPT和API體驗這一預覽版本。預計未來會定期進行更新和改進,與此同時,OpenAI還將釋出相關的評估結果,幫助大家瞭解下一版本的開發進展。
2. 如何工作
OpenAI 透過延長模型的思考時間,使其更加精細地處理複雜任務。新模型透過不斷最佳化推理過程,嘗試不同的策略並識別錯誤。經過物理、化學、生物等挑戰性基準任務的測試,結果表明,這些模型的表現已經接近博士研究生的水平。同時,在數學和程式設計領域也表現出色。在國際數學奧林匹克競賽(IMO)中,GPT-4o模型只能正確解決13%的問題,而o1推理模型解決了83%的問題。在Codeforces程式設計競賽中,其程式設計能力表現更是位列89百分位。有關技術細節請參考OpenAI的技術研究文章。
3. 安全性保障
為了確保模型的安全性,OpenAI 採用了一種全新的安全訓練方法,使這些模型能夠根據上下文推理並遵循安全和對齊原則。例如,在面對繞過安全規則的測試時,GPT-4o模型的表現得分為22(滿分100),而o1-preview模型得分為84。OpenAI進一步加強了安全保障措施,包括與政府合作、進行嚴格的內部稽核和測試,以及採用Preparedness Framework框架進行評估。詳細資訊可參考系統卡片和研究文章。
此外,OpenAI與美國和英國的AI安全研究機構達成了合作協議,向這些機構提供早期訪問模型的許可權。這將為未來模型的研究、評估和測試奠定基礎,確保公開發布前的安全性和有效性。
4. 適用場景
OpenAI o1模型系列特別適合那些在科學、程式設計、數學等領域中面對複雜問題的人群。例如,o1可以幫助醫療研究人員標註細胞測序資料,物理學家生成複雜的量子光學公式,開發人員則可以用它來構建和執行多步工作流。
5. OpenAI o1-mini:高效推理的平價選擇
為了滿足開發人員對於成本效益的需求,OpenAI還發布了OpenAI o1-mini模型。這款小型模型在推理方面同樣表現出色,尤其適合程式設計任務,並且相比o1-preview更加快速和經濟。o1-mini的價格較低,為o1-preview的20%,是處理推理任務的理想選擇,但不適用於涉及廣泛世界知識的應用場景。
6. 如何使用OpenAI o1
從今天起,ChatGPT Plus和Team使用者可以透過模型選擇器手動選擇o1-preview和o1-mini進行使用。每週的訊息限制分別為30條和50條,OpenAI正在努力提升這些使用配額。此外,ChatGPT Enterprise和Edu使用者將在下週獲得訪問許可權。
開發者也可以透過API使用o1模型,符合API使用等級5的開發者現在就可以開始原型設計,初始速率限制為20 RPM。OpenAI正在測試後續的功能升級,如函式呼叫、流式傳輸和系統訊息支援,相關指南請參考API文件。
未來,OpenAI還計劃向所有ChatGPT免費使用者開放o1-mini的使用許可權。
7. 展望未來
這一系列模型目前仍處於早期預覽階段,隨著模型的持續更新,OpenAI計劃加入網頁瀏覽、檔案和影像上傳等更多功能,進一步提升其實用性。同時,OpenAI還將繼續開發和釋出GPT系列的更新,同時擴充套件全新的OpenAI o1系列。
立即體驗:
- 在ChatGPT Plus中試用o1-preview
- 透過API試用o1-mini
OpenAI最新的o1系列推理模型,其先進的推理能力和廣泛的應用場景為科研人員和開發者提供了更高效的解決方案。如果你正在從事複雜任務,趕快體驗這一革命性工具吧!
本文由部落格一文多發平臺 OpenWrite 釋出!