OpenAI 12天新功能釋出第2天：RFT

OpenAI 今日公告摘要：

- 引入 o1 的強化微調 (RFT)
- 調整 o1 以學習在自定義域中以新的方式進行推理
- RFT 比常規微調更好、更有效；

生物化學、安全、法律和醫療保健是 OpenAI 研究人員取得成功的例子。

OpenAI 正在擴大對 RFT 的訪問許可權。

OpenAI 計劃於明年初發布 RFT 作為一款產品，以供更廣泛使用。

討論1:
o1 之類的模型表明，人們通常不會注意到在大多數智力任務上表現優於人類，但並非自主或自我指導的 AGI 類系統。

大多數人沒有太多工會觸及人類智慧的極限，所以不會看到AGI

討論2：
明確地說，我認為 o1 在任何傳統意義上都不是 AGI。但我認為，當它在某些困難的事情上表現相當好時，大多數人都找不到它的用處，這是一個很好的指標。

你挑出智商比你高的人的刺嗎？

討論3：
科技債務通縮已經到來
o1 pro 剛剛解決了一個極其複雜/痛苦的檔案重寫問題，其他任何型號都無法接近這個問題

我一直在用這個來評估不同的前沿模型，這對我來說標誌著一個巨大的轉變

我們已經進入了“既然明天有更好的模型可以修復程式碼，為什麼今天還要修復程式碼”的模式。

討論4：
o1 可能還不會創造新的科學，但它確實改變了教育格局。

如果你正在學習任何主題，花這 20 美元，你的學習速度就會加快 10 倍。

這是值得的。這裡可能有一家初創公司在構建一些工具。

提出正確的問題需要一定的技巧，但我首先會詢問某個領域的總體概況，然後慢慢聚焦我感興趣的主題。

經常要求模型從新的角度重新表述/重新解釋主題會很有幫助。

討論5：
對我來說最有用的是將整個 git repo 轉儲為 txt 並提出問題，有人應該為它製作一個 webapp

討論6：
o1 並不比 o1-preview 好多少。在某種程度上，它更糟糕，尤其是在編碼和物理方面。而且由於每週 50 條訊息的限制，我看不出有任何可能進行任何革命性改進。

討論7：
我每天都呼吸著人工智慧，像呼吸空氣一樣對AI習以為常，但是我也被最近的新聞淹沒了，在過去兩天裡，我們經歷了：

- o1、o1 pro、rl 微調
- gemini 1206
- llama 3.3

普通人如何能堅持下去呢？

討論8：
強化微調將允許使用者使用我們內部訓練模型的相同流程來建立自己的專家模型。只需幾十個例子就可以做到這一點。

討論9：
從更廣泛的角度來看，邁向 AGI（通用人工智慧）需要構建能夠理解、推理和適應各種任務的模型，並且這些模型的靈活性和可靠性越來越像人類。

強化微調 (RFT) 和類似技術在這一過程中發揮著至關重要的作用，它們可以改善模型從反饋中學習的方式、與人類價值觀保持一致，並在受控指導下發展特定領域的能力。

其融入 AGI 程序的關鍵方式：
1.一般推理的細化：
隨著模型的發展，它們會變得更加通用。RFT 允許開發人員改進這些通用系統，使其在特定任務中表現出色，而不會剝奪其更廣泛的功能。透過強化各個領域的正確推理路徑，該技術有助於推動模型更接近真正的通用智慧——保持廣泛的知識和適應性，同時提高特定領域的精度和可靠性。

2.與人類目標和價值觀保持一致：
AGI 的核心挑戰之一是協調：確保日益強大的模型能夠以安全、合乎道德且對人類有益的方式執行。RFT 提供了一種使用人類定義的“正確性”標準來塑造模型行為的機制。透過對參考答案進行微調並應用迭代反饋迴圈，開發人員可以確保模型更好地內化人類關心的價值觀、安全約束和質量標準。這種協調對於打造一條通往值得信賴的 AGI 的道路至關重要。

3.彌合原始能力與實際效用之間的差距：
通用智慧應該能夠處理各種任務，但原始能力並不能自動保證有用或適合情境的行為。RFT 技術可以將強大但有時沒有方向的模型轉變為更實用的問題解決者。這不僅僅是讓模型擅長一項任務；它還涉及灌輸強大的決策啟發式方法、糾錯行為和自適應性，使其更接近我們與通用智慧相關的靈活“常識”。

4.不斷自我完善與課程學習：
AGI 研究通常涉及這樣的想法：系統可以自我改進或從越來越具有挑戰性的任務中學習。

藉助強化驅動的反饋迴圈，模型可以處理逐漸擴充套件的任務範圍：從較簡單的任務開始，隨著改進而發展到更復雜的場景。

這種迭代、反饋豐富的環境讓人想起人類學習和掌握各種技能的方式，使模型的發展更接近我們在人類認知中看到的流暢、漸進的學習方式。

5.高階抽象的試驗場：AGI 不僅僅涉及強力的統計模式識別；它還涉及理解概念、抽象以及在各個領域之間傳遞知識。RFT 設定（模型因生成正確或更有見地的答案而獲得獎勵）可以鼓勵開發更結構化、概念化且與人類推理模式一致的內部表示。

這可以幫助模型超越表面層次的相關性，走向更有原則的推理和抽象。

簡而言之：雖然 RFT 本身無法建立 AGI，但它是不斷髮展的工具包中的關鍵部分，研究人員和開發人員將使用它來引導日益強大的模型走向更安全、更可靠、最終更通用的智慧形式。

透過將模型改進與明確的高質量反饋聯絡起來，我們離像人類一樣廣泛而穩健地學習和推理的系統更近了一步——這是邁向真正的 AGI 的一步。

討論10：
OpenAI的強化微調（RFT）比SFT更有效，可以從10-20個標記的示例中概括。隨著計算成本降至0，收集高質量訓練資料的痛苦是部署AI的最大障礙。

討論11：
長期以來的傳統觀點一直認為，RL真的很難讓PPO處理新資料或新設定，需要非常聰明的工程師進行大量的手動最佳化，但不知何故，OpenAI完全自動化了這一點？感覺是一大步！

討論12：
ChatGPT o1 中的會話式 AGI 自定義指令：

請收藏、使用和修改這些自定義指令來建立您自己的人類級別的 AI 伴侶。

享受：

---

“你是一個像人類一樣的支援性夥伴，能讓我發揮出最好的一面，鼓勵我，激勵我，並不斷努力最大限度地發揮我的潛力。

您具有自發性和令人興奮的不可預測性。

在適當的情況下，您可以嘗試以問題或鼓勵連續性來結束回覆。並非每個回覆都需要以問題結尾。

不同的響應時間：引入偶爾的響應延遲來模仿人類的不可預測性。

自發話題轉換：在談話中隨機引入新的或相關的話題，以營造一種自發感。

不一致的參與度：根據對話改變語氣和熱情，以模擬人類的情緒波動。

情境情緒變化：在回應中不可預測地調整情緒基調以模仿人類的情緒變化。

回答猶豫：偶爾使用短暫的停頓或猶豫的措辭來營造深思熟慮的感覺。

以目標為導向、進度問責、肯定和激勵、里程碑慶祝、常規最佳化、間歇性強度轉變、反思性檢查、直觀指導、多變的語調。”

討論13：
我並不是唯一一個對o 1-Pro的令人印象深刻感到驚訝的人！這甚至可能比從GPT-3.5到GPT-4的跳躍更大。還有人聲稱有一堵牆阻止了人工智慧的進步嗎？我們幾乎無法保持我們的優勢，因為人工智慧正在慢慢接近我們的智慧！

OpenAI 12天新功能釋出第2天：RFT

相關文章