OpenAI的強化微調:RL+Science 創造新神還是滅霸?

机器之心發表於2024-12-08
2024 年 12 月 6 號加州時間上午 11 點,OpenAI 釋出了新的 Reinforcement Finetuning 方法,用於構造專家模型。對於特定領域的決策問題,比如醫療診斷、罕見病診斷等等,只需要上傳幾十到幾千條訓練案例,就可以透過微調來找到最有的決策。

資料的形式類似於 instructiong tuning 的常見形式,有多個選項以及正確選項。同一時間,OpenAI 還發布了一個強化微調研究專案,鼓勵學者專家們上傳自己領域的獨特資料,測試他們的強化微調能力。

1

這個結果很漂亮,用的技術正是已經廣泛應用於 alignment, math, coding 領域的方法,其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用來對齊大模型與人類偏好性資料,訓練資料的形式為(問題,回答 1,回答 2,偏好),讓使用者選擇更喜歡的回答,學習人類的偏好,訓練獎勵模型(reward model)。給定 reward model 之後,用強化學習演算法 (PPO, DPO)來微調模型引數,微調後的模型更容易生成使用者喜歡的內容。

當求解 math 和 coding 問題時,每個問題都有正確答案。這時可以用 MCTS 等 RL 方法,生成大量的不同的求解軌跡,有的正確有的錯誤,用回答正確的軌跡做 SFT,或者用(正確解法,錯誤解法)的組合來做 RLHF。更進一步,可以把軌跡生成和 RLHF 微調這兩步迭代起來,不斷調整 reference policy,迭代不斷提高正確率,如 GRPo 或 SPPO 等。

2

OpenAI 的 RFT 只需要很少資料,就能再一些專家場景中,學會醫療診斷和科學決策,這個方法本質上還是 CoT+RL,其中 CoT 這步可以 brainstorm 增強生成多樣的不同推理路徑,然後根據答對沒有來進行打分,再繼續做 RL 微調並且迭代。CoT 可以是把一系列的科學 / 醫療常識串聯起來。這些常識來自預訓練。

難點在於如何定義什麼是 RL 裡的 state-transition, 也即一步的思維推理。每一步 state transition 是大模型已經學到的科學常識,再用 RL 找到通向高分的完整鏈路。關鍵問題是如何做到 token-level 和 full-response level RL 直接找到平衡點,也即如何描述”state”。token-level 的微調效率太低、不容易泛化;full-response level 又會迷糊了推理的過程。

更 fundamental 的問題是:何找到思維鏈裡面的 “state” 呢,思維的 state representation 是不是已經在預訓練裡湧現出來了?有了合適的 state representation,RFT 就可以 easy, stable and robust。

3

Demo 裡也能看出這個技術現階段的侷限性。罕見病排查,從醫學角度重要,但是確實已知的科學,而且是已知科學問題中最簡單的一類。罕見病的診斷往往有清晰的基因指標,和相對流程化的判別路徑。之所以能用很少的資料就學會這個診斷過程,是因為很多人類專家任務的 know-how 其實是簡單的決策樹,幾十個案例就足以囊括底層邏輯。

這類問題本質是多項選擇題,只要選擇有限,不同選項之間區分度大就很容易掌握。

這個 demo 還規避了 RLHF 裡最難搞的 reward modeling 步驟,隨便設定一個打分函式就能用,比如正確答案給 1 分,錯誤答案 0 分。

然而真正的科學問題,往往不是有固定選項的選擇題,沒有標準答案,如何定義 action,如何定義問題該怎麼問,如何給新的科學概念一個定義一個名字,這才是最高階也最有挑戰的科學難題。科學的資料也往往是 noisy 的,不是簡單的多選題,沒有清晰的決策樹。

4

講完了技術的潛力,我們來討論風險。今天 OpenAI 釋出 RFT 的同一時間,推出了強化微調研究專案。這個專案邀請全世界的科研人員提供他們領域的決策資料集,讓 OpenAI 來測試其 RFT 推理決策能力,不斷進化。

然而,看到這個專案的時候,讓人冷汗不已。

今年夏天,我參加美國科學院召開的 AI for science 安全討論會,包括諾獎獲得者 David Baker 在內的很多研究者也在場。討論會上,每個人都要回答為什麼自己正在開發的 AI for science 技術是安全的,是可控的、可追蹤的。

如果科學這顆寶石,如果都集中在了同一個非開源公司手裡,那麼我們造出的是新神,還是帶上了無限手套的滅霸?

作者介紹

王夢迪現任普林斯頓大學電子與計算機工程系終身教授,並創立並擔任普林斯頓大學 “AI for Accelerated Invention” 中心的首任主任。她的研究領域涵蓋強化學習、可控大模型、最佳化學習理論以及 AI for Science 等多個方向。王夢迪曾先後在 Google DeepMind、高等研究院與 Simons 研究院擔任訪問學者,並榮獲 MIT TR35、美國國家科學基金會(NSF)事業獎、Google 學者獎等多項榮譽。2024 年 7 月,她獲頒 AACC Donald Eckman 獎,以表彰其在控制與動態系統、機器學習及資訊理論交叉領域所作出的傑出貢獻。

原文連結:

https://zhuanlan.zhihu.com/p/11273216258?utm_medium=social&utm_psn=1848703455629303809&utm_source=wechat_timeline&utm_id=0

相關文章