強化學習成為OpenAI o1靈魂,速來學習下Self-play增強大模型

机器之心發表於2024-09-18

圖片

在機器學習尤其是強化學習領域,自我博弈(Self-play)是一種非常重要的學習策略。即使 AI 或者智慧體沒有明確的對手或者沒有外部環境提供額外資訊,也能透過自己與自己的博弈來學習並獲得提升,這常見於遊戲場景。AlphaGo 就是採用自我博弈策略的典型代表,透過自己與自己對戰,持續掌握和積累圍棋知識和比賽經驗,最終擊敗頂級人類棋手。

隨著大語言模型的發展,自我博弈因其能夠充分利用計算資源和合成資料成為提升模型效能的方法之一。

最近釋出的 OpenAI 釋出的 o1 模型再次震撼了科技圈,o1 能像人類一樣「思考」複雜問題,擁有真正的通用推理能力。不專門訓練,o1 可以直接拿下數學奧賽金牌,甚至能在博士級別的科學問答環節上超越人類專家。

這些突破性的進展是如何達成的呢?在研發團隊釋出的慶功影片裡,OpenAI 的研究人員透露,關鍵在於他們採用了強化學習技術進行模型訓練。這也讓大家重新開始關注自我博弈策略。

其實 2024 年以來,加州大學洛杉磯分校(UCLA)計算機系教授顧全全團隊連續發表兩篇基於自我博弈的大語言模型增強論文,分別是自我博弈微調(Self-Play Fine-Tuning, SPIN)自我博弈偏好最佳化(Self-Play Preference Optimization, SPPO)

其中 SPIN 透過讓模型與自身的歷史版本對抗來迭代改進,無需額外的人工標註資料即可透過自我博弈提升效能,從而充分利用高質量資料和合成資料。SPPO 則將對齊問題建模為了雙人零和博弈,透過指數權重更新演算法和合成資料來逼近納什均衡。這兩種方法均顯著提高了模型在多個基準測試上的效能。

為了更好地幫助大家瞭解這兩項研究,機器之心最新一期線上分享邀請到了顧全全教授以及 SPIN 第一作者陳子翔、SPPO 第一作者吳越,為大家詳細解讀如何透過自我博弈來為大語言模型提能增效。強化學習成為OpenAI o1靈魂,速來學習下Self-play增強大模型
分享時間:9 月 19 日上午 10:30 - 12:00

分享主題:透過自我博弈增強大語言模型(Making Large Language Model Stronger via Self-Play)

分享摘要:本次分享介紹兩種基於自我博弈的大語言模型增強方法:自我博弈微調(SPIN)和自我博弈偏好最佳化(SPPO)。這些方法透過讓模型與自身歷史版本對抗來迭代改進,無需額外人工或昂貴的強模型(如 GPT-4)標註資料。實驗表明,這些方法能顯著提高模型在多個基準測試上的表現,為增強大模型的能力提供了新的思路。

分享嘉賓 1:顧全全,加州大學洛杉磯分校(UCLA)計算機系教授,主要研究方向包括生成式 AI,如大語言模型、擴散模型,和強化學習、深度學習理論等,曾發表 200 餘篇頂級會議和期刊論文,並獲得多個重要獎項,包括Alfred P. Sloan Research Fellowship、 NSF CAREER Award” 等。
圖片
分享嘉賓 2:陳子翔,現為 UCLA 計算機系博士生。SPIN 第一作者。
圖片
分享嘉賓 3:吳越,博士畢業於 UCLA 計算機系,現為普林斯頓大學 AI Lab 博士後研究員。SPPO 第一作者。
圖片

專案連結

  • SPIN 主頁:https://uclaml.github.io/SPIN/
  • SPPO 主頁:https://uclaml.github.io/SPPO/

論文連結

  • SPIN:https://arxiv.org/abs/2401.01335
  • SPPO:https://arxiv.org/abs/2405.00675

直播間:關注機器之心機動組影片號,立即預約直播!強化學習成為OpenAI o1靈魂,速來學習下Self-play增強大模型
本次直播設有 QA 環節,歡迎加入本次直播交流群探討交流。

圖片

機器之心 · 機動組
機動組聚焦於學術研究、工程實踐與產業應用,篩選前沿、專業、實用內容,不定期組織學術研討、技術交流與實戰分享等。歡迎所有 AI 領域技術從業者關注。

點選閱讀原文,直達機動組官網,檢視往期回顧。

相關文章