DeepSeek強化學習終獲頂級學府認可

banq發表於2025-02-15

傳統觀點：學術界提供理論基礎，業界推動應用落地是，但是實際上正好反過來，業界其實創新在前，學術界才確認理論。

最近，麻省理工學院、康奈爾大學、華盛頓大學和微軟研究院的學術人員開發了一個叫“透過自我對弈進行強化學習”（簡稱RLSP）的系統。這個系統可以教那些大型的語言模型花更多時間去解決問題。這個方法借鑑（竊書不為偷）了業界創新頂級模型，比如OpenAI的o1、o3，Deepseek的R1，還有谷歌的Gemini。

RLSP的工作分為三步：

首先，模型會從人類或者其他AI的解題例子中學習（這一步叫SFT）。
然後，模型會因為嘗試不同的解題方法而得到獎勵（這一步叫RL）。
最後，系統會檢查答案對不對，防止模型偷懶或者走捷徑（這一步叫驗證器）。

測試結果挺不錯的。當RLSP用在Llama模型上時，它在MATH 500這個資料集上的得分提高了23%。

另一個阿里通義千問Qwen2-32B-Instruct的模型在AIME 2024數學問題上的得分也提高了10%。即使只是簡單地獎勵模型展示解題過程，這些模型也學會了一些有趣的行為，比如回頭檢查、嘗試多種解法，還有仔細核對答案。

這些結果和Deepseek R1、R1-Zero團隊的研究，以及IN.AI、清華大學和卡內基梅隆大學的研究人員的發現差不多。（並排合照）

研究團隊還提到，RLSP在他們的實驗裡還沒能產生更高階的推理能力。不過，最讓人注意的發現不僅僅是測試成績變好了，而是模型學會了怎麼解決問題。即使沒有特別的訓練例子，只要有一點探索的獎勵，模型就能針對不同的問題想出幾種有用的解題方法。

研究人員認為RLSP有效的原因是：最近的研究發現，如果模型一步一步寫出他們的思考過程（這叫“思路鏈”推理），它們就能有更多的計算能力來解決問題。RLSP鼓勵模型透過“自我對弈”來創造新的推理路徑，這有點像DeepMind學習下國際象棋和圍棋的方式。(這是Deep系列的來源)

獎勵系統鼓勵模型展示所有的解題步驟，即使有些方法最後沒得出正確答案。當模型透過一個比較長的推理過程找到正確答案時，它會得到全部獎勵。這樣就能生成新的逐步推理的例子，幫助模型改進。

網友：
專家總是在成功後追認稱號，但是難以引領創新。

機器學習、深度學習、強化學習課程超級大列表！
2019-11-06
機器學習深度學習強化學習
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
強化學習
2020-12-05
強化學習
流式深度學習終於奏效了！強化學習之父Richard Sutton力薦
2024-11-29
深度學習強化學習
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
強化學習10——迭代學習
2020-10-26
強化學習
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
matplotlib 強化學習
2020-06-21
強化學習
突破！自然語言強化學習(NLRL)：一個可處理語言反饋的強化學習框架
2024-12-07
強化學習框架
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
強化學習-學習筆記2 | 價值學習
2022-07-04
強化學習筆記
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
強化學習-學習筆記5 | AlphaGo
2022-07-06
強化學習筆記Go
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
浪潮M6伺服器獲得EAL4認證安全性頂級認可
2022-08-29
伺服器
再探強化學習
2024-03-14
強化學習
強化學習分類
2024-08-12
強化學習
強化學習筆記
2023-04-07
強化學習筆記
強化學習之CartPole
2021-06-14
強化學習
強化學習-簡介
2021-01-20
強化學習
世界頂級AI大神綜述深度學習
2019-02-08
AI深度學習
【強化學習】強化學習的基本概念與程式碼實現
2018-03-21
強化學習
強化學習-學習筆記12 | Dueling Network
2022-07-09
強化學習筆記
深度學習及深度強化學習應用
2021-01-04
深度學習強化學習
關於強化學習、深度學習deeplearning研修
2020-11-25
強化學習深度學習
Dopamine - 靈活、可重複的強化學習研究新框架
2018-09-05
強化學習框架
強化學習-學習筆記15 | 連續控制
2022-07-14
強化學習筆記
強化學習-學習筆記8 | Q-learning
2022-07-07
強化學習筆記
強化學習-學習筆記10 | 經驗回放
2022-07-08
強化學習筆記
強化學習-學習筆記1 | 基礎概念
2022-07-04
強化學習筆記
強化學習-學習筆記4 | Actor-Critic
2022-07-05
強化學習筆記
深度學習、強化學習核心技術實戰
2021-03-21
深度學習強化學習
強化學習-task01
2020-10-20
強化學習
強化學習入門 -KDnuggets
2021-04-28
強化學習
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
OpenAI：強化學習確實可顯著提高LLM效能，DeepSeek R1、Kimi k1.5發現o1的秘密
2025-02-19
OpenAI強化學習

DeepSeek強化學習終獲頂級學府認可

相關文章