傳統觀點:學術界提供理論基礎,業界推動應用落地 是,但是實際上正好反過來,業界其實創新在前,學術界才確認理論。
最近,麻省理工學院、康奈爾大學、華盛頓大學和微軟研究院的學術人員開發了一個叫“透過自我對弈進行強化學習”(簡稱RLSP)的系統。這個系統可以教那些大型的語言模型花更多時間去解決問題。這個方法借鑑(竊書不為偷)了業界創新頂級模型,比如OpenAI的o1、o3,Deepseek的R1,還有谷歌的Gemini。
RLSP的工作分為三步:
- 首先,模型會從人類或者其他AI的解題例子中學習(這一步叫SFT)。
- 然後,模型會因為嘗試不同的解題方法而得到獎勵(這一步叫RL)。
- 最後,系統會檢查答案對不對,防止模型偷懶或者走捷徑(這一步叫驗證器)。
測試結果挺不錯的。當RLSP用在Llama模型上時,它在MATH 500這個資料集上的得分提高了23%。
另一個阿里通義千問Qwen2-32B-Instruct的模型在AIME 2024數學問題上的得分也提高了10%。即使只是簡單地獎勵模型展示解題過程,這些模型也學會了一些有趣的行為,比如回頭檢查、嘗試多種解法,還有仔細核對答案。
這些結果和Deepseek R1、R1-Zero團隊的研究,以及IN.AI、清華大學和卡內基梅隆大學的研究人員的發現差不多。(並排合照)
研究團隊還提到,RLSP在他們的實驗裡還沒能產生更高階的推理能力。不過,最讓人注意的發現不僅僅是測試成績變好了,而是模型學會了怎麼解決問題。即使沒有特別的訓練例子,只要有一點探索的獎勵,模型就能針對不同的問題想出幾種有用的解題方法。
研究人員認為RLSP有效的原因是:最近的研究發現,如果模型一步一步寫出他們的思考過程(這叫“思路鏈”推理),它們就能有更多的計算能力來解決問題。RLSP鼓勵模型透過“自我對弈”來創造新的推理路徑,這有點像DeepMind學習下國際象棋和圍棋的方式。(這是Deep系列的來源)
獎勵系統鼓勵模型展示所有的解題步驟,即使有些方法最後沒得出正確答案。當模型透過一個比較長的推理過程找到正確答案時,它會得到全部獎勵。這樣就能生成新的逐步推理的例子,幫助模型改進。
網友:
專家總是在成功後追認稱號,但是難以引領創新。