Anthropic挖走DeepMind強化學習大牛、AlphaGo核心作者Julian Schrittwieser

机器之心發表於2024-10-29

原文網址 : https://www.jiqizhixin.com/articles/2024-10-29-8

從 AlphaGo、AlphaZero 、MuZero 到 AlphaCode、AlphaTensor，再到最近的 Gemini 和 AlphaProof，Julian Schrittwieser 的工作成果似乎比他的名字更廣為人知。

今天的 AI 社群，再次被一則大佬轉會訊息吸引了目光。

在谷歌工作十年後，大名鼎鼎的谷歌 DeepMind Alpha 系列核心作者 Julian Schrittwieser，宣佈加入 Anthropic。

^{我很高興地宣佈，將從本週起加入 Anthropic！Claude 是我發現自己一直在使用的第一個 LLM。最近，我被《Artifacts》和《Computer Use》以及 Claude 不斷提高的技能深深震撼了。}

^{我非常幸運地參與了谷歌 DeepMind 過去 10 年的奇妙旅程，在那裡我參與了很多令人興奮的專案，這是我做夢都想不到的：從 AlphaGo 到 AlphaZero 和 MuZero 的傳奇；還有很多的應用研究，如 AlphaCode 和 AlphaTensor，以及最近的 Gemini 和 AlphaProof。我相信，那裡的團隊也將繼續創造驚人的成就，我迫不及待地想一探究竟！}

Julian Schrittwieser 的跳槽，可以說是近期領域內最為驚人的一則訊息，因為 Julian Schrittwieser 在 DeepMind 內部的地位非同尋常。更令人好奇的是，Anthropic 是如何招攬到這樣一位頂尖人才：

不管過程如何，這一定是 Anthropic 最「超值」的一次招聘：

在 DeepMind 誕生以來的數年中，「Alpha 系列成果」一直是該團隊最閃耀的前沿成果。而 Julian Schrittwieser 是這些偉大成就中不可忽視的貢獻者。

2016 年，DeepMind 開發的 AlphaGo 以 4：1 擊敗世界頂級圍棋棋手李世石（Lee Se-dol），成為轟動全球的人工智慧里程碑事件。Julian Schrittwieser 參與撰寫了第一篇關於 AlphaGo 的里程碑式論文。

《AlphaGo 4:1 戰勝李世石，我們需要更好的理解人工智慧》

2017 年，在 AlphaGo 與柯潔的比賽之後，DeepMind 宣佈退役 AlphaGo，自學成才的 AlphaGo Zero 以 100:0 擊敗了早期的競技版 AlphaGo，Julian Schrittwieser 是 AlphaGo Zero 論文的第二作者，也負責了從主搜尋演算法、訓練框架到對新硬體的支援等工作。

《無需人類知識，DeepMind 新一代圍棋程式 AlphaGo Zero 再次登上 Nature》
《DeepMind AlphaGo Zero 引爆業內，創造者現身 Reddit 問答》

而 AlphaGo Zero 隨後被擴充為一個名為 AlphaZero 的程式。2017 年底，DeepMind 正式發表了 AlphaZero，這是一種可以從零開始透過 Self-Play 強化學習在多種任務上達到超越人類水平的演算法。該演算法經過不到 24 小時的訓練後，即可在國際象棋和日本將棋上擊敗此前業內頂尖的計算機程式（這些程式早已超越人類世界冠軍水平），也輕鬆擊敗了訓練 3 天時間的 AlphaGo Zero。

《不只是圍棋！AlphaGo Zero 之後 DeepMind 推出泛化強化學習演算法 AlphaZero》

2020 年，DeepMind 發表了 MuZero。在不具備任何底層動態知識的情況下，該演算法透過結合基於樹的搜尋和學得模型，不僅在國際象棋、日本將棋和圍棋的精確規劃任務中匹敵 AlphaZero，還在 30 多款雅達利遊戲中展示出了超越人類的表現。Julian Schrittwieser 是 MuZero 論文《Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model》的核心作者之一。

《通用 AlphaGo 誕生？DeepMind 的 MuZero 在多種棋類遊戲中超越人類》

2022 年 2 月，DeepMind 釋出了基於 Transformer 模型的 AlphaCode，可以編寫與人類相媲美的計算機程式。包括 Julian Schrittwieser 在內的多位作者後續又在《Science》上發表了論文。

《捲起來了！DeepMind 釋出媲美普通程式設計師的 AlphaCode，同日 OpenAI 神經數學證明器拿下奧數題》
《DeepMind 攜 AlphaCode 登 Science 封面，寫程式碼能力不輸程式設計師》

2022 年 10 月，DeepMind 提出了 AlphaTensor，第一個可用於為矩陣乘法等基本任務發現新穎、高效且可證明正確的演算法的人工智慧系統，並揭示了 50 年來在數學領域一個懸而未決的問題，即找到兩個矩陣相乘最快方法。AlphaTensor 建立在 AlphaZero 的基礎上，展示了 AlphaZero 從用於遊戲到首次用於解決未解決的數學問題的一次轉變。

《強化學習發現矩陣乘法演算法，DeepMind 再登 Nature 封面推出 AlphaTensor》

2023 年 6 月，谷歌 DeepMind 釋出了 AlphaDev，這種全新的強化學習系統發現了一種比以往更快的雜湊演算法。Julian Schrittwieser 也是 AlphaDev 專案的核心參與者之一。

《AI 重寫排序演算法，速度快 70%：DeepMind AlphaDev 革新計算基礎，每天呼叫萬億次的庫更新了》

2024 年 7 月，谷歌 DeepMind 團隊研發的 AlphaProof 和 AlphaGeometry 2 在 IMO 競賽上共同實現了里程碑式的突破。AlphaProof 是一種用於形式化數學推理的強化學習系統，而 AlphaGeometry 2 是 DeepMind 幾何求解系統 AlphaGeometry 的改進版本。正式比賽中，AlphaProof+AlphaGeometry 2 組合成的 AI 系統在幾分鐘內就解決了人類參賽選手需要幾個小時才能解決的問題。

《谷歌 AI 拿下 IMO 奧數銀牌，數學推理模型 AlphaProof 面世，強化學習 is so back》

8 年前，基於強化學習的 AlphaGo 聲名大噪；8 年後，強化學習在 AlphaProof 中再次大放異彩。2016 年 AlphaGo 論文的核心成員 Julian Schrittwieser、Aja Huang、Yannick Schroecker，如今也是 AlphaProof 的核心貢獻者。有人在朋友圈感嘆說：RL is so back！

業內普遍認為，OpenAI o1 運用的技術關鍵也在於強化學習的搜尋與學習機制，這標誌著 RL 下 Post-Training Scaling Law 的時代正式到來。正如《The Bitter Lesson》所說，只有搜尋和學習這兩種學習正規化能夠隨著計算能力的增長無限擴充套件。強化學習作為這兩種學習正規化的載體，如何能夠在實現可擴充套件的 RL 學習（Scalable RL Learning）和強化學習擴充套件法則（RL Scaling Law），將成為進一步突破大模型效能上限的關鍵途徑。

這或許就是 Calude 團隊招攬 Julian Schrittwieser 的出發點。o1 研發團隊在採訪中也談到過，OpenAI 很早就受到 AlphaGo 的啟發，意識到了深度強化學習的巨大潛力，並在相關方向投入了大量研究力量。

作為 RL 領域的深耕者，Julian Schrittwieser 又會帶領 Claude 團隊做出怎樣的成果呢？讓我們拭目以待。

^{參考連結：https://www.furidamu.org/blog/2024/10/28/joining-anthropic/}

強化學習-學習筆記5 | AlphaGo
2022-07-06
強化學習筆記Go
DeepMind開源強化學習庫TRFL
2018-10-18
強化學習
深度學習、強化學習核心技術實戰
2021-03-21
深度學習強化學習
DeepMind用元強化學習框架探索多巴胺在學習過程中的作用
2019-02-21
強化學習框架
【強化學習】不用地圖如何導航？DeepMind提出新型雙路徑強化學習「智慧體」架構
2018-04-09
強化學習地圖智慧體架構
深度強化學習核心技術實戰
2021-03-20
強化學習
DeepMind釋出神經網路、強化學習庫，網友：推動JAX發展
2020-02-23
神經網路強化學習
DeepMind綜述深度強化學習中的快與慢，智慧體應該像人一樣學習
2019-05-03
強化學習智慧體
谷歌DeepMind—運用深度強化學習為雙足機器人學習敏捷足球技能 Movies
2024-12-05
谷歌強化學習機器人敏捷
「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則
2018-09-26
Go強化學習
強化學習
2020-12-05
強化學習
強化學習讓大模型自動糾錯，數學、程式設計效能暴漲，DeepMind新作
2024-09-21
強化學習大模型程式設計
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
DeepMind開源強化學習遊戲框架，25款線上遊戲等你來挑戰
2019-08-28
強化學習遊戲框架
DeepMind開源強化學習環境，場景靈活介面簡單，推特高贊
2019-08-20
強化學習
強化學習10——迭代學習
2020-10-26
強化學習
matplotlib 強化學習
2020-06-21
強化學習
DeepMind新一代圍棋程式AlphaGo Zero再次登上Nature
2018-10-23
Go
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
再探強化學習
2024-03-14
強化學習
強化學習分類
2024-08-12
強化學習
強化學習筆記
2023-04-07
強化學習筆記
強化學習之CartPole
2021-06-14
強化學習
強化學習-簡介
2021-01-20
強化學習
誰說導航一定要用地圖？谷歌DeepMind的強化學習模型靠街景認路
2018-04-04
地圖谷歌強化學習模型
【強化學習】強化學習的基本概念與程式碼實現
2018-03-21
強化學習
強化學習詳解：理論基礎與核心演算法解析
2024-09-27
強化學習演算法
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
DeepMind用語言遊戲讓大模型學AlphaGo自我博弈，資料限制不存在了
2024-12-02
遊戲大模型Go
強化學習-學習筆記2 | 價值學習
2022-07-04
強化學習筆記
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
AlphaGo之後，DeepMind重磅推出AlphaFold：基因序列預測蛋白質結構
2018-12-03
Go
Anthropic、PBC（“ Anthropic ”
2024-03-06
強化學習-學習筆記12 | Dueling Network
2022-07-09
強化學習筆記

Anthropic挖走DeepMind強化學習大牛、AlphaGo核心作者Julian Schrittwieser

相關文章