那個打敗柯潔、李世石的阿爾法狗背後的男人,獲得2019 ACM計算獎

AMiner學術頭條發表於2020-04-02
美國計算機學會(ACM)近日宣佈,將 2019 年 ACM 計算獎授予 AlphaGo 研發團隊領導者 David Silver,以表彰他為計算機遊戲表現帶來的突破性進展。

與“計算機界的諾貝爾獎”圖靈獎不同,ACM 計算獎(ACM Prize in Computing)每年授予在計算機領域裡有突出貢獻的年輕學者。

Silver 目前任倫敦大學學院(UCL)教授、谷歌旗下人工智慧公司 DeepMind 首席科學家。作為深度強化學習領域的領軍人物,Silver 最主要的成就就是領導了 AlphaGo 研發團隊,在圍棋比賽中擊敗了世界冠軍柯潔和李世石。
那個打敗柯潔、李世石的阿爾法狗背後的男人,獲得2019 ACM計算獎

Silver 巧妙地將深度學習強化學習、傳統樹搜尋演算法和大規模計算的思想結合起來,開發出了 AlphaGo 演算法。AlphaGo 被認為是人工智慧研究的里程碑,並被《新科學家》雜誌列為過去十年的十大發現之一。

AlphaGo 也是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧機器人。

2016 年 3 月,阿爾法圍棋圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以 4 比 1 的總比分獲勝;2016 年末 2017  年初,該程式在中國棋類網站上以“大師”(Master)為註冊賬號與中日韓數十位圍棋高手進行快棋對決,連續 60 局無一敗績;2017 年 5 月,在中國烏鎮圍棋峰會上,它與排名世界第一的世界圍棋冠軍柯潔對戰,以 3 比 0 的總比分獲勝。

那個打敗柯潔、李世石的阿爾法狗背後的男人,獲得2019 ACM計算獎

2017 年 10 月 19 日,在國際學術期刊《自然》(Nature)上發表的一篇研究論文中,Silver 團隊報告新版程式 AlphaGo Zero:從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,並以 100:0 的戰績擊敗“前輩”。AlphaZero 在國際象棋、圍棋圍棋等遊戲中都取得了超人的表現,展現了前所未有的遊戲方法的普遍性。

ACM 主席 Cherri M. Pancake 表示:“在人工智慧領域,很少有其他研究人員能像 David Silver 一樣讓人如此興奮。”

Infosys 營運長 Pravin Rao 表示:“ David Silver 為深度強化學習做出了基礎性貢獻,從而迅速促進了人工智慧的發展。當電腦能夠在複雜的棋盤遊戲中擊敗世界冠軍時,它已經激發了公眾的想象力,並將年輕的研究人員吸引到機器學習等領域。重要的是,Silver 和他的同事開發的框架將在未來的許多年裡,為人工智慧的商業和工業實際應用提供貢獻。”

ACM 計算獎旨在表彰研究成果產生了深遠影響和廣泛意義的中青年電腦科學家,獎金為 25 萬美元,由印度科技公司印孚瑟斯(Infosys Ltd)捐贈。頒獎儀式將於 2020 年 6 月 20 日在美國舊金山舉行,屆時 Silver 將正式接受獎項。

人工智慧玩遊戲

自上世紀 50 年代以來,教計算機程式與人類或其他計算機進行遊戲比賽,一直是人工智慧研究的核心實踐專案。人類與機器之間的比賽,也一直是衡量人工智慧的標尺。

計算機程式通過做出一系列決定,來達到獲勝的目標,這個過程被看作是對人類思維的模擬和挑戰。遊戲比賽也給研究人員提供了很容易量化的結果,比如“電腦遵守規則了嗎?得分了嗎?或者贏了遊戲嗎?”

在這一領域的早期,研究人員開發了一些程式來與人類在跳棋上競爭,而在過去的幾十年裡,又出現了越來越複雜的國際象棋程式。

1997 年,ACM 贊助了一場比賽,IBM 的“深藍”(DeepBlue)成為第一臺擊敗國際象棋世界冠軍加里·卡斯帕羅夫(Gary Kasparov)的電腦程式,這也是一個具有分水嶺意義的時刻

那個打敗柯潔、李世石的阿爾法狗背後的男人,獲得2019 ACM計算獎

但對於研究人員來說,目標不僅僅是開發贏得遊戲的程式,而是將遊戲作為開發具有模擬人類智慧能力的機器的試金石。

2016 年 3 月,全世界數百萬人在電視上觀看了 AlphaGo 擊敗圍棋世界冠軍李世石(Lee Sedol)的比賽。但這僅僅是 David Silver 團隊驚人成就影響的開始。他對深度強化學習的見解已經被應用於很多領域,比如提高英國電網的效率,降低谷歌資料中心的能耗,以及為歐洲航天局設計太空探測器的軌道。”Cherri M. Pancake說道。

Silver 是深度強化學習的最重要的貢獻者之一,在深度強化學習這種工具中,演算法通過在互動式環境中反覆試驗來學習,根據執行過程中積累的資訊不斷調整,並利用不同數學處理層次的計算模型——人工神經網路強化學習策略有效地結合起來,對試錯結果進行評估。

該演算法不需要對每一個可能的結果進行計算,而是進行預測,從而更有效地執行給定的任務。

阿爾法狗

2500 年前,中國發明瞭圍棋遊戲,至今仍然流行,尤其是在亞洲。圍棋被認為比象棋要複雜得多,因為棋手可以做出更多潛在的動作,而且遊戲可以有更多的方式進行。

Silver 在艾伯塔大學(University of Alberta)攻讀博士學位時,就開始探索開發一種可以掌握圍棋的計算機程式的可能性。

Silver 開發 AlphaGo 的關鍵見解,是將深層神經網路與計算機遊戲中使用的演算法 Monte Carlo 樹搜尋相結合。Monte Carlo 樹搜尋的一個優點是,在追求遊戲中最佳感知策略的同時,該演算法還在不斷研究其他替代方案。

2016 年 3 月,AlphaGo 擊敗世界圍棋冠軍李世石被譽為AI里程碑式的時刻。Silver 和他的同事在 2016 年發表在《自然》雜誌上的論文《用深層神經網路和樹搜尋掌握圍棋遊戲》中發表了支撐 AlphaGo 的基礎技術。

那個打敗柯潔、李世石的阿爾法狗背後的男人,獲得2019 ACM計算獎
AlphaGo Zero、AlphaZeroAlphaStar

Silver 和他在 DeepMind 的團隊一直在開發新的演算法,這些演算法極大地提高了計算機遊戲的發展水平,並取得了許多被認為人工智慧系統無法實現的結果。

在開發 AlphaGo Zero 演算法時,Silver 和他的合作者證明了程式可以在不接觸人類專家遊戲的情況下掌握圍棋。該演算法完全通過在沒有任何人類資料或先驗知識的情況下自己來學習,而在進一步的迭代版本中,演算法甚至不需要知道規則。

後來,DeepMind 團隊的 AlphaZero 在國際象棋、將棋圍棋中也獲得了超人的表現。在國際象棋中,AlphaZero 輕鬆擊敗了世界計算機國際象棋冠軍 Stockfish ,這是一個由大師和國際象棋程式設計專家設計的高效能程式。就在去年,由 Silver 領導的 DeepMind 團隊開發的 AlphaStar ,掌握了多人電子競技遊戲《星際爭霸 II》,該遊戲被視為 AI 學習系統面臨的一項艱鉅挑戰。

關於 David Silver

David Silver 是 DeepMind 強化學習研究小組的負責人,也是倫敦大學學院的電腦科學教授。他所在的 Google 子公司 DeepMind 試圖將機器學習和系統神經科學方面的最佳技術結合起來,以構建功強大的通用學習演算法。

Silver 分別於 1997 年和 2000 年獲得劍橋大學的學士和碩士學位。1998 年,他和別人共同創立了視訊遊戲公司 Elixir Studios,並在那裡擔任技術長兼首席程式設計師。後來 Silver 返回學術界,並於 2009 年獲得了艾伯塔大學的電腦科學博士學位。
那個打敗柯潔、李世石的阿爾法狗背後的男人,獲得2019 ACM計算獎

2015 年,Silver 和他的同事發表的一篇題為《通過深度強化學習實現人類水平控制》(Human Level Control Through Deep reinforcement learning)的開創性論文中,描述了他們將強化學習與人工神經網路相結合的方法。該論文發表在《自然》(Nature)雜誌上,被引用了近1萬次,對該領域產生了巨大的影響。

隨後,Silver 和他的同事繼續用新的技術完善這些深度強化學習演算法,這些演算法仍然是機器學習中最廣泛使用的工具之一。

Silver 的眾多榮譽包括:馬文·明克西人工智慧傑出成就獎(2018年)、皇家工程院對英國工程傑出貢獻銀獎(2017年)、門薩基金會人工智慧領域最佳科學發現獎(2017年)。

關於 ACM 計算獎

ACM 計算獎旨在表彰研究成果產生了深遠影響和廣泛意義的中青年電腦科學家。該獎項的獎金為 25 萬美元,資金支援由 Infosys Ltd.提供。ACM 計算獎以前被稱為 ACM Infosys 基金會計算科學獎。ACM 獎獲得者將被邀請參加海德堡桂冠論壇,這是一個年度網路活動,彙集了來自世界各地的年輕研究人員和 ACM 圖靈獎、阿貝爾獎、菲爾茲獎和奈凡林納獎的獲得者。

關於 ACM

電腦科學協會(ACM)是世界上最大的教育和科學計算機學會,它將計算機教育工作者、研究人員和專業人士聯合起來,以激發對話、共享資源並應對該領域的挑戰。ACM 通過強大的領導力、最高標準的推廣以及對技術卓越的認可,增強了計算機行業的集體聲音。ACM 通過提供終身學習、職業發展和專業網路的機會來支援其成員的專業成長。

參考資料:
https://www.acm.org/media-center/2020/april/acm-prize-2019

相關文章