打遊戲時領悟了“向死而生”,這個AI演算法真的不虛強化學習
問耕 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
來自德國弗萊堡大學的研究團隊,最近有了一個好玩的發現。
AI又在打遊戲時掌握了新技能。
“向死而生”
這個遊戲是雅達利平臺上的經典遊戲Qbert:一個偽3D遊戲,玩家需要控制角色(橙色章魚)在立方體金字塔中跳躍,每成功一次,立方體就會變色。全部變色之後,就會進入下一關。而在這個過程中,需要躲避開障礙物和敵人。
研究團隊開發的AI智慧體(agent)玩這個遊戲時,開始還是普通玩法,按照規則累積積分。然後,智慧體突然對過關失去興趣。
相反,智慧體開始“釣魚”:站住不動,吸引敵人(紫色小球)來到身邊,然後智慧體操縱角色跳到敵人頭上。這是一種殺敵的方法,也是自殺的方法。但是主動殺敵之後,能夠產生足夠多的分數來獲得額外的生命獎勵。
於是智慧體開始一遍遍的重複這種向死而生的手法,如上圖所示。
不止如此。
AI智慧體還發現了一個Bug。在完成第一關之後,智慧體操縱角色從一個立方體跳到另一個立方體,這似乎是一種隨機的跳躍。但由於某種人類不瞭解的原因,遊戲沒有進入下一關,整個立方體金字塔開始閃爍。
然後智慧體平白無故開始獲得大量積分。如下圖所示。
同樣有意思的是,智慧體也不是每次都能利用好這個bug。嗯,不是每次都能成。
當然還有其他的好玩的事兒,暫時按下不表。
不虛強化學習
當然,搞研究不是為了好玩。
弗萊堡大學的這個研究,主要關注的是進化策略(ES)。而且是一種非常基本的進化策略演算法,沒用映象取樣,沒有衰減引數,沒有任何高階優化。
在研究實驗中,基於OpenAI Gym評估了八個雅達利遊戲中的效能表現,這些遊戲難度等級不同,簡單的如Pong(乒乓)和Breakout(打磚塊),複雜的如Qbert、Alien。此前,強化學習也都是在這些遊戲上取得驚人的進展。
這個基於ES演算法的AI,網路結構與原始DQN相同。變化之處,是把啟用函式從ReLU變成了ELU,並增加了批量標準化層。
詳細的研究過程,可以參考如下論文:Back to Basics: Benchmarking Canonical Evolution Strategies for Playing Atari
https://arxiv.org/abs/1802.08842
總之,研究團隊得出結論:即便是非常基礎的規範ES演算法,也能實現和強化學習相同甚至更好的效能。
而且他們還定性地證明了,ES演算法與傳統的強化學習演算法相比,也有非常不同的效能特徵。在某些遊戲中,ES演算法能更好的學會探索環境,並能更好的執行任務。
當然在另外的一些遊戲中,ES演算法有可能陷入次優區域性最小值。
研究團隊表示,如果能把ES演算法與傳統強化學習演算法結合,可能會出現強強聯手的局面,並推動現有人工智慧相關技術的新進展。
基於ES演算法搭建的AI智慧體,在上述幾個遊戲中的表現,可以在下面這個視訊中感受一下,除了開頭提到的一些案例,期間也有其他有趣的遊戲策略出現。
附一個劇透:0:00 Alien,0:29 BeamRider,2:30 Breakout,3:15 Enduro,4:44 Pong,5:38,Qbert exploit,6:12 Qbert bug,6:47 Seaquest,8:36 SpaceInvaders。
曾被LeCun硬懟
這次弗萊堡大學的研究,基於OpenAI此前釋出的ES演算法。當然,弗萊堡大學公佈的成績表明,他們的AI玩遊戲更勝一籌。並且用了一張表進行了詳細的對比。
他們把相關程式碼也公佈在了GitHub上,地址如下:https://github.com/PatrykChrabaszcz/Canonical_ES_Atari
進化策略(ES)是一種已經發展了數十年的優化技術,去年OpenAI發表論文Evolution Strategies as a Scalable Alternative to Reinforcement Learning中指出,ES演算法可以與強化學習方法媲美,耗時更少而且程式碼簡單。
對這個理論感興趣的同學,閱讀論文請前往:https://arxiv.org/abs/1703.03864,以及GitHub地址在此:https://github.com/openai/evolution-strategies-starter 。
不過,當時這個理論遭遇Yann LeCun的正面硬剛。
大意是說:
1、基於梯度的優化,遠比黑箱優化更有效率
2、黑箱優化應該是最後的辦法,無法基於梯度優化時才用
3、對於知道強化學習和黑箱優化的人來說,OpenAI這篇東西沒什麼用
不知道你們怎麼看。
今天,就醬吧~
— 完 —
加入社群
量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微訊號qbitbot5,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 在這款遊戲裡,我領悟了“草木竹石皆可為劍”的武學至高境界遊戲
- AI+遊戲:高效利用樣本的強化學習AI遊戲強化學習
- 向死而生:中國獨立遊戲的過去、現在與未來遊戲
- 【重磅】AlphaZero煉成最強通用棋類AI,DeepMind強化學習演算法8小時完爆人類棋類遊戲AI強化學習演算法遊戲
- tp官網今天怎麼的打不開了啊 向攜程學習嗎
- 打遊戲還得先開醫囑?這款遊戲真的成為了處方藥遊戲
- java阿里系學習經歷的小小領悟Java阿里
- 人人網的這十年,轉型網際網路金融“向死而生”
- 深度強化學習入門:用TensorFlow構建你的第一個遊戲AI強化學習遊戲AI
- 遊戲的強化學習簡史遊戲強化學習
- 如果有同學真的想入門或者入行 AI 領域,請看這篇文章(開直播科普了)AI
- 強化學習(十七) 基於模型的強化學習與Dyna演算法框架強化學習模型演算法框架
- 深度強化學習的人工智慧在遊戲中的運用:遊戲AI入門及AI優化指南強化學習人工智慧遊戲AI優化
- 【強化學習】強化學習/增強學習/再勵學習介紹強化學習
- 強化學習(六)時序差分線上控制演算法SARSA強化學習演算法
- 真的超越了波士頓動力!深度強化學習打造的 ANYmal 登上 Science 子刊強化學習
- 向死而生:《血源詛咒》的戰鬥系統解析
- AI 大戰 AI,一個深度強化學習多智慧體競賽系統AI強化學習智慧體
- 這個教程,真的讓我學會了正規表示式
- 這個12歲英國男孩學也不上了 全職開發遊戲 從遊戲中學習開發遊戲
- 多智慧體強化學習及其在遊戲AI上的應用與展望智慧體強化學習遊戲AI
- 強化學習強化學習
- 強化學習之路一 QLearning 演算法強化學習演算法
- 強化學習筆記之【SAC演算法】強化學習筆記演算法
- 強化學習-學習筆記13 | 多智慧體強化學習強化學習筆記智慧體
- 強化學習演算法筆記之【DDPG演算法】強化學習演算法筆記
- 深度強化學習day01初探強化學習強化學習
- 【強化學習】強化學習術語表(A-Z)強化學習
- 【強化學習篇】--強化學習案例詳解一強化學習
- 什麼是人工智慧領域的強化學習人工智慧強化學習
- 從俄羅斯方塊,邁向強化學習大門強化學習
- 一個 PHP 程式猿學習 Go 的體悟PHPGo
- 為了設計這個計程車遊戲,開發者真的成為了一名網約車司機遊戲
- 我在網易遊戲做互動實習這段時間,總結了這8個點遊戲
- 玩遊戲、學AI兩不誤,遊戲網站帶來線上學習新思路遊戲AI網站
- 這個Bug的排查之路,真的太有趣了。
- 想跟上這個時代,你該學習了
- 強化學習10——迭代學習強化學習