遊戲的強化學習簡史

聞數起舞發表於2020-06-12
兩年前,我參加了有關人工智慧(AI)和機器學習的會議。 當我離開時,我遇到了一個由蒙特利爾初創公司Maluuba(當時是對微軟的最近收購)的研究人員組織的一次演講。 研究人員展示了他們如何建立一個AI代理,該代理在1980年代流行的街機遊戲《吃豆人》中獲得了999,990的最高分。

興奮和好奇的氣氛使房間裡的每個人都無語。 我感到懷舊。 當我還是個小男孩的時候,很酷的孩子曾經在電子遊戲中獲勝。 如今,好孩子們寫程式來為他們贏得遊戲。

研究人員將他們當時的成功歸因於強化學習(RL)。 我花了接下來的幾天研究主題。 我發現了一些令人著迷的想法,而我今天的狂喜並沒有減弱或消亡。

在本文中,我們討論了人類對遊戲性問題(無論是視訊遊戲還是棋盤遊戲)的痴迷,以及為什麼此類問題長期以來一直沒有引起人們的注意。 我們簡要地提到了利基演算法,例如RL和神經網路(NN),這些演算法有助於克服長達數十年的僵局。

簡而言之,遊戲:動作,獎勵和狀態

看,遊戲具有狀態,獎勵和動作。 玩家通常執行動作以達到遊戲的特定狀態,並且一路上,他們會累積一些獎勵。 最終分數是他們能夠收集的所有獎勵的總和。 "狀態空間"是一個奇特的詞,用於表示特定狀態表示下的所有狀態。

狀態是人類在特定時間點上代表遊戲的嘗試。 這不是遊戲本身的固有屬性。 因此,遊戲狀態可以代表不同的人不同的事物。 對於視訊遊戲,遊戲狀態可以代表遊戲地圖上玩家的座標,以及寶藏和對手的座標。 視訊遊戲的其他豐富狀態表示形式將每個視訊幀都呈現為狀態。

在吃豆人女士中,動作在向左,向右,向上和向下移動。 吃豆人或吃"強力顆粒"時吃掉彩色的鬼魂會給Pac-Man女士帶來回報。 狀態代表了吃豆人女士的位置,幽靈在特定時間點的位置和顏色。 它們還包含有關當前迷宮形狀以及剩餘顆粒的資訊,吃豆子女士尚未食用這些顆粒。

遊戲的強化學習簡史
> Pac-Man. Source: SourceAndPixel, via pixabay (CC0)

致命狀態(吃豆人女士應避免)是幽靈吞噬吃豆人女士時的狀態。 勝利的狀態是吃豆女士吃掉所有顆粒並完成水平。

以棋盤遊戲為例,在國際象棋中,動作是指移動到一塊,無論是騎士,主教還是其他任何一塊。 遊戲的狀態由所有未捕獲的棋子放在遊戲板上的位置表示。

獎勵有些棘手,因為在整個遊戲過程中,外行人無法說出此舉對遊戲其餘部分的重要性。 需要由專家來確定哪些策略在戰略上更勝一籌,哪些玩家更有可能獲勝。

現在,這是馬爾可夫決策過程(MDP)的非技術性介紹。 這是一張由過渡連線的狀態圖,上面有獎勵。 在任何狀態下都採取措施以最大化最終總獎勵的方式遍歷圖形。

為什麼遊戲性具有挑戰性?

很難創造出高分並在遊戲中擊敗人類的程式。 也許這就是為什麼遊戲性在尋求多巴胺的AI研究人員中很受歡迎的原因之一。 最近,優秀的遊戲程式使用了RL模型和神經網路(NN)。 他們使用具有內部MDP表示形式的RL模型來了解周圍的世界。 他們使用NN來概括從當前對世界的瞭解中從未遇到過的狀態。

現在,這些RL模型容易受到一些主要障礙的影響,例如狀態表示,獎勵體系結構問題和計算問題(資源(例如AI代理消耗的處理時間和記憶體))。 我們將在接下來的三個部分中討論這些障礙。

表示問題:遊戲狀態應該是什麼樣?

研究人員斷言,就像父母撫養孩子一樣,他們斷言他們比所創造的代理人更瞭解。 研究人員沒有讓探員像嬰兒那樣探索周圍的世界,而是限制了遊戲狀態的細節,僅使用他們認為相關的資訊子集來製作遊戲狀態。

被稱為" RL之父"的理查德·薩頓(Richard Sutton)展示了這種短期優勢複合體如何傷害了整個學科。 在他的部落格" Incomplete Ideas"中,他寫了一篇題為"痛苦的教訓"的文章,他在其中將利用人類對遊戲的理解與普通的搜尋和學習進行了比較,後者獲得了更大的成功。

代理商一次又一次地證明研究人員是錯誤的。 事實證明,研究人員幾乎不知道AI代理商在試圖贏得比賽時認為遊戲的哪些部分有用。 以前遊戲空間的減少以研究人員無法完全理解的方式損害了特工的效率。 當人們選擇並選擇要包含在狀態中的要素時,他們就會注入偏見。

獎勵架構問題

象棋這樣的棋盤遊戲沒有分數。 例如,在國際象棋中,唯一的目的是奪取對手的國王。 俘虜主教或騎士並沒有得到部分榮譽。 問題變成了:當遊戲在非終端狀態中沒有明確的得分時,我們如何評估遊戲狀態?

獎勵功能是一種激勵AI代理優先於其他行為的行為。 贏得比賽是一個極好的但尚不清楚的動機。 一個不好但很明顯的誘因是奪取對手的所有騎士。 代理商在短期和長期內都能獲得清晰有效的激勵,從而表現最佳。

一個更直觀的例子是,一個健康意識強的人避免食用美味的芝士蛋糕,儘管這會帶來短期的歡樂,這僅僅是因為它長期會對他們的身體造成傷害。 同樣,使用"良好"獎勵功能的AI代理可以避免長期獲勝的一些短期收益(收益)。

歷史上,國際象棋大師建立了框架,以根據棋子的相對值將複雜策略的評估減少為某些數值。 例如,根據這些框架之一,為贏得女王而丟掉車隊是一個簡單的決定。

但是,這些框架帶來了很大的警告。 他們可能會損害長期收益。 例如,捕獲一個免費的兵可以在短期內為您帶來(+1)優勢,但可能會導致您缺乏連貫的兵結構,而兵無法相互保護和加強,這最終可能會帶來挑戰 遊戲。 例如,典當結構之類的元素難以量化,因為它們依賴於玩家的"風格"及其感知的有用性。

計算問題:如何在大狀態空間中搜尋?

在Atari遊戲中,狀態空間可以包含10 1至10 11個狀態。 同時,象棋這樣的遊戲具有大約10⁴⁶有效狀態,而象圍棋這樣的遊戲則具有3⁶3有效狀態。 為了更好地理解這些數字,可觀察的宇宙中的原子數為10-2。

現在,儘管計算機隨著時間的推移而變得越來越快,但它們卻無法解決兩個主要的子問題:狀態空間的探索和NN的訓練。 探索問題正在嘗試訪問儘可能多的州,以便代理商可以建立更現實的世界模型。

神經網路的訓練將對部分可觀察狀態空間的推論推廣到對非可觀察部分的推論。 也就是說,未訪問狀態與被訪問狀態的相似程度。 在以下兩個部分中,我們將對兩個問題中的每個問題進行更詳細的介紹。

RL和勘探/開發權衡

在整個人生中,很難確定一個"轉彎"對一個人的滿足感和富裕程度有多大貢獻。 與您不接受或拒絕的求職者相比,您無法說出一份工作或一段關係帶來了多少歡樂。

同樣的問題也存在於遊戲中。 很難準確地確定遊戲不同階段的動作對最終得分的貢獻。 此類問題的技術術語是"信用分配"問題。 RL在解開值得在特定遊戲狀態中採取的行動方面一直是勝利的。 作為回報,信用分配問題為RL贏得了應有的名望。

RL模型通過為每個州分配信用值來解決"信用分配"問題。 RL分為兩個交織階段-學習和計劃。 學習是指代理漫遊模型以瞭解狀態。 計劃是指代理人將功勞分配給每個州並確定哪些行動比其他行動更好。

規劃和學習是反覆的過程。 在一次迭代中,在學習了—收集有關狀態的資訊之後,該代理對RL模型進行了規劃。 通過選擇一種可以最大化未來回報的狀態,它可以構建從一種狀態到另一種狀態的過渡。 在下一次學習迭代中,當提示您為特定狀態選擇哪種操作時,它將選擇導致最終狀態得分最高的過渡狀態。

僅當代理訪問每個州時,它才能為州提供準確的信用值。 但是,由於許多值得解決的問題具有難以置信的龐大狀態空間,因此RL代理不會訪問每個州。 代理僅與世界上發現的部分合作; 它根據訪問國家的"知識"來估計未訪問國家的信用。 這種近似需要NN,我們將在下一部分中對其進行說明。

一種狀態的信用取決於代理選擇訪問的以下狀態。 通常,RL模型使用"探索/開發權衡"確定要訪問的後續狀態(或選擇的操作)。

當您去餐廳訂購您喜歡的菜餚時,您就在利用一頓本來就不錯的飯菜。 如果您探索新菜,有可能比您喜歡的菜還要糟糕,但是同時,它可能會成為您最喜歡的菜。 正如諺語所說:"沒有冒險,就沒有收穫。"

在遊戲玩法中,探索使模型探測到狀態空間中更為重要的部分。 相反,利用剝削使其只能探查有限的但有希望的狀態空間區域。

現在,狀態空間搜尋問題由RL模型可以訪問多少個狀態以做出更好的近似來定義。 區域越廣,勘探範圍越廣,信用分配就越準確,並且模型變得越健壯。 然而,針對一個狀態嘗試許多動作會成倍增加計算複雜度。

神經網路呢?

由於RL模型僅檢視狀態空間的一個子集,因此無法說出哪種操作最適合未訪問狀態。 在執行期間,代理可能會遇到一些以前從未見過的狀態。 它需要一種機制來捕獲最佳狀態空間轉換狀態之間的相似模式。 儘管他們的訓練在計算上可能令人生畏,但神經網路是捕獲此類模式的絕佳工具。

遊戲的強化學習簡史
> Neural Networks. Courtesy of Maged Abdelsalam

可以看到,研究人員試圖模仿人腦的結構,這種結構在學習模式方面非常有效。 然而,人腦具有860億個神經元和100萬億個突觸。 希伯來的理論試圖解釋大腦的可塑性:"神經元一起發射,相互連線。"

唐納德·赫布(Donald Hebb)解釋說,活動的永續性或重複性傾向於誘發持久的細胞變化。 例如,幾年後駕駛成為某人的第二天性,因為在數百次啟用後,涉及駕駛的路徑或突觸會變得更嚴格。

在遊戲玩法中,研究人員使用具有足夠延展性的NN,以瞭解狀態空間中的所有不同模式。 同時,這些NN足夠深(就層而言),以瞭解狀態空間中轉換之間的所有細微差異。

RL永遠改變了視訊遊戲的玩法

在2010年代初期,一家以DeepMind命名的倫敦創業公司僱用RL來玩1980年代的Atari遊戲,例如Alien,Breakout和Pong。 這種"實用"的應用程式使大多數研究界感到驚訝,因為RL僅一次被視為一項學術工作。 這家初創公司的估值為十億美元,併成為Google的一部分。 DeepMind的研究人員隨後在熱門雜誌《自然》上發表了一篇論文,內容涉及計算機Atari遊戲中的人為控制。

在我們前面描述的三個問題中,電子遊戲遭受狀態空間表示和密集計算的困擾。 為了克服狀態表示問題,研究人員將視訊幀中的原始畫素原樣傳遞給了AI代理。

為了克服計算問題,研究人員利用了一些技巧。 他們通過應用下采樣技術和跳幀機制減少了列舉的狀態空間。 當涉及到神經網路時,他們跳過了超引數調整。 用非技術術語來說,他們使用的是神經網路,而不是最佳的神經網路。

遊戲的強化學習簡史
> Atari games results. Source: DeepMind DQN Nature Paper

棋盤遊戲也有相當大的成功份額

對棋盤遊戲玩法的迷戀並不是吸引人的迷幻遊戲。 不同的棋盤遊戲具有各種影響其狀態空間和計算可處理性的內在屬性。 儘管計算機能夠在1960年代的跳棋和1990年代的國際象棋等遊戲中擊敗人類,但"中國圍棋"似乎毫不動搖,但研究人員認為贏得"圍棋"是AI的聖盃。

遊戲的強化學習簡史
> Shogi. Source: Wikimedia Common

倫敦大學學院教授,DeepMind RL負責人David Silver一直是遊戲的狂熱粉絲。 從劍橋大學畢業後,他與人共同創立了一家視訊遊戲公司。 然後,他返回學術界並獲得博士學位。 在Richard Sutton的監督下進行遊戲。

2016年,Silver與Aja Huang一起為DeepMind工作時,建立了AI代理" Alpha Go",從而有機會與世界衛冕人類冠軍對抗。 1億人在觀看比賽,寫了3萬篇有關該主題的文章; 希爾弗對他的創作充滿信心。 AlphaGo以4比1贏得比賽,這一勝利引發了人們對RL的另一波興奮。 對這樣的AI代理人的炒作只是合適的。 它獲得了有關將人類帶走數千年的遊戲的知識。

在我們上面描述的遊戲性問題中,玩Go的AI代理遭受了計算問題和獎勵架構問題。 這次,研究人員僅使用蒙特卡羅樹搜尋(MCTS)列舉了狀態空間中最可能的子集,從而減少了對計算的苛刻要求。 研究人員還利用帶有大量TPU的分散式計算,這些TPU是專門為訓練NN而定製的硬體。

為了克服獎勵架構問題,AlphaGo既利用了基於MCTS的基於模型的學習,又利用了基於NN的無模型的學習。 無模型部分代表主體的直覺,而基於模型的部分代表長期的思維。

Alpha Zero和學習所有完美的資訊遊戲

銀子並沒有就此停止; 然後,他建立了另一個特工Alpha Zero,這是一個更強大的特工,能夠下棋,將棋(Shoji)和圍棋。 Alpha Zero比任何其他前輩都更積極地利用"自我比賽",即,它只是通過多次與自己比賽而不是研究職業球員的比賽來教自己如何比賽。

遊戲的強化學習簡史

為了測試AlphaZero的出色程度,它必須在每場比賽中與計算機冠軍一較高下。 它擊敗了Stockfish,在最近的十個世界計算機國際象棋錦標賽中,他贏得了六屆冠軍,是的,這是一個冠軍。 在將棋中,它擊敗了頂級將棋節目Elmo。

當AlphaZero和AlphaGo正面交鋒時,AlphaZero殲滅了AlphaGo 100-0。 區別很簡單:AlphaGo接受過人類玩遊戲的培訓,而AlphaZero只是自學瞭如何玩。 人類的知識似乎傷害了AI特工,再次證實了薩頓的論點。

AlphaZero能夠掌握三種不同的遊戲,這意味著它的統治地位將擴充套件到任何其他完美的資訊遊戲,其中有關該遊戲的所有資訊可供該遊戲的所有參與者使用。 國際象棋,將棋和圍棋是完美的資訊遊戲,與撲克或Hanabi不同,後者的對手看不到對方的手。

結論

人工智慧的潛力是無法估量的,並且只有通過對神經科學的更好理解和電腦科學的擴充套件,才能繼續蓬勃發展。 儘管我們在本文中描述了遊戲性問題,但它本身並不是目的。 除了激勵人們之外,遊戲玩法還提供了一個完善的測試環境來開發AI模型,這通常是因為它們是難題。 這些相同的模型被用於現實生活中,例如我們所說的識別癌症和自動駕駛汽車。 而這僅僅是個開始,他們知道這些模型將來將適用於哪些真正的潛力或不同的應用程式!

最初發布在Nash專案上。

(本文翻譯自Shehab Yasser的文章《A Brief History Of Reinforcement Learning In Game Play》,參考:

https://medium.com/swlh/a-brief-history-of-reinforcement-learning-in-game-play-d0861b2b74ef)

作者:聞數起舞
原地址:https://www.toutiao.com/a6831981856699712013/


相關文章