OpenAI在Dota 2遊戲中雖敗猶榮

格伯納發表於2018-08-30

就在上週,人類對機器人進行了反擊。實際上是在影片遊戲中打敗了他們。

在一場三強爭霸賽中,兩支職業戰隊打敗了伊隆·馬斯克建立的研究實驗室OpenAI開發的人工智慧機器人。他們所玩的Dota 2(刀塔:守衛遺蹟2)電腦遊戲是一款非常受歡迎並且激烈複雜的競技遊戲。而這場比賽對於人工智慧來說是一塊試金石:這將成為人類所創造的超越人們想象的人工智慧的最新衡量標準。

人工智慧技術獲得了一些重大進展。近年來最引人注目的事例是DeepMind公司的AlphaGo擊敗了圍棋世界冠軍,這是一項專家認為至少十年無法實現的成就。然而最近,研究人員已經將人工智慧參與影片遊戲作為下一個挑戰。雖然電子遊戲並沒有像AlphaGo和國際象那樣廣泛的知名度,但實際上它們的玩法要困難得多。這是因為遊戲玩家將會隱藏各種資訊,複雜的遊戲環境也在不斷變化,以及無法輕易模擬的戰略思維。換句話說,這更接近我們希望採用人工智慧在現實生活中解決的各種問題。

OpenAI的失敗只是人工智慧進步的一個坎坷

Dota 2是一個特別受歡迎的人工智慧測試場,OpenAI公司擁有最好的Dota 2機器人。但在上週,OpenAI輸了。那麼發生了什麼事?我們在人工智慧的能力上達到了某種上限嗎?這表明某些技能對於計算機而言過於複雜嗎?

其答案是否定的。機器學習研究員兼Dota 2遊戲粉絲Stephen Merity表示,這只是一個"坎",機器最終將征服遊戲玩家,而OpenAI可能會顛覆人們的看法。但首先需要了解人類會獲勝的原因,以及實現OpenAI的目標,即使遭到失敗,這些做法仍然有用。它將告訴人工智慧能夠做什麼,不能做什麼,以及將來會發生什麼。 

OpenAI在Dota 2遊戲中雖敗猶榮


Dota 2遊戲截圖,這是一個幻想競技的戰鬥遊戲,兩組五人戰隊為了摧毀彼此的基地而戰鬥。遊戲玩法很複雜,比賽通常持續超過30分鐘。

像機器人一樣學習:如果一開始沒有成功

首先,我們瞭解一下上週的比賽。這些遊戲機器人是由OpenAI建立的。而作為其廣泛的研究範圍的一部分,OpenAI希望開發出"造福全人類"的人工智慧。而這證明了許多不同的技術研究是合理的,並吸引了一些該領域最好的科學家參與。該實驗室表示,透過訓練Dota 2機器人團隊(被稱為OpenAI Five),它希望開發能夠"處理現實世界的複雜性和不確定性"的系統。

這五個機器人(獨立操作,但使用相同的演算法訓練)透過強化學習進行訓練,以操作Dota 2遊戲。這是一種常見的訓練方法,基本上是大規模的反覆嘗試和試錯(它有自己的弱點,但它也會產生令人難以置信的結果,其中包括AlphaGo)。他們並沒有採用Dota 2的遊戲規則對機器人進行程式設計,而是將它們直接丟進遊戲中,讓他們自己解決問題。 OpenAI的工程師透過他們完成某些任務進行獎勵(比如殺死對手或贏得比賽)來加快這個過程,但僅此而已。

這意味著機器人在開始訓練時完全隨機操作,隨著時間的推移,他們學會將某些行為與獎勵聯絡起來。正如人們可能想到的,這是一種非常低效的學習方式。其結果是,機器人必須以加快遊戲速度,每天訓練獲得的經驗相當於人類180年的訓練時間。正如OpenAI公司的技術長和聯合創始人Greg Brockman在今年早些時候所說的那樣,如果需要一個12,000到20,000小時的練習才能掌握某項技能,那麼機器人每天都要經歷"100個人的一生的經歷"。

花費這麼長時間的部分原因是Dota 2遊戲非常複雜,遠遠超過棋盤遊戲。兩個五人戰隊在遊戲地圖上相互對峙和戰鬥,充滿了無法預測的角色、障礙物,以及可破壞的建築物,所有這些因素都對戰鬥的形勢和程式產生影響。遊戲玩家必須聯合各種力量與對手作戰將其摧毀。他們可以獲取或購買數百種物品來提升他們的能力,每個玩家(其角色超過了100個)都有自己獨特的動作和屬性。Dota 2遊戲的每場比賽都像是一場小型古代戰爭,其目標是爭奪領土,並努力打敗對手。

人工智慧需要處理遊戲中的所有資料,以便以更快的速度進行,這是一個巨大的挑戰。為了訓練他們的演算法,OpenAI必須具備大量的處理能力,大約採用了256個GPU和128,000個CPU。這就是為什麼IT專家經常將OpenAI Five作為一個工程和研究專案進行討論和研究的原因:讓系統正常執行具有挑戰性,更不用說擊敗人類玩家了。

"就現代資料驅動人工智慧方法所能處理的複雜程度而言,OpenAI Five比DQN或AlphaGo更加令人印象深刻。"史丹佛大學電腦科學博士生Andrey Kurenkov指出。Kurenkov表示,雖然這些較舊的專案在純粹研究的層面上引入了重要的、新穎的想法,但OpenAI Five主要是在以前的不可思議的情況下部署現有的結構。無論是規模和輸贏都很大。

今年早些時候,OpenAI Five擊敗了一支業餘遊戲玩家團隊作為其能力的基準。

機器人仍缺乏遊戲計劃

但是從拋開工程的角度而言,人工智慧機器人輸掉了這兩場比賽,那麼是機器人還不夠好嗎?答案是:仍然非常好。

在過去的一年中,人工智慧機器人已經逐步掌握了變得更加複雜的遊戲規則,從1對1的比賽開始,最後達到5v5的競技。然而,他們還無法應對遊戲的複雜性。在國際比賽中,一些限制被取消了。令人關注的是,機器人不再擁有無懈可擊的信使(向玩家交付物品的NPC)。這些以前是他們遊戲風格的重要支柱,因為獲得治療藥水,可以幫助他們進行持續的攻擊。在一些遊戲中,他們不得不擔心他們的供應線被取消的問題。

機器人是否掌握長期戰略是一個關鍵問題

雖然對於這兩場比賽仍在分析,但人們的初步共識是機器人玩得很好,它們都有自己的優點和缺點,人類玩家可以利用它們的弱點獲得比賽的優勢。

這兩場比賽具有非常高的水平,人類玩家首先在遊戲中領先,然後是機器人,最終人類玩家獲得了勝利。但在這兩場比賽中,一旦人類玩家獲得了相當大的優勢,就會發現機器人很難挽回敗局。遊戲評論員猜測這可能是因為人工智慧首選的是"以90%的確定性獲得1分,而不是以51%的把握贏得50分"。(這一特點在AlphaGo的遊戲風格中也很明顯。)這意味著OpenAI Five被用於研究穩定但可預測的勝利。當機器人失去了領先優勢時,他們無法進行必要的冒險以重新獲得勝利。

OpenAI在Dota 2遊戲中雖敗猶榮

OpenAI Five在國際上的第二場比賽場面

不過這只是猜測。正如人工智慧應用情況一樣,猜測機器人背後的確切思維過程是不可能的。我們所知道的是這些機器人在遊戲中的短期表現比較出色,但與人類的長期戰略比賽時則十分棘手。

OpenAI Five的判斷非常準確,可以透過法術和攻擊積極地挑選目標,並且通常對它們遇到的對手構成威脅。法爾茅斯大學的人工智慧遊戲研究員Mike Cook和一名狂熱的Dota玩家在現場直播了這些戰鬥,他們將機器人的風格描述為"催眠"。"它們精確而清晰地開展行動。"Cook 表示,"在通常情況下,人類玩家會在贏得一場戰鬥之後,將會稍微放鬆警惕,期待敵人隊撤退,並重新集結。但機器人不這樣做。如果它們看到獲勝機會,就會一直進攻。"

在漫長的遊戲比賽中,機器人們似乎在蹣跚而行,想一想很難在10分鐘或20分鐘的時間的比賽獲得優勢。它們在兩場比賽中的第二場對陣一支中國職業遊戲戰隊,這個戰隊選擇了不對稱的策略。一名玩家收集資源以不斷加強戰隊的實力,而其他四人則對機器人戰隊進攻或干擾。然而,機器人似乎沒有注意到發生了什麼,並且在遊戲結束時,人類戰隊中將會有一個消滅人工智慧對手的超強玩家。"這是人類玩Dota遊戲的風格。但對於機器人來說,這是極其長期的規劃。"

這個戰略問題不僅對OpenAI很重要,對於人工智慧的研究也更為重要。缺乏長期規劃通常被視為強化人工智慧學習的一個主要缺陷,因為使用這種方法建立的人工智慧通常強調及時支付而不是長期回報。這是因為構建一個長期工作的獎勵系統是困難的。如果無法預測何時發生這種情況,那麼如何訓練機器人推遲使用強大的法術,直到敵人聚集在一起才使用?或者只是因為沒有使用某個咒語而不給一個小獎勵嗎?如果機器人決定永遠不使用它呢?這只是一個基本的例子。Dota 2遊戲通常持續30-45分鐘,玩家必須不斷思考什麼行動將導致長期的成功。

然而,重要的是要強調,這些機器人的行為並非僅僅是粗心大意或是尋求回報。控制每個玩家的神經網路具有學習某些策略的記憶元件。它們對獎勵做出反應的方式是考慮未來的收益以及更直接的收益。實際上,OpenAI表示其人工智慧代理程式的執行程度遠高於其他任何類似系統,其"獎勵半衰期"為14分鐘(粗略地說,這是機器人可以等待未來回報的時間長度)。

Kurenkov撰寫了大量有關強化學習侷限性的文章。他表示,比賽表明強化學習可以處理比大多數人工智慧研究人員想象的複雜程度更高的情況。但他補充說,比賽的失敗表明需要新系統管理長期思維。(不出所料,OpenAI的技術長對這種說法並不認同。)

與比賽的結果不同,這裡沒有明顯的結論。對機器人是否成功的分歧反映了人工智慧中未解決的更大問題。正如研究員Julian Togelius在Twitter上所指出的那樣,"我們如何才能開始區分長期戰略和看起來像長期戰略的行為?這有關係嗎?我們現在所知道的是,在這個特定領域,人工智慧還不能超越人類。"

OpenAI在Dota 2遊戲中雖敗猶榮


Dota 2遊戲提供超過100種具有各種能力的不同遊戲角色,人工智慧還沒有完全掌握它們。

不公平的競爭環境

對於機器人聰明才智進行爭論是另一回事,但OpenAI Five參加Dota 2比賽也提出了另一個更基本的問題:我們為什麼要舉辦這些活動?

以Gary Marcus的評論為例,他是當代人工智慧侷限性的批評者。在上週OpenAI遊戲的準備階段,Marcus在Twitter上指出這對於人類玩家來說並不公平。與人類遊戲玩家(或其他一些人工智慧系統)不同,機器人實際上並不觀看電腦螢幕來進行操作。相反,它們使用Dota 2的"bot API"來理解遊戲。這是一個由20,000個數字組成的協議,用於描述數字形式的變化,其中包括每個玩家的位置,健康狀況,擁有的法術,以及攻擊時間等所有資訊。

正如Marcus所說,這快速解決了極具挑戰性的場景感知問題,併為機器人提供了巨大的優勢。例如,它們不必搜尋地圖以獲知對手的團隊在哪裡,或者觀看使用者介面以檢視他們最強大的法術是否準備就緒。他們不必猜測對手的健康狀況或估計他們的距離,它們都會知道這些資訊。

但這算不算作弊?

有幾種方法可以回答這個問題。首先,OpenAI可以建立視覺系統來讀取畫素並檢索機器人API提供的相同資訊。(沒有這麼做的主要原因是非常耗費資源。)這很難判斷,因為沒有人知道它是否會有效,直到有人真正做到了。但它可能無關緊要。更重要的問題可能是:能否在人類與機器之間展開公平的競爭?畢竟,如果我們想要了解人類玩家如何玩Dota 2,我們是否需要為OpenAI Five配備機械手以操作滑鼠和鍵盤?

這些問題有點滑稽,但它們強調了很難在人類與計算機之間建立真正公平競爭環境的可能性。這樣的事情並不存在,因為難道需要機器像人類一樣思考,就像飛機像飛鳥一樣飛翔?正如人工智慧遊戲研究員Cook所說的那樣:"當然,計算機在某些方面比人類更好。這就是我們發明計算機的原因。"

Brockman表示,"也許我們需要更加深入地思考為什麼要舉辦這些活動。除了遊戲之外還有更多內容。我們玩Dota遊戲的原因並非如此,我們之所以這樣,是因為我們認為可以開發出能夠在未來幾十年內為人類提供發展動力的人工智慧技術。"

這個雄心勃勃的主張是真實的。用於訓練OpenAI Five的是一個名為Rapid的系統,正在應用於其他專案。例如,OpenAI已經用它來訓練機器人的機械手以類似人類的靈活性來操縱物體。人工智慧一樣也存在侷限性,Rapid並不是無所不能的演算法。但總的原則是:實現任意目標所需的工作(如在影片遊戲中打敗人類)有助於刺激人工智慧領域的發展。

OpenAI在Dota 2遊戲中雖敗猶榮

韓國圍棋選手李世石在2016年被AlphaGo擊敗,但他學會了一些新技能。

它還可以為那些受到機器挑戰的人類提供幫助。例如,AlphaGo擊敗圍棋世界冠軍的故事中最引人入勝的一部分是,儘管圍棋冠軍李世石被人工智慧系統擊敗,但他和AlphaGo社群的其他成員也從中學到了很多經驗和技巧,AlphaGo的遊戲風格顛覆了幾個世紀以來的人們公認的智慧,其行為仍在研究之中,而李世石在與AlphaGo的比賽之後,與其他人類棋手比賽中連續獲勝。

在Dota 2遊戲世界中已經開始發生同樣的事情:玩家正在研究OpenAI Five的遊戲過程以發現新的戰術和動作。至少有一個以前未被發現的遊戲機制,它允許玩家在遠離對手的範圍內快速補給某種武器,機器人的這種發現將讓人類玩家受益。正如人工智慧研究員Merity所說:"我真的想坐下來觀看這些比賽,這樣我就可以學習新的策略。而正在研究這些東西的人們會說,'這是我們需要投入遊戲的東西。'"

這種人工智慧訓練現象在將來可能會變得更加普遍。從某些方面來看,它似乎是一種仁慈的行為。機器人在超越人類能力的同時,也會提供一份禮物。

當然,這不是真的,人工智慧只是人類發明的另一種自我教育方法。但這就是我們進行比賽的原因。而對於人類玩家和機器來說,這是一種意義深刻的學習體驗。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31509949/viewspace-2213162/,如需轉載,請註明出處,否則將追究法律責任。

相關文章