OpenAI 今日宣佈,它們的遊戲人工智慧 OpenAI Five 將於 4 月 13 日與人類進行最終決戰,此次比賽的對手是 Dota 2 世界冠軍團隊 OG。
雖然在去年 8 月的 Dota2 國際邀請賽(TI8)上,OpenAI連續輸給 paiN 以及由大 B 神、xiao8、430、ROTK、狗哥這些中國 Dota 屆元老組成的戰隊,但 OpenAI 並沒有因為挑戰失敗而放棄嘗試。這一次他們直接選擇了與 TI8 上的冠軍團隊過招。
看來在最近 6 個多月的時間裡,人工智慧又學會了一些新的技術?
這次比賽的規則類似於 TI8 時 OpenAI Five 與職業戰隊的比賽:
18 名英雄可選:斧王、水晶室女、死亡先知、撼地神牛、矮人直升機、巫妖、巫魔巫師、死靈法師、痛苦女王、剃刀、隱刺、影魔、斯拉克、矮人火槍手、斯溫、潮汐獵人、冥界亞龍、巫醫。映象匹配:瘟疫法師、矮人火槍手、冥界亞龍、水晶室女、巫妖。
無聖劍、魔瓶
無召喚物,無幻象
無掃描
值得注意的是,TI8 比賽期間,去除掉了「5 個無敵信使」的限制,因為這個條件會極大的影響遊戲的真實性。
本次 OpenAI Five Finals 賽事直播地址:https://www.twitch.tv/openai
比賽時間:北京時間 4 月 14 日凌晨 2:30 分(美國太平洋時間 4 月 13 日 11:30)
OpenAI Five:挑戰人類的成與敗
人工智慧在圍棋上擊敗人類之後,很多技術人員就開始展望 AI 在視訊遊戲中的表現了。2017 年的 Dota2 國際邀請賽 TI7 上,OpenAI 推出的人工智慧橫空出世,在人類巔峰對決的比賽現場 1v1 打敗了世界頂級玩家。
在那場一對一表演賽中,OpenAI 的人工智慧打敗了 Danylo "Dendi" Ishutin,一名在職業生涯中贏得超過 70 萬美元獎金的職業玩家。OpenAI 的 bot 在第一場比賽開始約 10 分鐘打敗了 Dendi。在第二場比賽中 Dendi 放棄,並拒絕進行第三場比賽。
Dendi 在比賽前接受採訪,作為第一個在公開比賽中被 AI 擊敗的職業選手,他領教了人工智慧在單挑時的應變能力。
單挑可能還不具有太多說服力,Dota2 是一個 5v5 的多人對戰遊戲,很快 OpenAI 就開啟了更為正式的「10 人對決」之旅。2018 年 6 月,這家公司提出的「OpenAI Five」又在 5v5 多人對局中擊敗了由前職業玩家、遊戲解說組成的天梯 6000 分級別戰隊,並宣佈會於 TI8 上亮相和真正的職業選手過招,一時吸引了人們的關注。
Dota2 是目前全球最為流行,也最複雜的電子競技遊戲之一。其最負盛名的賽事「TI」每年都會吸引上千萬玩家的關注。
面對 AI 的挑戰,人類躍躍欲試,在 TI8 上很多參賽隊伍都報名想參加 OpenAI Five 的比賽,OpenAI 遇到的第一個對手是來自巴西的戰隊 paiN,後者也是 TI8 決賽階段第一支被淘汰的隊伍。有了 AlphaGo 的「前車之鑑」,人們紛紛預測 AI 穩贏,然而人類職業玩家卻讓 OpenAI 嚐到了失敗的滋味。
paiN 選擇了開霧直接衝進天輝野區,四人圍攻落單的潮汐,搶到了一血。OpenAI 也展示出了人工智慧「不聰明」的一面,在塔下不斷插眼。雖然在隨後的比賽中雙方有來有往,但人類玩家逐漸掌握了計算機的套路,在 50 分鐘的比賽後打爆了對方的水晶。
在 Open AI Five 對陣 paiN 的比賽中,人工智慧對於自己獲勝概率的預測。
這場失利讓大家對於 AI 的期待有所下降,隨後在第二場比賽中,由 Burning、Xiao 8、430、ROTK 和 Sansheng 組成的「中國 Dota2 元老隊」也順利擊敗了 OpenAI Five,讓人工智慧的 TI8 之旅最終以失敗告終。
第二場比賽中,人類用了 45 分鐘拿下勝利,人頭比 48 比 43。
解決 5v5 的核心問題
雖然首次挑戰職業玩家沒有成功,但 OpenAI Five 的嘗試為人工智慧領域技術的發展有著很大意義——它解決一個重要問題:強化學習在如此複雜、需要長期策略的遊戲環境下是否依然奏效?
通過自我對抗學習,OpenAI Five 每天相當於玩 180 年的遊戲。訓練上,它使用 256 塊 GPU、12 萬 8000 個 CPU 核心使用近端策略優化(Proximal Policy Optimization)方法進行訓練。當每個英雄使用單獨的一個 LSTM,模型就可以在沒有人類資料的情況下學到可識別的策略。這表明強化學習即使沒有根本性的進步,也能夠產生大規模但也可接受的長期規劃。這出乎了 OpenAI 研究人員起先的預料。
為了訓練每個英雄,OpenAI 使用了兩種機器學習技術:長短期記憶網路(LSTM)和近端策略優化(Proximal Policy Optimization)。
為什麼使用 LSTM 其實很好理解:打 Dota2 需要長期策略,敵方英雄的每一個當前行為都會對之後的行為產生影響。LSTM 是一種迴圈神經網路(RNN),它比普通的 RNN 更適合於處理和預測時間序列中間隔和延遲非常長的重要事件。LSTM 有一個叫做 Cell 的元素,能夠分辨出輸入的資訊是否有用,是否需要記住。
每一個 bot 的神經網路包含一個單層的、擁有 1024 單位的 LSTM,觀察遊戲的局勢然後做出相應的行為。下圖這個互動演示就是可以讓你理解每個 bot 是如何做出指令的,這些畫面就是 Dota 2 的 API 所觀察到的。
如何讓五個神經網路協作團戰是另一個讓不少人好奇的地方,這其實也是建立在獎勵機制上。OpenAI 為 AI 模型開發了一個叫 Team Spirit 的超引數,數值從 0 到 1,數字越小每個神經網路就越「自私」,相反則越考慮團隊的整體利益。到最後,OpenAI 發現將 Team Spirit 設定為 1 都能贏得比賽。
在訓練初期,研究員其實會將數值調整的很小,這樣 AI 會更考慮自身的獎勵,學習如何分路、對線、提供金錢和經驗。等到每個神經網路學會了基本的策略和玩法後,研究員才將數值慢慢提高。
由於所有引數都是隨機,AI 沒有引入任何人類的經驗,所以 AI 沒有 1-5 號位的概念,不會區分輔助和 carry,出裝備也是從頭開始學習。
在第一場遊戲中,英雄漫無目的地在地圖上探索,而在幾個小時的訓練後,出現了規劃、發育或中期戰鬥等概念。幾天後,智慧體能一致地採用基本的人類策略:試圖從對手偷財富、推塔發育、在地圖旋轉控制英雄以獲得線路優勢。通過進一步的訓練,它們開始學會了 5 個英雄一起推塔這樣的高階策略。
TI8 冠軍 OG 戰隊
OpenAI 捲土重來,這一次直接選擇挑戰目前人類最強戰隊 OG,展示了自己的強大自信。這次的「最終對決」,OpenAI 直接以 Finals 為名,看來是最後一戰了。更令人興奮的是,它的對手 OG 絕非等閒之輩。
OG 戰隊前身為 Monkey Busniess 戰隊,後被一家遊戲直播平臺收購改名為 OG。2015 年,OG 戰隊在決賽中擊敗了 Secret 戰隊,奪得法蘭克福特錦賽冠軍,從此一戰成名。
2016 年,OG 戰隊雖然在上海錦標賽中失利,卻於當年在馬尼拉再次奮起奪得第二個特錦賽冠。
冠軍團隊也並非一帆風順的。在 2016 年 TI 賽慘敗之後,OG 戰隊經歷了一波換血:去掉了 Cr1t-、Miracle-和 MoonMeander,新加入 Jerax、Ana 和 s4。重生之後的 OG 隨即斬獲了波士頓特錦賽的冠軍,之後於 2017 年獲得基輔特錦賽冠軍。
TI5-TI7 期間,OG 取得了 7 個官方特錦賽中的 4 個冠軍,這是一支頂級的世界強隊。
但 OG 真正的傳奇,展現在 TI8 的舞臺上。
TI8 自 2018 年 8 月 15 日溫哥華開戰後,OG 先以 2:1 擊敗 PSG.LGD,取得勝者組冠軍。而後,打落敗者組的 PSG.LGD 在敗者組決賽中以 2:0 戰勝 EG 挺進總決賽。TI8 決賽成為了 OG 與 LGD 的恩怨局。
8 月 26 日,在總決賽的精彩對決中,最終 OG 更勝一籌,3:2 贏得 LGD,在全世介面前捧起了 TI 冠軍盾,而 N0tail 與 JerAx 也成功拿下四大聯賽大滿貫。
小結
雖然 TI8 期間,OpenAI Five 與職業選對的「表演賽」輸的慘不忍睹,但讓我們看到了人工智慧在遊戲領域的創新與突破。此次 OpenAI Five 最終決戰 TI 8 冠軍 OG,無論結果如何終將為 OpenAI 的 Dota2 遊戲專案劃上一個句號。希望時經一年,OpenAI Five 能帶來更為驚豔的表現。
最後,去年的「大巴黎,咚咚咚」,今年上海 TI 9 加油啊……小編要去現場!!!