NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

機器之心發表於2017-11-16

距離 NIPS 2017 開幕還有半月左右,但相關獎項的資訊已經開始流出。CMU 教授 Tuomas Sandholm 的個人主頁顯示,他和其博士生 Noam Brown 獲得了 NIPS-17 最佳論文獎。經機器之心求證,獲獎論文為《Safe and Nested Subgame Solving for Imperfect-Information Games》。本文將對這篇論文進行簡要介紹。


Tuomas Sandholm 個人主頁:http://www.cs.cmu.edu/~sandholm/

NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

機器之心就最佳論文問題向 Tuomas Sandholm 本人進行求證,並得到了肯定的回覆。

2017 年,最為人們關注的人機大戰除了柯潔與 AlphaGo 的圍棋比賽之外,就是 CMU 的德州撲克 Libratus 擊敗世界頂尖撲克選手了。

2017 年 1 月 30 日,在賓夕法尼亞州匹茲堡的 Rivers 賭場,卡耐基梅隆大學(CMU)開發的 Libratus 人工智慧系統擊敗人類頂級職業玩家。此次比賽共持續 20 天,由 4 名人類職業玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou 對戰人工智慧程式 Libratus,在為期 20 天的賽程裡面對玩 12 萬手,爭奪 20 萬美元的獎金。最終的結果是「比賽過程中,人類選手整體上從未領先過。」

NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

據介紹,Liberatus 用了很多蠻力計算來發揮到最佳水平,此外還利用了博弈論。而 CMU NIPS 2017 的這篇獲獎論文對其背後的技術做了詳細的解讀,以下是機器之心對此論文的介紹。

論文:Safe and Nested Subgame Solving for Imperfect-Information Games

NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

論文連結:https://arxiv.org/abs/1705.02955

和完美資訊博弈不同,不完美資訊博弈不能通過將博弈分解為可獨立求解的子博弈而求得佔優策略。因此我們越來越多地使用計算密集的均衡判定技術,並且所有的決策必須將博弈的策略當做一個整體。由於不能通過精確的分解來解決不完美資訊博弈,人們開始考慮近似解,或通過解決不相交的子博弈提升當前結果。這個過程被稱為子博弈求解(subgame solving)。我們提出了一種無論在理論上還是在實踐上都超越了之前方法的子博弈求解技術。我們還展示瞭如何對它們和以前的子博弈求解技術進行調整,以對超出初始行動提取(original action abstraction)的對手的行動做出應答;這遠遠超越了之前的頂尖方法,即行動轉化(action translation)。最後,我們展示了當博弈沿著博弈樹向下進行時,子博弈求解可能會重複進行,從而大大降低可利用性。我們應用這些技術開發了能在一對一無限注德州撲克單挑中打敗頂尖人類選手的第一個 AI。

簡介

不完美資訊博弈模型的策略設定中存在隱藏的資訊。這種模型有大量的應用,包括談判、拍賣、網路安全以及人身安全。在這樣的博弈中,通常的目標是尋找一個納什均衡,即為每一個玩家分配一個組合策略,從而沒有任何玩家能單方面轉向另一個策略而提高自己的收益。

子博弈求解在完美資訊博弈(比如象棋和西洋跳棋)中是一種標準的求解技術,其中博弈的每一部分都能獨立求解。這在完美資訊博弈中是可行的,因為博弈的確切狀態是已知的,從而允許對博弈的餘下過程中遺留的子博弈進行獨立求解。例如,在象棋中,對後翼棄兵(一種象棋術語,下同)最佳響應不需要任何對西西里防禦的最佳響應的知識。這種分解方法是 AI 能夠在象棋和圍棋中打敗頂尖人類選手的關鍵所在。在西洋跳棋中,將博弈分解成較小的互相獨立的子博弈的能力甚至能用於求解整個博弈。

相反的是,不完美資訊博弈不能如完美資訊博弈那樣通過分解而進行求解,因為一個子博弈的最佳策略可能依賴於其它尚未得到的子博弈的策略和輸出。雖然這是一個反直覺的想法,我們在第 2 節裡對其作出了證明。

相比依賴於分解,過去求解不完美資訊博弈的經典方法是將博弈當成一個整體來求解。例如,限注德州撲克單挑(一種相對簡單的撲克遊戲,有 1013 個決策點)不需要做分解就能得到基本的求解。然而,這種方法不能擴充套件到大型博弈中,比如無限注德州撲克單挑(不完美資訊博弈求解的一個主要的基準問題)有 10,161 個決策點,甚至當允許分數下注的時候會達到無限個。在如此大型的博弈中計算策略的標準方法是首先生成一個博弈的抽象(abstraction)表徵,這是博弈的簡化版本,保留了原始博弈儘可能多的策略特徵。例如,將一個連續的行動空間離散化。這個抽象的博弈可以求解,當在進行完整博弈的時候,通過將完整博弈中的狀態對映到抽象博弈中的狀態,就能應用這個解。例如,在將連續行動空間離散化的例子中,舍入最近鄰的離散行動。在極端大型的博弈中,過於簡單的抽象可能無法包含博弈的所有決策複雜性,而且其解可能在原始的博弈中距離納什均衡非常遠。

出於這一原因,當我們沿著博弈樹向下選擇策略時,試圖提升策略就變的很自然了,並且剩餘的子博弈變的更小,儘管這也許不會導致納什均衡。例如,在遊戲開始之時,我們可以在提取中包含遊戲早期階段的大量大小不同的賭注,但只為最後幾輪保留少量大小不同的賭注。當我們來到遊戲的最後幾輪,我們可以在子博弈中計算一種新策略,其中有最後幾輪的大量大小不同的賭注。儘管通過這種方式獨立地分析子博弈也許不可能達到一個精確的均衡,但是當原始策略不是最優時,它也許有可能在這些子博弈中提升策略。

第 2 節中我們首次展示了一個直觀示例,它證明了為什麼不完美資訊子博弈無法像完美資訊博弈一樣通過獨立求解子博弈而得到均衡解。第 3 節定義了符號,並提供了下文使用的背景資訊。第 4 節回顧了用於不完美資訊博弈的子博弈求解的先前方法。接著第 5 節提出了一種新的子博弈求解方法,它同時具備先前最佳方法的理論保證和更優的實際表現。第 6 節中提出一種替代形式的子博弈求解技術,在模型假設中它對誤差更魯棒,這弱化了演算法的理論有效性,但是顯著提升了效能。同時這一節對那些想要實現和在本論文基礎上進一步擴充套件的人很重要。第 7 節引入一種子博弈求解方法,它被巢狀為玩家的博弈樹,相比於先前最優的方法行動轉化,它大大提升了效能。最後,第 8 節通過實驗展示了這些新的子博弈求解技術,相比於先前技術顯著降低了可利用性。論文同時也展示了 2017 年人機大戰的結果,其中使用論文所述技術的 Libratus 首次在一對一無限注德撲中擊敗了人類頂級玩家,實現了歷史性突破。

NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

圖 1:(a)擲硬幣示例。C 表示一個可能性節點。S 是玩家 2(P2)的一個子博弈。兩個 P2 節點之間虛線意味著 P2 無法區分它們。(b)擲硬幣的公共博弈樹。擲硬幣的兩個結果只被 P1 觀察。


NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

圖 2:擲硬幣遊戲中提到的主幹策略。Sell 操作導致子博弈未顯示。所有操作的可能性都有顯示。由於 P2 節點分享了資訊集,該行動上每個節點的概率必須相同。圖中還顯示了每個 P1 行動最佳反事實返回值。


NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

圖 3:增強子博弈通過非安全擲硬幣子博弈確定的 P2 策略。


NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

圖 4. 增強子博弈通過重新求解確定擲硬幣子博弈確定的 P2 策略。


NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

圖 5. 左:兩個子博弈的遊戲。節點 C1 和 C2 是公共節點,其結果被 P1 和 P2 所見。右:其中一個子遊戲的增強子游戲。如果只有一個子遊戲被解,Head 上的替代回報最多為 1。但是,如果兩者被獨立解決,則 gift 必須在子游戲之間分裂,其和接近 1。例如,兩個子游戲的替代回報可以都是 0.5。


NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

圖 6:使用分散式可替代支付矩陣,增強子博弈從圖 4 開始變化的視覺化


NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

表 1:德州撲克前三張牌(flop) 小時的子博弈求解的 Exploitability 值(是在沒有資訊提取的博弈中評估的)


NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

表 2:德州撲克開前三張牌(flop)大時的子博弈求解的 Exploitability 值(是在沒有資訊提取的博弈中評估的)


NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

表 3:德州撲克掀第四張牌時子博弈求解的 Exploitability 得分(是在沒有資訊提取的博弈中評估的)


NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

表 4:巢狀子博弈求解中各種子博弈求解技術的對比。pseudo-harmonic 行動轉換的表現也有所體現。Exploitability 一欄是在大型行動提取中的評估得分,在此實驗中沒有資訊提取。


NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

圖 7:Libratus 在 2017 年 Brain vs. AI 大賽中的表現

結論

我們引入了一種用於不完美資訊博弈的子博弈求解技術,相比之前的同類方法,它有著更強的理論保證和更好的實際表現。我們同時展示了安全與非安全子博弈求解技術的可利用性結果。我們同樣為巢狀子博弈求解引入新方法,從而回應於相對反的 off-tree 行動,並證明相比於通常的行動轉化,這將會顯著提升效能。據我們所知,這是首次在大型遊戲中實現子博弈求解技術的可利用性的測量。

最後,在一對一無限注德州撲克遊戲上,我們的技術在與人類頂級玩家的對戰中證明了其有效性,這是 AI 在不完美資訊博弈中的一次主要基準挑戰。在 2017 年的人機大戰中,Libratus 取得里程碑式突破,成為在一對一無限注德撲上戰勝人類頂級玩家的首個 AI。

相關文章