AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天

大資料文摘發表於2019-07-12

AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天

大資料文摘出品

作者:曹培信、寧靜

2017年年初,Brain vs AI的德州撲克人機大戰在卡耐基梅隆大學(CMU)落幕,由4名人類職業玩家組成的人類大腦不敵人工智慧程式Libratus。

獲勝後人類還遭到了Libratus的無情嘲諷。

AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天

但是那時候Libratus還只是個只能在1V1局裡稱霸的超級玩家,要說人類最喜歡的6人局這樣的“大場面”,當時的Libratus還沒有拿到入場券。

而就在昨天,Facebook與CMU學Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus,就在人類最常見的無限制德州撲克6人局裡,戰勝了人類頂尖選手。

論文被Sicence收錄:

https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

跟還是不跟?高手之間的對決

Darren Elias(1986年11月18日出生)是一名美國職業撲克玩家,曾獲得四項世界撲克巡迴賽冠軍。

在他與Pluribus的對決過程中,Darren Elias從來沒有遇到過如此不害怕的對手。

一個有經驗的撲克玩家,當有兩個J(一個面朝上,另一個藏起來,一手既不好也不壞)時,都會謹慎行事。但是Elias的對手看起來好像不知道該怎麼做。即使當Elias決定虛張聲勢(bluff),下注時看起來很有信心,而他的對手似乎在鼓勵他繼續!好像一點都沒有被嚇到。

最後,Elias的虛張聲勢沒有起作用,他輸了。

AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天

Elias

正如埃利亞斯先生意識到的,Pluribus知道什麼時候該虛張聲勢,也知道別人在虛張聲勢,還知道什麼時候該改變自己的行為,這樣其他玩家就無法確定自己的策略。32歲 Elias先生說: 它確實做了一些人類很難做到的事情。

贏的背後,只是8天的訓練

之前AI和人玩遊戲,要麼是雙人遊戲,如國際象棋、跳棋等,要麼就是雙方之間的零和博弈(一方贏一方輸),AI可以在遊戲中找到Nash equilibrium strategy(納什平衡)來保證自己不會輸。

關於Nash equilibrium strategy(納什平衡)屬於博弈論範疇(注:納什證明了,如果允許混合策略,那麼任何一個博弈,只要參與者數量是有限的、參與者可以選擇的純策略也是有限的,那麼這個博弈至少有一個納什均衡)。

以經典的“石頭剪刀布”遊戲為例,AI可以在遊戲中找到對方的弱點和常出的手勢進行學習,以達到最終的勝利,而多人撲克意味著玩家數量的增多,在更復雜的遊戲中,AI難以確定如何與納什均衡相抗衡;採用固定策略不能很快觀察到的對手的策略傾向,而且需要監控到多個玩家在遊戲中策略的轉變,這對於AI多人撲克博弈來說,是一項挑戰。

鑑於多人遊戲,如果學習多個玩家的出牌習慣等特徵的訓練資料整合本過大,這裡Pluribus採用的策略是自己與自己博弈,不使用人類對手的資料作為模型訓練的輸入。在開始時,隨機的選擇玩法,通過不斷的訓練來提升自己的效能,這裡採用的博弈策略是改良版本的迭代的蒙特卡洛CFR(MCCFR),通過自我博弈,左右手互博,自己制定了一個blueprint strategy(藍圖策略),最後對每個可能的狀況進行概率分佈統計,通過搜尋決策樹來決定下一步的行為,是叫牌還是出牌。

CFR是一種迭代的自我遊戲演算法,AI從完全隨機遊戲開始,然後通過學習擊敗早期版本的自己逐漸改進。

在演算法的每次迭代中,MCCFR指定一個玩家作為其當前策略在迭代中更新的標記。在迭代開始時,MCCFR根據當前所有玩家的策略(最初是完全隨機的)模擬一手撲克牌。一旦模擬完成,人工智慧就會回顧每一個玩家做出的決定,然後通過選擇其他可用的行動來預測這個決定的好壞程度。

AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天

Pluribus玩家博弈樹

在解決不完全資訊博弈中搜尋的問題,Pluribus跟蹤每一手,根據其策略達到目前狀況的可能性。不管Pluribus實際上握著的牌,它首先會計算如何使用可能的每一手,謹慎地平衡所有的策略,以保持對於對手的不可預測性。

AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天

Pluribus 中的實時搜尋

撲克以外的事

之前在1V1局中大勝人類的Libratus後來去五角大樓上班去了,國防部認為這種策略型人工智慧或許可以幫助他們進行戰略的制定。

負責 Pluribus 專案的 研究員Noam Brown說:“Pluribus的技術可以用於華爾街交易、拍賣、政治談判和網路安全這些活動中,這些活動就像撲克一樣,涉及隱藏資訊,因為你並不總是知道真實世界的狀態。”

儘管像谷歌這樣的公司,有著“Don't be evil”的信條,但是,不可避免的是這樣能夠理解人類策略的人工智慧,還是會引發大眾對於人工智慧的某種恐懼,或者說,如果這樣的人工智慧被運用到軍事決策中,將會帶來多嚴重的後果?

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2650395/,如需轉載,請註明出處,否則將追究法律責任。

相關文章