AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天
大資料文摘出品
作者:曹培信、寧靜
2017年年初,Brain vs AI的德州撲克人機大戰在卡耐基梅隆大學(CMU)落幕,由4名人類職業玩家組成的人類大腦不敵人工智慧程式Libratus。
獲勝後人類還遭到了Libratus的無情嘲諷。
但是那時候Libratus還只是個只能在1V1局裡稱霸的超級玩家,要說人類最喜歡的6人局這樣的“大場面”,當時的Libratus還沒有拿到入場券。
而就在昨天,Facebook與CMU學Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus,就在人類最常見的無限制德州撲克6人局裡,戰勝了人類頂尖選手。
論文被Sicence收錄:
跟還是不跟?高手之間的對決
Darren Elias(1986年11月18日出生)是一名美國職業撲克玩家,曾獲得四項世界撲克巡迴賽冠軍。
在他與Pluribus的對決過程中,Darren Elias從來沒有遇到過如此不害怕的對手。
一個有經驗的撲克玩家,當有兩個J(一個面朝上,另一個藏起來,一手既不好也不壞)時,都會謹慎行事。但是Elias的對手看起來好像不知道該怎麼做。即使當Elias決定虛張聲勢(bluff),下注時看起來很有信心,而他的對手似乎在鼓勵他繼續!好像一點都沒有被嚇到。
最後,Elias的虛張聲勢沒有起作用,他輸了。
Elias
正如埃利亞斯先生意識到的,Pluribus知道什麼時候該虛張聲勢,也知道別人在虛張聲勢,還知道什麼時候該改變自己的行為,這樣其他玩家就無法確定自己的策略。32歲 Elias先生說: 它確實做了一些人類很難做到的事情。
贏的背後,只是8天的訓練
之前AI和人玩遊戲,要麼是雙人遊戲,如國際象棋、跳棋等,要麼就是雙方之間的零和博弈(一方贏一方輸),AI可以在遊戲中找到Nash equilibrium strategy(納什平衡)來保證自己不會輸。
關於Nash equilibrium strategy(納什平衡)屬於博弈論範疇(注:納什證明了,如果允許混合策略,那麼任何一個博弈,只要參與者數量是有限的、參與者可以選擇的純策略也是有限的,那麼這個博弈至少有一個納什均衡)。
以經典的“石頭剪刀布”遊戲為例,AI可以在遊戲中找到對方的弱點和常出的手勢進行學習,以達到最終的勝利,而多人撲克意味著玩家數量的增多,在更復雜的遊戲中,AI難以確定如何與納什均衡相抗衡;採用固定策略不能很快觀察到的對手的策略傾向,而且需要監控到多個玩家在遊戲中策略的轉變,這對於AI多人撲克博弈來說,是一項挑戰。
鑑於多人遊戲,如果學習多個玩家的出牌習慣等特徵的訓練資料整合本過大,這裡Pluribus採用的策略是自己與自己博弈,不使用人類對手的資料作為模型訓練的輸入。在開始時,隨機的選擇玩法,透過不斷的訓練來提升自己的效能,這裡採用的博弈策略是改良版本的迭代的蒙特卡洛CFR(MCCFR),透過自我博弈,左右手互博,自己制定了一個blueprint strategy(藍圖策略),最後對每個可能的狀況進行機率分佈統計,透過搜尋決策樹來決定下一步的行為,是叫牌還是出牌。
CFR是一種迭代的自我遊戲演算法,AI從完全隨機遊戲開始,然後透過學習擊敗早期版本的自己逐漸改進。
在演算法的每次迭代中,MCCFR指定一個玩家作為其當前策略在迭代中更新的標記。在迭代開始時,MCCFR根據當前所有玩家的策略(最初是完全隨機的)模擬一手撲克牌。一旦模擬完成,人工智慧就會回顧每一個玩家做出的決定,然後透過選擇其他可用的行動來預測這個決定的好壞程度。
Pluribus玩家博弈樹
在解決不完全資訊博弈中搜尋的問題,Pluribus跟蹤每一手,根據其策略達到目前狀況的可能性。不管Pluribus實際上握著的牌,它首先會計算如何使用可能的每一手,謹慎地平衡所有的策略,以保持對於對手的不可預測性。
Pluribus 中的實時搜尋
撲克以外的事
撲克以外的事
之前在1V1局中大勝人類的Libratus後來去五角大樓上班去了,國防部認為這種策略型人工智慧或許可以幫助他們進行戰略的制定。
負責 Pluribus 專案的 研究員Noam Brown說:“Pluribus的技術可以用於華爾街交易、拍賣、政治談判和網路安全這些活動中,這些活動就像撲克一樣,涉及隱藏資訊,因為你並不總是知道真實世界的狀態。”
儘管像谷歌這樣的公司,有著“Don't be evil”的信條,但是,不可避免的是這樣能夠理解人類策略的人工智慧,還是會引發大眾對於人工智慧的某種恐懼,或者說,如果這樣的人工智慧被運用到軍事決策中,將會帶來多嚴重的後果?
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2650395/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- OpenAI擊敗Dota 2世界冠軍後記:如何訓練你的AIOpenAI
- 完勝 BERT,谷歌最佳 NLP 預訓練模型開源,單卡訓練僅需 4 天谷歌模型
- AI攻陷多人德撲再登Science,訓練成本150美元,每小時贏1000刀AI
- 4分鐘訓練ImageNet!騰訊機智創造AI訓練世界紀錄AI
- 180G!中文ELECTRA預訓練模型再升級模型
- Nature封面:AI訓練AI,越訓越離譜AI
- 3.3 神經網路的訓練神經網路
- 世界盃要來了,AI預測冠軍哪家強?AI
- 阿里美團戰事再升級:支付寶入局 勝算幾何?阿里
- 計算機下棋簡史|AlphaZero完爆世界棋類冠軍背後計算機
- 面向統一的AI神經網路架構和預訓練方法AI神經網路架構
- 開源圖神經網路框架DGL升級:GCMC訓練時間從1天縮到1小時神經網路框架GC
- 驚世賭局之後:聯想AI這兩年AI
- 雲之變6:讓AI無處不在的雲端訓練師AI
- 戰無不勝的撲克機器人讓人類見識到遊戲 AI 的未來機器人遊戲AI
- AI打遊戲-肆(模型訓練)AI遊戲模型
- 機器學習之訓練神經網路:最佳做法機器學習神經網路
- 適合AI訓練的遊戲框架AI遊戲框架
- 【AI】Pytorch_預訓練模型AIPyTorch模型
- 練習一升級及分析
- 谷歌開源Neural Tangents:簡單快速訓練無限寬度神經網路谷歌神經網路
- 全世界 LoRA 訓練指令碼,聯合起來!指令碼
- Facebook最新研究:無需額外訓練AI,即可加速NLP任務AI
- 別再煉丹了!谷歌大腦提出“權重無關”神經網路,無需調參訓練谷歌神經網路
- 使用tf.estimator.Estimator訓練神經網路神經網路
- 深度神經網路為何很難訓練?神經網路
- Pywick:追求功能完備的PyTorch高階訓練庫PyTorch
- 飛槳分散式訓練又推新品,4D混合並行可訓千億級AI模型分散式並行AI模型
- 攻防演練 | 無懼無檔案釣魚,這裡有一份硬核指南
- 撲克遊戲的必勝法則遊戲
- AI打遊戲-貳(收集訓練圖片)AI遊戲
- 企業級AI問答知識庫訓練營,火熱開營中!AI
- 文件智慧:通用文件預訓練模型與資料集,推動NLP落地升級模型
- 實戰訓練營:傳統分散式架構如何進行容器化升級分散式架構
- 連載四:Oracle升級文章大全(完結篇)Oracle
- 如何應對訓練的神經網路不工作?神經網路
- Batch Normalization: 如何更快地訓練深度神經網路BATORM神經網路
- 從零開始:教你如何訓練神經網路神經網路