AI賭神升級！無懼bluff，6人局德撲完勝世界冠軍，訓練只用了8天

大資料文摘發表於2019-07-12

原文網址 : http://blog.itpub.net/31562039/viewspace-2650395/

大資料文摘出品

作者：曹培信、寧靜

2017年年初，Brain vs AI的德州撲克人機大戰在卡耐基梅隆大學(CMU)落幕，由4名人類職業玩家組成的人類大腦不敵人工智慧程式Libratus。

獲勝後人類還遭到了Libratus的無情嘲諷。

AI賭神升級！無懼bluff，6人局德撲完勝世界冠軍，訓練只用了8天

但是那時候Libratus還只是個只能在1V1局裡稱霸的超級玩家，要說人類最喜歡的6人局這樣的“大場面”，當時的Libratus還沒有拿到入場券。

而就在昨天，Facebook與CMU學Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus，就在人類最常見的無限制德州撲克6人局裡，戰勝了人類頂尖選手。

論文被Sicence收錄：

https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

跟還是不跟？高手之間的對決

Darren Elias（1986年11月18日出生）是一名美國職業撲克玩家，曾獲得四項世界撲克巡迴賽冠軍。

在他與Pluribus的對決過程中，Darren Elias從來沒有遇到過如此不害怕的對手。

一個有經驗的撲克玩家，當有兩個J(一個面朝上，另一個藏起來，一手既不好也不壞)時，都會謹慎行事。但是Elias的對手看起來好像不知道該怎麼做。即使當Elias決定虛張聲勢（bluff），下注時看起來很有信心，而他的對手似乎在鼓勵他繼續！好像一點都沒有被嚇到。

最後，Elias的虛張聲勢沒有起作用，他輸了。

AI賭神升級！無懼bluff，6人局德撲完勝世界冠軍，訓練只用了8天

Elias

正如埃利亞斯先生意識到的，Pluribus知道什麼時候該虛張聲勢，也知道別人在虛張聲勢，還知道什麼時候該改變自己的行為，這樣其他玩家就無法確定自己的策略。32歲 Elias先生說: 它確實做了一些人類很難做到的事情。

贏的背後，只是8天的訓練

之前AI和人玩遊戲，要麼是雙人遊戲，如國際象棋、跳棋等，要麼就是雙方之間的零和博弈（一方贏一方輸），AI可以在遊戲中找到Nash equilibrium strategy（納什平衡）來保證自己不會輸。

關於Nash equilibrium strategy（納什平衡）屬於博弈論範疇（注：納什證明了，如果允許混合策略，那麼任何一個博弈，只要參與者數量是有限的、參與者可以選擇的純策略也是有限的，那麼這個博弈至少有一個納什均衡）。

以經典的“石頭剪刀布”遊戲為例，AI可以在遊戲中找到對方的弱點和常出的手勢進行學習，以達到最終的勝利，而多人撲克意味著玩家數量的增多，在更復雜的遊戲中，AI難以確定如何與納什均衡相抗衡;採用固定策略不能很快觀察到的對手的策略傾向，而且需要監控到多個玩家在遊戲中策略的轉變，這對於AI多人撲克博弈來說，是一項挑戰。

鑑於多人遊戲，如果學習多個玩家的出牌習慣等特徵的訓練資料整合本過大，這裡Pluribus採用的策略是自己與自己博弈，不使用人類對手的資料作為模型訓練的輸入。在開始時，隨機的選擇玩法，通過不斷的訓練來提升自己的效能，這裡採用的博弈策略是改良版本的迭代的蒙特卡洛CFR（MCCFR），通過自我博弈，左右手互博，自己制定了一個blueprint strategy(藍圖策略），最後對每個可能的狀況進行概率分佈統計，通過搜尋決策樹來決定下一步的行為，是叫牌還是出牌。

CFR是一種迭代的自我遊戲演算法，AI從完全隨機遊戲開始，然後通過學習擊敗早期版本的自己逐漸改進。

在演算法的每次迭代中，MCCFR指定一個玩家作為其當前策略在迭代中更新的標記。在迭代開始時，MCCFR根據當前所有玩家的策略(最初是完全隨機的)模擬一手撲克牌。一旦模擬完成，人工智慧就會回顧每一個玩家做出的決定，然後通過選擇其他可用的行動來預測這個決定的好壞程度。

AI賭神升級！無懼bluff，6人局德撲完勝世界冠軍，訓練只用了8天

Pluribus玩家博弈樹

在解決不完全資訊博弈中搜尋的問題，Pluribus跟蹤每一手，根據其策略達到目前狀況的可能性。不管Pluribus實際上握著的牌，它首先會計算如何使用可能的每一手，謹慎地平衡所有的策略，以保持對於對手的不可預測性。

AI賭神升級！無懼bluff，6人局德撲完勝世界冠軍，訓練只用了8天

Pluribus 中的實時搜尋

撲克以外的事

之前在1V1局中大勝人類的Libratus後來去五角大樓上班去了，國防部認為這種策略型人工智慧或許可以幫助他們進行戰略的制定。

負責 Pluribus 專案的研究員Noam Brown說：“Pluribus的技術可以用於華爾街交易、拍賣、政治談判和網路安全這些活動中，這些活動就像撲克一樣，涉及隱藏資訊，因為你並不總是知道真實世界的狀態。”

儘管像谷歌這樣的公司，有著“Don't be evil”的信條，但是，不可避免的是這樣能夠理解人類策略的人工智慧，還是會引發大眾對於人工智慧的某種恐懼，或者說，如果這樣的人工智慧被運用到軍事決策中，將會帶來多嚴重的後果？

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31562039/viewspace-2650395/，如需轉載，請註明出處，否則將追究法律責任。

OpenAI擊敗Dota 2世界冠軍後記：如何訓練你的AI
2019-04-18
OpenAI
AI攻陷多人德撲再登Science，訓練成本150美元，每小時贏1000刀
2019-07-12
AI
完勝 BERT，谷歌最佳 NLP 預訓練模型開源，單卡訓練僅需 4 天
2020-03-17
谷歌模型
雷軍輸十億賭局？雷軍與董明珠的10億賭局結果已定！
2019-03-20
世界盃要來了，AI預測冠軍哪家強？
2018-06-13
AI
提前預測世界盃冠軍
2018-06-15
EDG奪得2024無畏契約全球冠軍賽總冠軍，CN賽區閃耀世界賽場
2024-08-26
雷軍回應10億賭局：雷軍回應與董明珠10億賭局說了什麼？
2019-03-20
4分鐘訓練ImageNet！騰訊機智創造AI訓練世界紀錄
2018-07-31
AI
180G！中文ELECTRA預訓練模型再升級
2020-10-26
模型
2022年世界盃奪冠分析今年卡達世界盃預測冠軍
2022-11-21
阿里美團戰事再升級：支付寶入局勝算幾何？
2020-03-18
阿里
Nature封面：AI訓練AI，越訓越離譜
2024-07-25
AI
網易 AI Lab 斬獲全球頂級聲紋識別競賽冠軍
2020-07-23
AI
《程式人生》系列-這個程式設計師只用了20行程式碼就拿了冠軍
2020-01-11
程式設計師行程
世界盃猜球app 2022卡達世界盃競猜冠亞軍
2022-11-19
APP
開源圖神經網路框架DGL升級：GCMC訓練時間從1天縮到1小時
2019-10-16
神經網路框架GC
3.3 神經網路的訓練
2019-12-31
神經網路
面向統一的AI神經網路架構和預訓練方法
2023-05-08
AI神經網路架構
戰無不勝的撲克機器人讓人類見識到遊戲 AI 的未來
2019-07-22
機器人遊戲AI
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
2024 SemEval 冠軍
2024-03-14
雲之變6：讓AI無處不在的雲端訓練師
2019-10-08
AI
奪冠！卓世AI斬獲全球頂會AAMAS 2024 CE 競賽冠軍
2024-06-11
AI
Pywick：追求功能完備的PyTorch高階訓練庫
2019-05-17
PyTorch
驚世賭局之後：聯想AI這兩年
2019-03-14
AI
當會打王者榮耀的AI學會踢足球，一不小心拿下世界冠軍！
2021-01-04
AI
「日常訓練」神、上帝以及老天爺（HDU 2048）
2018-05-15
訓練自己的Android TensorFlow神經網路
2020-10-25
Android神經網路
AI打遊戲-肆（模型訓練）
2023-09-22
AI遊戲模型
谷歌開源Neural Tangents：簡單快速訓練無限寬度神經網路
2020-04-17
谷歌神經網路
攻防演練 | 無懼無檔案釣魚，這裡有一份硬核指南
2022-07-08
Facebook最新研究：無需額外訓練AI，即可加速NLP任務
2020-02-24
AI
2022世界盃買冠軍競猜app 2022世界盃競彩玩法
2022-11-17
APP
全世界 LoRA 訓練指令碼，聯合起來!
2024-02-11
指令碼
飛槳分散式訓練又推新品，4D混合並行可訓千億級AI模型
2021-04-15
分散式並行AI模型
連載四：Oracle升級文章大全（完結篇）
2020-04-17
Oracle
實戰訓練營：傳統分散式架構如何進行容器化升級
2018-07-05
分散式架構

AI賭神升級！無懼bluff，6人局德撲完勝世界冠軍，訓練只用了8天

撲克以外的事

相關文章