微軟麻將 AI 論文釋出,首次公開技術細節
By 超神經
場景描述:還記得去年 8 月微軟釋出的「雀神AI」Suphx 嗎?今天,該研究團隊在 arXiv 上釋出了更新版的論文,進一步介紹了 Suphx 背後的技術。
關鍵詞:麻將 AI, Suphx,卷積神經網路
2019 年 8 月 29 日,微軟釋出了一個名為 Suphx(超級鳳凰)的「麻將 AI」,在專業的麻將競技平臺上,Suphx 的實力勝過了頂級人類選手的平均水平。
當時一經發布,Suphx 便引起了廣泛的關注,不僅是人工智慧領域,不少麻將愛好者也都趕來圍觀討論。
麻將的資訊集數目和資訊集平均大小
超過了橋牌、德撲和圍棋
人們評價該系統比戰勝了職業圍棋手的 AlphaGo 更復雜,被譽為「最強日麻人工智慧」。
今天,該系統的研發團隊在 arXiv 上發表了論文《Suphx: Mastering Mahjong with Deep Reinforcement Learning》(《Suphx:掌握麻將與深度強化學習》),更深一步地講解了 Suphx 背後的技術。
《Suphx:掌握麻將與深度強化學習》
論文地址:
Suphx 愈戰愈勇:已超越 99.99% 玩家
此前我們已經介紹過,Suphx 系統利用深度強化學習,從 5000 場比賽中學習、吸取經驗之後,在日本專業的麻將競技平臺「天鳳」上擊敗了眾多麻將玩家,取得平臺「特上房」的最高段位十段。
Suphx 在天鳳平臺的段位,遠高於其它麻將 AI
這樣一個強悍的麻將 AI,究竟是如何打造的?來自微軟亞洲研究院、京都大學、中國科學技術大學、清華大學以及南開大學的研究團隊,在最新版的論文中,進行了深入的介紹。
從論文中,我們也得知,Suphx 在進一步的學習下,水平也更進一步。在擁有超過 35 萬位玩家的「天鳳」平臺上,被官方評為水平超越 99.99% 以上玩家,這是計算機程式首次超過麻將中大多數頂級人類玩家。
五大模型與強化學習,造就雀神 AI
Suphx 包含一系列卷積神經網路,它學習了五種模型來處理不同的場景,包括 discard(丟棄模型)、Riichi 模型、chow 模型、Pong 模型和 Kong 模型。
在此基礎上,Suphx 採用另一種基於規則的模型,來決定是否宣佈贏家並進行下一輪,檢查是否贏牌可以從其他玩家丟棄的牌中來判斷,或者從排牆上抽出來的牌來判斷。
據介紹,Suphx 的訓練過程一共分為三步。
首先,它的 5 個模型都使用從「天鳳」平臺收集的頂級人類玩家的日誌進行訓練。
然後,使用包含一套基於CPU 的麻將模擬器和基於 GPU 的軌跡生成推理引擎,透過自我博弈強化學習對系統進行微調。
最後,在線上遊戲期間,使用執行時策略調整被用來觀察當前輪的結果,從而使系統執行得更好。
Suphx 中的分散式強化學習系統
由於麻將牌局中,對手的資訊都是未知的,因此,Suphx 嘗試了先知教練技術來提升強化學習的效果。在自我博弈的訓練階段,利用隱藏資訊引導模型訓練方向 ,從而增強 AI 模型對可見資訊的理解,並找到有效的決策依據。
評估 :5760 場角逐,創造十段紀錄
在實驗之前,團隊在 44 個 GPU (包括4個 Nvidia Titan XPs 用於引數伺服器,40 個 K80s 用於自我博弈玩家)上,使用 150 萬次牌局,對每個模型進行了為期兩天的訓練。
該團隊對 20 個 Nvidia Tesla K80 GPU 上的 Suphx 進行了評估。為了減小穩定排名的方差,他們從 100 多萬場的麻將牌局資料集中,隨機抽取了 80 萬牌局的資料,並從中進行了 1000 次取樣。
評估結果為,在「天鳳」平臺與人類玩家進行了超過 5760 場比賽後,Suphx 創造了十段的紀錄——大約只有 180 個玩家曾經達到過這個水平。而 Suphx 穩定的排名是 8.74 段(人類玩家最高水平是 7.4 段)。
強化學習 agent 最終穩定排名統計
在不斷最佳化中,RL-2 最終取得更好的表現
有趣的是,研究人員寫道,Suphx 的防守「非常強」,放胡的機率很低,只有 10.06%,而且它開發了自己的遊戲風格,可以保證牌的安全,並以半平手取勝。
AI 玩家(南方)會選擇保守打法
放棄籃筐內的六筒,因為牌桌上已有該牌
此外,論文的合著者寫道,大多數現實世界的問題,如金融市場預測和物流最佳化與麻將有相同的特點。比如複雜的操作/獎勵規則、非完美資訊問題等等。
作者相信,在 Suphx 中設計的麻將技術,包括全域性獎勵預測、先知引導以及政策調整等,都有巨大的潛力,將來可廣泛應用於現實世界,幫助解決真實而複雜的實際問題。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69969896/viewspace-2684284/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 沈向洋等人論文詳解微軟小冰,公開研發細節微軟
- 微信團隊開源圍棋AI技術PhoenixGo,復現AlphaGo Zero論文AIGo
- ChatGPT資料洩露,技術細節公佈ChatGPT
- 解讀 AI 引擎 MindSpore 開發實踐與技術細節AI
- 首次公開!2018雙11技術數字全記錄
- 微軟線上技術公開課-12月課程預告微軟
- 微軟線上技術公開課-1月課程預告微軟
- Solon 1.6.6 釋出,細節打磨
- Stable Diffusion 3論文終於釋出,架構細節大揭秘,對復現Sora有幫助?架構Sora
- 首次釋出
- AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展AI
- 愛立信釋出終端節能新技術
- ICLR 2019最佳論文出爐:微軟、MILA、MIT獲獎ICLR微軟MILAMIT
- 【小白寫論文】技術性論文結構剖析
- 一個小的技術細節
- Amazon Corretto技術細節探祕
- 微軟將在明年5月釋出Windows 10 Version 2004微軟Windows
- 分投趣(Fintoch)系統技術開發細節分析
- 重溫Java Web的技術細節JavaWeb
- 騰訊AI Lab深度解讀文字生成技術相關論文AI
- 微軟將eSIM技術引入Windows 10企業裝置微軟Windows
- ECCV2024獎項公佈,哥大摘最佳論文,微軟COCO資料集獲經典論文獎微軟
- 實時技術的榮光,微軟釋出實時大資料分析產品!微軟大資料
- 微軟釋出遊戲 UX/UI 開發指南微軟遊戲UXUI
- node.js——麻將演算法(七)簡易版麻將出牌AI2.0Node.js演算法AI
- Solon 1.5.16 釋出,多項細節優化優化
- 微軟公佈雲遊戲Project xCloud更多細節 支援遊戲達到了5400款微軟遊戲ProjectCloud
- 確認了!微軟 Edge 瀏覽器將釋出 Linux 版微軟瀏覽器Linux
- 自動駕駛方程式賽車,微軟釋出機器學習開源框架 | AI一週學術自動駕駛微軟機器學習框架AI
- Linux基金會開源軟體學園技術公開課Linux
- 微軟為 Linux 釋出了 Defender 防病毒軟體公開預覽版微軟Linux
- 最硬核、最大咖、最火爆…百度首次揭祕春晚紅包背後的技術細節
- 首次公開!《阿里計算機視覺技術精選》揭祕前沿落地案例阿里計算機視覺
- 微軟正式釋出:.NET Aspire 雲原生開發框架微軟框架
- 重磅!滴滴開源首次釋出年度報告
- BSEX交易所繫統技術開發詳情(細節分析)
- 大模型時代需要什麼樣的安全水位?火山方舟首度公開「會話無痕」技術細節大模型會話
- “我是技術總監,你幹嘛總問我技術細節?”