DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境

大数据文摘發表於2019-02-22

大資料文摘編輯部出品

從足球競技到戰爭，團隊合作一直被認為是人類社會進步的基石。基於長遠的共同目標，弱化甚至犧牲個人利益，促成了人類作為共同體的最大利益。

DeepMind也正嘗試讓人工智慧學會這一點，並且選擇了最有可能顯示團隊合作的考核方式——足球比賽。

今天凌晨，DeepMind釋出了最新研究：證明了在足球環境下，一種基於分散式代理的連續控制培訓框架，結合獎勵渠道的自動優化，可以實現多智慧體端到端的學習。

DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境

簡單來說就是，DeepMind設定了環境，讓多個AI一起踢足球賽。並且提前設定了規則，獎勵整隻“足球隊”而不去鼓勵某個"AI球員”的個人成績，以促成整個球隊的進步。用這種方式證明了，AI也是可以相互合作的！

DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境

先附上論文連結：https://arxiv.org/pdf/1902.07151.pdf

這篇論文被ICLP 2019收錄。

通過競爭，實現緊急協調的多方協作

多智慧體通過協作，完成團隊最優目標並不是一個陌生的話題，去年，OpenAI就曾釋出了由五個神經網路組成的DOTA團戰AI團隊——OpenAI Five ，並在5v5中擊敗了頂級人類玩家團隊。比賽中，OpenAI Five也展示了，在勝利是以摧毀防禦塔為前提的遊戲中，犧牲“小兵”利益是可以被接受的，也就是說，AI是可以朝著長期目標進行優化的。

DeepMind的最新研究進一步專注於多智慧體（multi-agent）這一領域。

他們組織了無數場2v2的AI足球比賽，並設定了規則，一旦有一方得分或者比賽超過45秒，比賽就結束。

DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境

DeepMind稱，通過去中心化的、基於群體的訓練可以使得代理人的行為不斷髮展：從隨機，簡單的追球，到最後的簡單“合作”。他們的研究還強調了在連續控制的大規模多智慧體訓練中遇到的幾個挑戰。

值得一提的是，DeepMind通過設定自動優化的簡單獎勵，不鼓勵個體，而去鼓勵合作行為和團隊整體的成績，可以促成長期的團隊行為。

在研究中通過引入一種“基於單獨折扣因子來形成自動優化獎勵的思想”，可以幫助他們的代理從一種短視的訓練方式，過渡到一種長時間但更傾向於團隊合作的訓練模式當中。

DeepMind也進一步提出了一個以博弈論原理為基礎的評估方案，可以在沒有預定義的評估任務或人類基線的情況下評估代理的表現。

具體思想

將足球比賽看做一個多智慧體強化學習（MARL）的過程，模擬一個可互動的環境，智慧主體通過學習與環境互動，然後優化自己累計獎勵。MARL的主題思想是協作或競爭，亦或兩者皆有。選擇什麼樣的行為，完全取決於“報酬獎勵”的設定。MARL的目標是典型的馬爾科夫完美均衡。大致意思是尋找隨機博弈中達到均衡條件的混合策略集合。

具體意思是：博弈參與者的行動策略有馬爾科夫特點，這意味著每個玩家的下一個動作是根據另一個玩家的最後一個動作來預測的，而不是根據先前的行動歷史來預測的。馬爾科夫完美均衡是：基於這些玩家的動作尋找動態均衡。

DeepMind在github上釋出了他們使用的MuJoCo Soccer環境，這是一個競爭協作多智慧體互動的開源研究平臺，在機器學習社群已經得到了相當廣泛的使用。

DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境

github地址：https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion/soccer

評估

DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境

相關比賽視訊連結：https://youtu.be/wPtF_ygW2ss

為了有效地評估學習團隊，DeepMind選擇優化評估方法，所選團隊都是以前由不同評估方法產生的10個團隊，每個團隊擁有250億次的學習經驗。他們在10個團隊中收集了一百萬種比賽情況。

DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境

上圖顯示了支援團隊的3個智慧體顯示的成對預期目標差異。納什均衡要求3個團隊的權重都是非零的，這些團隊協作展示了具有非傳遞效能的不同策略，這是評估方案中並不存在的：團隊A在59.7％的比賽中贏得或打平團隊B; 團隊B在71.1％的比賽中贏得或打平團隊C，團隊C在65.3％的比賽中贏得或打平團隊A.，他們展示了團隊A，B和C之間的示例比賽的記錄，可以定性地量化其策略的多樣性。

DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境

在上圖中，DeepMind展示了代理行為的典型軌跡：在5B步驟中，當代理更個性化地行動時，我們觀察到無論blue1的位置如何，blue0總是試圖自己運球。但在訓練的後期，blue0則積極尋求團隊合作，其行為呈現出由其隊友驅動的特點，顯示出高水平的協調精神。特別是在“8e10_left”這一場比賽中中，DeepMind稱他們觀察到了兩次連續傳球（blue0到blue1和後衛），這是在人類足球比賽中經常出現的2對1撞牆式配合。

未來研究

DeepMind此項研究意義重大，將2v2足球領域引入多智慧體協作是以前沒有過的研究，通過強化學習研究，利用競爭與合作來訓練獨立智慧個體，展示了團隊的協調行為。

這篇論文也證明了一種基於連續控制的分散式叢集訓練框架，可以結合獎勵路徑自動優化，因此，在這種環境下可以進行進行端到端的學習。

其引入了一種思想，將獎勵方向從單策略行為轉變為長期團隊合作。引入了一種新的反事實政策評估來分析主題策略行為。評估強調了匹配結果中的非傳遞性和對穩健性的實際需求。

DeepMind開源的訓練環境可以作為多智慧體研究的平臺，也可以根據需要擴充套件到更復雜的智慧體行為研究，這為未來的研究打下堅實的基礎。

DeepMind丟掉了歸一化，讓影像識別訓練速度提升了8.7倍 | 已開源
2021-02-18
搭建 MobileNet-SSD 開發環境並使用 VOC 資料集訓練 TensorFlow 模型
2019-04-20
開發環境模型
Docker環境搭建CUDA12.2 + Yolov5 7.0 GPU訓練環境（單卡訓練）
2024-11-15
DockerYOLOGPU
2024.11.9組隊訓練題解記錄
2024-11-09
DeepMind開源強化學習環境，場景靈活介面簡單，推特高贊
2019-08-20
強化學習
訓練AI吞食垃圾瀚藍環境探索破解垃圾圍城難題
2020-06-12
AI
基於雲主機的ModelArts模型訓練實踐，讓開發環境化繁為簡
2024-12-10
模型開發環境
windows下yolov8訓練環境配置
2024-08-15
WindowsYOLO
DeepMind開源強化學習庫TRFL
2018-10-18
強化學習
10.5組隊訓練賽-2024CCPC山東省賽
2024-10-05
用Nginx配置代理，組織平滑環境，讓前端專注開發
2020-09-26
Nginx前端
豆包大模型團隊開源RLHF框架，訓練吞吐量最高提升20倍
2024-11-01
大模型框架
AI實戰訓練營-讓AI成為你的核心競爭力
2024-12-03
AI
MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練
2024-04-29
強化學習
當會打王者榮耀的AI學會踢足球，一不小心拿下世界冠軍！
2021-01-04
AI
團隊訓練記錄2024.10.5
2024-10-05
Nature封面：AI訓練AI，越訓越離譜
2024-07-25
AI
安裝python虛擬環境並配置虛擬環境以及安裝scrapy模組
2021-09-09
Python
CosmoGAN：訓練GAN，讓AI尋找宇宙中的暗物質
2019-06-06
AI
DeepMind新成果：讓AI做了200萬道數學題，結果堪憂
2019-04-14
AI
LLM並行訓練4-megascale論文學習
2024-06-29
並行
LLM並行訓練5-MoE並行
2024-07-20
並行
DeepMind 訓練了一個人工智慧來控制核聚變
2022-02-18
人工智慧
雲之變6：讓AI無處不在的雲端訓練師
2019-10-08
AI
像訓練Dota2一樣訓練真實機器人？Gibson Environment環境瞭解一下
2018-09-13
機器人
如何將keras訓練好的模型轉換成tensorflow的.pb的檔案並在TensorFlow serving環境呼叫
2018-07-26
Keras模型
用Mac訓練個機器人疊衣服，HuggingFace開源全套教程，開源AI機器人革命要來了？
2024-09-01
Mac機器人AI
LLM並行訓練1-流水線並行
2024-06-26
並行
LLM並行訓練3-資料並行
2024-06-28
並行
LLM並行訓練2-張量並行
2024-06-27
並行
DeepMind圖網路庫開源了！
2018-10-22
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
讓數百萬臺手機訓練同一個模型？Google把這套框架開源了
2019-03-09
模型Go框架
提高組雜題訓練1
2024-10-12
完勝 BERT，谷歌最佳 NLP 預訓練模型開源，單卡訓練僅需 4 天
2020-03-17
谷歌模型
飛槳分散式訓練又推新品，4D混合並行可訓千億級AI模型
2021-04-15
分散式並行AI模型
騰訊 AI Lab 正式開源PocketFlow，讓深度學習放入手機！
2018-11-05
AI深度學習
LLM並行訓練7-混合並行總結
2024-07-29
並行

DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境

通過競爭，實現緊急協調的多方協作

具體思想

評估

未來研究

相關文章