DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者

机器之心發表於2024-08-09

但可能打不過公園裡的老大爺?

巴黎奧運會正在如火如荼地進行中,乒乓球專案備受關注。與此同時,機器人打乒乓球也取得了新突破。

剛剛,DeepMind 提出了第一個在競技乒乓球比賽中達到人類業餘選手水平的學習型機器人智慧體。

圖片

論文地址:https://arxiv.org/pdf/2408.03906

DeepMind 這個機器人打乒乓球什麼水平呢?大概和人類業餘選手不相上下:

圖片

正手反手都會:

圖片

對手採用多種打法,該機器人也能招架得住:

圖片

接不同旋轉的發球:

圖片

不過,比賽激烈程度似乎不如公園老大爺對戰。

對機器人來說,乒乓球運動需要掌握複雜的低水平技能和策略性玩法,需要長期訓練。DeepMind 認為戰略上次優但可以熟練地執行低水平技能可能是更好的選擇。這使乒乓球與國際象棋、圍棋等純粹的戰略遊戲區分開來。

因此,乒乓球是提升機器人能力的一個有價值的基準,包括高速運動、實時精確和戰略決策、系統設計以及與人類對手直接競爭。

對於這一點,Google DeepMind 首席科學家稱讚道:「乒乓球機器人將有助於我們解決高速控制和感知問題。」

圖片

該研究進行了 29 場機器人與人類的乒乓球比賽,其中機器人獲勝 45% (13/29)。所有人類選手都是機器人未見過的玩家,從初學者到錦標賽選手能力不等。

雖然該機器人輸掉了所有與最高階別玩家的比賽,但它贏得了 100% 的與初學者的比賽,在與中級選手的對戰中贏得了 55% 的比賽,展現出人類業餘選手的水平。

總的來說,該研究的貢獻包括:

  1. 提出一個分層和模組化的策略架構,其中包括:

  2. 低階控制器及其詳細的技能描述器,這些描述器對智慧體的能力進行建模並有助於彌合模擬與真實的差距;

  3. 選擇低階技能的高階控制器。

  4. 實現零樣本模擬到真實的技術,包括定義基於現實世界的任務分佈的迭代方法,並定義自動課程(automatic curriculum)。

  5. 實時適應未見過的對手。

方法介紹

該智慧體由一個低階技能庫和一個高階控制器組成。低階技能庫專注於乒乓球的某個特定方面,例如正手上旋球、反手瞄準或正手發球。除了包含訓練策略,該研究還線上下和線上收集和儲存有關每個低階技能的優勢、劣勢和侷限性的資訊。而負責協調低階技能的高階控制器會根據當前遊戲統計資料、技能描述選擇最佳技能。

此外,該研究還收集了少量的人類和人類對打的比賽資料,作為初始任務條件的種子,資料集包括位置、速度和旋轉的資訊。然後使用強化學習在模擬環境中訓練智慧體, 並採用一些現有技術,將策略無縫部署到真實硬體中。

圖片

該智慧體與人類一起對打以生成更多訓練資料,隨著機器人的持續學習,遊戲標準變得越來越複雜,以此讓智慧體學習越來越複雜的動作。這種混合的「模擬 - 現實」迴圈建立了一個自動教學,使機器人的技能隨著時間的推移不斷提高。

圖片

分層控制

分層控制主要包含以下部分:

  • 乒乓球打法:高階控制器(HLC,high-level controller)首先決定使用哪種打法(正手還是反手);

  • 調整:根據與對手比賽中的統計資料,線上維護每個 HLC 的偏好(H 值);

  • 選擇最有效的技能:HLC 根據調整後的 H 值對入圍的 LLC 進行抽樣;

  • 更新:H 值和對手統計資料會持續更新,直至比賽結束。

圖片

結果

研究者將該智慧體與 29 名不同水平的乒乓選手進行了對比,選手包括初學者、中級、高階和高階 + 技能。人類選手按照標準乒乓球規則與機器人進行了三場比賽,但由於機器人無法發球,因此規則稍作修改。

面對所有對手,機器人贏得了 45% 的比賽(match)和 46% 的單局勝利(game)。按照技能水平細分,機器人贏得了與初學者的所有比賽,輸掉了與高階和高階 + 選手的所有比賽,贏得了 55% 與中級選手的比賽。這表明該智慧體在乒乓球回合中達到了中級人類選手的水平。

機器人打不過高階玩家的原因在於物理和技術的限制,包括反應速度,相機感應能力,旋轉處理等,這是很難在模擬環境中準確建模的。

圖片

與機器人對打,也很吸引人

研究參與者表示,他們非常享受與機器人一起對打,並在「有趣」和「吸引人」方面給予了機器人很高的評價。他們也一致表示「非常願意」再次與機器人對打。在自由時間裡,他們平均在 5 分鐘的時間裡與機器人玩了 4 分 06 秒。

圖片
圖片

機器人不擅長下旋球

技能最好的參與者提到,機器人不擅長處理下旋。為了測試這一觀察結果,研究人員根據球的旋轉繪製了機器人的著陸率,根據結果可以看到,機器人在面對更多的下旋球時,著陸率大幅下降。這一缺陷部分是由於機器人在處理低球時,為了避免與桌子碰撞導致的,其次是實時確定球的旋轉確實很難。

圖片

參考連結:

https://sites.google.com/view/competitive-robot-table-tennis/home?utm_source&utm_medium&utm_campaign&utm_content&pli=1

相關文章