「機器學習一直生活在一個令機器人專家、化學家、生物學家和神經科學家羨慕不已的泡沫中,隨著它真正開始發揮作用,我們所有人都將遇到其他人多年來一直在應對的同樣的現實壁壘。」
機器人學習進展較慢的原因是:如果不解決難題,就很難有所作為。 機器人技術的難題並非機器人獨有。
第一個難點在於,機器人要處理的是現實世界中不完美的感知和不完美的執行。全域性可變狀態是一種糟糕的程式設計風格,因為它真的很難處理,但對於機器人軟體來說,整個物理世界都是全域性可變狀態,你只能不可靠地觀察它,並希望你的行動能接近你想要實現的目標。
在附錄 G.2 中,我們的一位作者,一位圍棋專家,能夠在沒有任何演算法幫助的情況下,透過學習對手的對局記錄來實現這種 [cyclic] 攻擊。他們在 KGS 線上圍棋伺服器上以標準人類條件對局,在與作者無關的頂級 KataGo 機器人對局中取得了超過 90% 的勝率。
作者甚至在給機器人 9 個讓子的情況下獲勝,這是一個巨大的優勢:擁有這些讓子的人類職業棋手在面對任何對手(無論是人類還是人工智慧)時,勝率幾乎都是 100%。他們還擊敗了 KataGo 和 Leela Zero,二者每局棋的搜尋次數都達到了 10 萬次,這通常遠遠超出了人類的能力範圍。此後,其他人類也利用 cyclic 攻擊擊敗了其他各種頂級圍棋 AI。