來自Google DeepMind London。這篇論文探討了在封閉系統中透過語言遊戲進行的“蘇格拉底式學習”(Socratic learning),即一種純粹的遞迴自我改進形式,其中代理的輸入和輸出空間相匹配(即語言),並且輸出成為未來的輸入。
谷歌 DeepMind 的研究人員推出了蘇格拉底式學習(Socratic learning),這是人工智慧遞迴自我改進的一種新方法。 這種方法能讓系統自主提高能力,超越初始訓練資料的限制。 透過利用結構化的 "語言遊戲",這項技術可以為實現人工通用智慧提供實用的路線圖。
DeepMind 的框架圍繞封閉、自足的環境展開,在這種環境中,人工智慧系統的執行不需要外部資料。
要實現精通,代理必須滿足三個關鍵條件:
- (a)與目標一致的反饋;
- (b)廣泛的資料覆蓋;以及
- (c)充足的計算資源。
這種設計促進了自主學習,為 AGI 的發展提供了一條可擴充套件的途徑,同時解決了資料生成和反饋質量等難題。
這種方法的核心是語言遊戲,即代理進行交流、解決問題並以分數形式接收反饋的結構化互動。 這些遊戲允許人工智慧進行自我遊戲,在沒有人類輸入的情況下生成資料和完善技能。 遞迴結構使系統能夠自主建立和玩新遊戲,從而釋放出更多抽象的問題解決能力並擴充套件其能力。
最終的創新在於自我修改,即代理不僅能從環境中學習,還能重新配置其內部系統。 這可以消除固定架構帶來的限制,為無與倫比的效能提升創造條件。 DeepMind 的研究強調了蘇格拉底式學習的潛力,它是朝著創造真正自主、自我完善的人工智慧邁出的變革性一步。
論文的主要觀點包括:
- 自我改進的條件:論文提出了三個條件,即資訊反饋、資料覆蓋範圍和足夠的容量與資源,以實現封閉系統中的自我改進。
- 蘇格拉底式學習:這是一種特殊的自我改進過程,其中代理的輸入和輸出相容,輸出成為未來的輸入。論文以語言為例,討論了這種學習方式如何大幅提高效能。
- 語言遊戲:論文提出了基於語言遊戲的框架來實現蘇格拉底式學習。語言遊戲被定義為一種互動協議,它規定了一個或多個有語言輸入和輸出的代理之間的互動,以及每個玩家在遊戲結束時的標量得分函式。
- 自我改進的限制:論文討論了蘇格拉底式學習在理論上的限制,主要集中在反饋和覆蓋範圍上。
- 遞迴和自引用系統:論文還探討了更高層次的遞迴,包括代理透過生成遊戲來改進自己的能力,以及自我引用系統,即代理能夠改變自己的內部結構。
論文的結論是,儘管存在挑戰,但在原則上,蘇格拉底式學習的潛力很高,透過語言遊戲框架可以解決這些挑戰,併為實際的研究議程提供了一個建設性的起點。