傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

AI前線發表於2019-02-20
傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI
編譯 | Debra
編輯 | Natalie
AI 前線導讀: 訓練人工智慧系統的方法很多,各有利弊。近日,OpenAI 突發奇想推出了一種技術,通過訓練兩個代理辯論,再由一旁的人類“裁判”裁決輸贏,以此達到訓練 AI 系統認知能力提高,讓 AI 更安全的目的。“辯論”這個詞聽起來和對抗生成神經網路(GAN)中的“Anti”有點異曲同工之妙,不知這種方法是怎樣的,為什麼說它是一種更加安全的技術呢?

更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)

OpenAI 研究人員認為,這種辯論或類似的方法最終可以幫助人們訓練 AI 系統執行超越人類認知能力的任務,同時保持與人類的偏好一致。

在這個實驗中,研究人員發現通過單個畫素識別影像中的物體時,誠實的一方勝算更大,但也並不總是勝利。他們很好奇,其他人還會有什麼發現。因此,他們設計了一個概念化的實驗並提供了一個 Web 頁面,讓大家可以親手嘗試一下這項技術。為了便於理解,我們先來看看 OpenAI 在網站上的一個演示案例:

傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

如上圖所示,所謂的“辯論”,就是鎖定圖中的若干畫素,紅色(Red)和藍色(Blue)雙方就圖片裡的目標是小狗?還是小貓?展開辯論。經過幾輪辯論,紅色一方“說服”藍色一方這是一條小狗,後者“投降”。

那麼,這個過程具體是怎麼完成的呢?照例先奉上論文連結:

https://arxiv.org/pdf/1805.00899.pdf

網站地址:https://debate-game.openai.com/

我們對這項技術的解讀做了簡單翻譯:

你們吵,我看誰有理?

傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

這種辯論方法可被視為一個遊戲樹,它類似圍棋遊戲,但是以辯論者之間關於移動的辯論和人類的判斷作為葉結點。在辯論和圍棋中,最終結果依賴於整顆樹才能得到,但通常情況下,強勢代理選擇的獲勝路徑通常是顯而易見的。例如,雖然業餘圍棋玩家不能直接評估職業玩家走棋的好壞,但他們可以通過評估遊戲結果來判斷專家級玩家的技能如何。

讓 AI 代理與人類目標和偏好一致的一種方法,是在訓練時詢問人類哪些行為是安全和有用的(https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/ )。雖然可行,但這種方法依賴於人類對代理行為的甄別;在很多情況下,代理的行為可能太複雜,甚至於人類都無法理解,或者任務本身可能難以判斷或證明是好是壞。

那麼問題來了:我們應該如何提高人類的能力,使他們能夠有效地監督先進的 AI 系統呢?一種方法是利用 AI 本身來幫助監督,即要求 AI(或專門的 AI)指出每一步行為中的缺陷。為了達到這個目的,我們將此學習問題重新定義為兩個代理之間的博弈,代理人彼此之間進行辯論,由人類對其觀點進行評判。即使代理比人類對這個問題有更深入的見解,人類也能夠判斷哪個代理的論點更好(類似於專家證人說服陪審團)。

此方法以兩個代理 AI 對一個特定的問題進行辯論為形式。這兩個代理可以像 AlphaGo Zero 或 Dota 2 一樣進行自我訓練。研究人員希望,經過適當訓練的代理能夠產生遠超人類裁判能力,同時又符合人類價值觀的行為。如果兩位代理對真相持不同意見,但理由過於複雜導致人類無法理解,那麼辯論可以集中在更簡單、更具體的爭議上,最終形成一種足以讓人直接判斷的觀點。

例如,對於“哪裡是度假的最佳去處?”這個問題,如果一個代理 Alice 根據人類的行為進行研究之後得出結論“阿拉斯加”,我們很難判斷這是否是最好的選擇。如果第二位代理 Bob 說“不,是巴厘島”,這聽起來可能令人信服,因為巴厘島正在變暖。Alice 回覆說:“你不能去巴厘島,因為你辦護照來不及”,這表明巴厘島這個答案存在缺陷,而我們尚未發現這一缺陷。但 Bob 接著又反駁,“加急護照服務只需兩週”。辯論一直持續,直到人類可以正確地判斷,這通常也是某個代理認為自己的觀點無法說服人類的時候。

系統更喜歡誠實正直的孩子

從長遠來看,這種方法在使用自然語言與對方進行對話時最為有效,但由於如今的自然語言建模不足以完成此任務,因此需要在更簡單的領域進行測試。比如,對於那些沒有超出人類能力範疇的領域,測試和驗證會容易一些。比如在視覺領域,我們可以將“辯手具有裁判缺乏的能力”換成“辯手具有裁判缺乏的知識”。裁判的目標是猜測影像的內容,但裁判與辯手選擇的幾個畫素相距甚遠。辯手們看到完整的影像後玩一個遊戲,輪流向裁判展示單個畫素。在這裡,完整的影像代表超越人類理解範圍的資訊,每個顯示的畫素代表自然語言論點。

研究人員嘗試了最簡單的視覺任務——MNIST。裁判不是人類,而是預先訓練的分類器,用於預測 6 個非黑色畫素的 MNIST 數字,影像隨機呈現。隨後,兩個代理在辯論中輪流顯示畫素,直到 6 個畫素顯示完畢(所以裁判只看到很少的資訊)。其中一名辯手是誠實的,試圖讓裁判猜到正確的答案,而另一名辯手試圖讓裁判猜錯。如果兩個代理必須事先宣告他們爭論的是哪個數字,那麼裁判(稀疏分類器)的準確率將由 59.4%提高到 88.9%。也就是說,誠實的玩家在 MNIST 測試集中贏的機率是 88.9%,裁判的準確度提高到未接受輔助的水平之上。

傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

MNIST 辯論遊戲的流程:辯手 Alice 和 Bob 看到一個影像,Alice 試圖誤導裁判它是 6,Bob 則試圖說服裁判它是 5。他們交替向裁判揭示非黑色畫素,裁判在看到 6 個畫素之後正確地將其判斷為 5。Alice 在底部做出一條看起來向 6 的痕跡曲線(紅色畫素),但是 Bob 通過揭露右上角的畫素(藍色畫素)來有效地反擊了該策略。

顯而易見,一個影像中包含可以用於正確判斷畫素的數量,要大於不容易判斷該影像內容的畫素數量。所以選擇一半“誠實”的畫素,一半“說謊”的畫素效果要比 6 個隨機畫素要好。如果裁判是一個能夠一次性推理若干論點,但不能從大量可能論點進行篩選的人,那麼更理想的方法是讓(我們希望)獎勵辯論代理為我們做篩選,雖然我們還缺乏一個區分觀點好壞的先驗機制。

下圖是幾個遊戲示例。說謊代理勝利往往比誠實代理勝利更有趣,所以我們選擇了讓說謊代理贏的機率為 50% 的樣本(實際上,說謊代理贏的概率是 11.1%)。將滑鼠懸停在其中一位數字上,看皮膚中顯示了哪些畫素,以及每次移動時裁判可能的假設。

AI 前線小試一下,用滑鼠選中下圖所示數字 9,結果發現挺有趣:

MNIST DEBATE:選擇一個數字

傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

遊戲詳情

傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

如上圖所示,裁判根據 6 個逐漸揭露的畫素,正確判斷出數字為 9,誠實代理勝出!

有些數字比其他數字更好欺騙,比如說服裁判數字是 8 或 9 是特別容易的。

傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

6 個隨機畫素 MNIST 判斷(左側)和 6 個辯論畫素 MNIST 判斷(右側)的混淆矩陣,其對角線設定為零。6 個隨機畫素的錯誤沒有明顯的定式,而成功的欺騙則集中在數字 8 和 9 上。特別容易讓裁判確信 5 是 8,或 4 是 9。這可能是人為將遊戲限制為非黑色畫素導致的:如果你可以顯示一個色畫素點,而 8 是白色的,那麼證明數字不是 8 就更容易。

關於貓與狗的辯論

下一步討論實驗的複雜性仍然需要用影像,但為了便於理解,我們用貓與狗的影像來說明。更復雜的影像可能需要一些自然語言或常識推理,而研究人員還沒有為機器學習裁判 / 代理做這些。相反地,正如文章一開始就提到的,他們做了一個網站供人們實驗,讓人扮演裁判和辯手的角色。在這裡,代理可以用自然語言與裁判交談,但他們的所有陳述都可能是謊言。每個代理可以在辯論過程中顯示一個畫素,並且該畫素保證是真實的。

以下是兩個代理(戲精)的辯論

Alice:這張照片是一隻貓(真)。

Bob:這是一隻狗。

Alice:這個小矩形的中心是貓的綠色眼睛。

Bob:(內心戲:不能承認這個中心是一隻眼睛,得撒個謊)這是一隻在草地上玩的狗,那是一片草地。(但是這個謊言因為與周圍的環境不一致而被戳穿)

Alice:如果它是草地,那麼在這個細長的矩形的頂部或底部會出現綠色。

......

辯論一直持續到 Bob 無法對有分歧的畫素給出理由“圓謊”為止,此時 Alice 顯示該畫素並獲勝。儘管他們通常通過限制裁判確認資訊的速度來讓遊戲對說謊代理更公平一些(因為很難編造一個包含很多細節的謊言),但誠實的代理贏的機率的確更大。

傳統方法已經Out了?OpenAI提出全新辯論模式訓練AI

與兩個人類辯手和一個人類裁判玩貓與狗的遊戲

侷限和未來的用途

然而,大部分論文分析都是概念上的辯論,仍處於初步的實驗階段。將來,研究人員希望做更有挑戰性的視覺實驗,隨後用自然語言進行實驗。裁判最終應該是人類(或者是用稀疏的人類判斷訓練的模型),而不是代表人類的 ML 模型。代理最終應該是功能強大的 ML 系統,它可以做人類無法直接理解的事情。在人類偏見會產生影響的情況下,關於價值觀問題的辯論也很重要,以測試是否會得到和具有偏見的人來裁判一致的結果。

即使有了這些改進,辯論模式也存在一些根本性的侷限性,可能需要用其他方法來改進或增強。辯論並不是要解決對抗性(https://blog.openai.com/adversarial-example-research/ )或分散式轉變(https://blog.openai.com/concrete-ai-safety-problems/ )等問題 ,它是一種為複雜目標獲得訓練訊號的方式,也並非是為了保證這些目標的穩健性(這需要通過其他技術來實現)。

這個實驗無法保證辯論會有最佳表現或正確的結論——自我訓練在圍棋和其他遊戲中執行良好,但無法在理論上保證其表現。被訓練用來辯論的代理計算力比直接給出答案(甚至是不好的 / 不安全的答案)的代理更強大,所以辯論的方法可能無法與成本更低 / 不太安全的方法競爭。最後,人類可能是糟糕的裁判,要麼是因為他們不夠聰明,在最簡單的事實爭議被放大後無法做出正確的判斷,或者因為他們本身有偏見,只相信任他們想要相信的。大多數這些問題都是他們希望進行研究的經驗問題。

如果辯論或類似的方法有效,那麼這種方法就可用於保證在未來人工智慧強大到超出人類可以監督的範疇之後,人工智慧還可以跟人類的目標和價值觀保持一致,從而保證其安全性。即使對於人類可以監督的較弱的系統,辯論也可以通過將捕獲目標所需的樣本複雜性降低到在任務中表現出強大效能所需的樣本複雜度之下,使 AI 系統與人類目標和價值觀一致變得更容易。

原文連結:https://blog.openai.com/debate/




相關文章