AI的未來不是大模型,也不是端到端:Meta向我們證明了這一點
機器之心發表於2022-11-27
本週二,Meta 提出的人工智慧 Cicero 成為了 AI 領域的熱門新聞,透過和人玩線上版「外交」遊戲,它鍛鍊了自己的技能成為高手,在玩過的不止一場遊戲中排名前 10%。Cicero 結合了類似於 AlphaGo 的戰略推理能力,和類似於 GPT-3 的語言組織能力。在每場比賽中,它都會檢視比賽狀態,各位玩家的對話歷史,從而預測其他玩家的。它能自行制定計劃,並透過人類語言與其他玩家進行協調執行自己的策略,幾乎沒有人察覺出它是 AI。對於人工智慧業界,Cicero 的出現或許意味著一次突破。在紐約大學教授 Gary Marcus 最近的的一篇文章中,他表示:「Cicero 在很大程度上是一個奇蹟,實現了迄今為止 AI 最深入和最廣泛的語言和動作整合,以及前所未有的與人類進行復雜互動的能力。」我們知道,Gary Marcus 在 AI 發展方向上的看法一直和 Meta 的 AI 主管 LeCun 針鋒相對。這一次,Marcus 少見地對 Meta 的研究作了全面肯定評價,是什麼讓他放下成見?讓我們看看這篇文章是怎麼說的。馬庫斯 · 圖利烏斯 · 西塞羅(Cicero)是活躍於公元前 106 年到 43 年的羅馬共和國晚期政治家、演說家和作家。兩千多年後,他的歷史和哲學重要性仍在被人們討論。同名的計算機程式於 11 月 22 日在頂級學術期刊《科學》上被宣佈,它是一個強大的人工智慧系統,可以和人類玩策略。我們還無法在它出世僅三天後就對其影響作出定論,它或許也不會像西塞羅那樣一直閃耀。Diplomacy 是一種需要充分交流的複雜遊戲,至少近五十年來一直被認為是人工智慧面臨的重要挑戰。要想獲勝,參與者不僅要懂策略,還需要結盟、談判、說服、威脅,偶爾還得學會欺騙。因此,它給 AI 帶來的挑戰遠遠超出了下圍棋、國際象棋等遊戲的系統,或那些在不太複雜環境中進行對話的聊天機器人所面臨的挑戰。毫無疑問,Cicero 實現的結果本身確實令人印象深刻。儘管 AI 尚未達到或接近世界冠軍水平,但該系統能夠將語言與遊戲玩法相結合,在 Diplomacy 的線上版本中,在專業和業餘混合人群中排名前 10%,遊戲和語言使用非常自然,以至於只有一名人類玩家懷疑它是機器人。隨之出現了很多問題:它是如何工作的?它對 AI 中其他持續存在的挑戰有影響嗎?它是否真的像 Meta AI 所聲稱的那樣,是「構建掌握與人談判、說服和合作技能的 AI 的突破」?對於一個可以在真實情況下與人類進行智慧互動的系統來說,它的進步有多大?我們是否需要擔心 Meta 已經建立了一個可以操縱人類以實現其統治世界目標的人工智慧,正如我們的一位朋友釋出的那樣,也許這甚至是認真的?鑑於涉及欺騙策略,我們是否處於某種新興的風險中?值得稱讚的是,Meta AI 已經發布了 Cicero 開原始碼,以便研究社群可以開始探索這些問題:https://github.com/facebookresearch/diplomacy_cicero對於 AI 演算法來說,如果不首先檢查系統的架構,總是很難回答有關影響的問題。事實證明,Cicero 的架構與近年來 AI 中討論的大部分內容大相徑庭。首先你要認識到,Cicero 是一個非常複雜的系統。它的高階結構比精通圍棋和國際象棋的 AlphaZero 或純粹關注單詞序列的 GPT-3 等系統複雜得多。其中一些複雜性在流程圖中立就能顯現出來。儘管最近的許多模型都類似於資料輸入、動作輸出,中間有某種統一系統(比如 Transformer),但 Cicero 在任何學習或訓練之前都進行了大量預結構化,並採用精心設計的定製架構分為多個模組和流,每個模組和流都有自己的特化。而這只是複雜的開始。就評估其整體意義而言,Cicero 的許多最重要的特徵在於隱藏在文章補充材料深處的細節。儘管這裡的討論旨在幫你省去大部分細節,但很明顯,正確理解 Cicero 並回答這些問題不可避免地需要仔細分析。Diplomacy 遊戲由一系列回合組成。在每一輪中,首先所有玩傢俬下交流,一對一;他們可以建立秘密聯盟、談判條件等等。商議完畢後再同時公佈。在每一步棋中,Cicero 都必須決定與誰交談,談的內容是什麼,最後要採取什麼行動。這些決定中的每一個都取決於當前的比賽狀態,Cicero 要考慮的因素包括之前的比賽和交流歷史,以及其他玩家在當前行動中對它說的話。在這種情況下,做出正確的決定可能會變得非常複雜。如果你在玩 Diplomacy,你下一步應該做什麼顯然取決於其他玩家將要做什麼,同樣他們將要做什麼取決於他們認為你將要做什麼。更復雜的是,你可以(希望)透過他們所說的來衡量他們將要做什麼,並且玩家之間還可以透過交流的來互相影響預判。但是,你要說什麼終究是取決於你希望他們做什麼,而這又回到了你要做什麼的問題。支撐 Cicero 模型的核心理論是博弈論。博弈論最初於 20 世紀 30 年代發展起來,現在已經非常強大,它為 Cicero 模型提供了一個強有力的起點。博弈論在 Cicero 如何選擇其策略方面起到了關鍵作用。Meta AI 早期一項在非語言簡化版 Diplomacy 的工作中已經得到很好的驗證和發展,令人印象深刻。然而,博弈論本身是一種行動理論。根本不是一種語言理論。因此,Cicero 團隊必須將博弈論策略選擇與為純語言任務(如翻譯或問答)開發的自然語言技術相結合。將所有這些組合成一個協調的整體非常具有挑戰性。坦率地說,Meta AI 團隊的成功讓我們印象深刻。Cicero 在遊戲中的架構可能不可避免地包含一系列高度複雜的互動演算法。我們不打算在這裡對其進行全面描述,但我們看到了兩個關鍵要點。首先,Cicero 的整體架構並不是簡單地從基礎資料中自發產生的,而是一個包含許多活動部件的精巧工程結構,由不同型別的 AI 專家組成的廣泛團隊,結合機率分析博弈論精心設計而成。第二個關鍵點是 Cicero 在做出決策時利用了許多不同型別的資訊,包括:- 語言模式知識,基於類似於 GPT-3 的純語言模型,這讓 Cicero 知道如何合理回應其他玩家;
- 瞭解語言與動作的關係,這讓 Cicero 知道如何告訴盟友或潛在盟友它計劃做什麼;
重要的是,儘管 Cicero 與人類對抗比賽,但它的運作方式與人類並不完全相同。例如,人類玩家可能會嘗試對其他玩家的精神狀態和交流互動進行分類。而 Cicero 在沒有直接表述或表徵這類想法的情況下設法取得了成功。與幾乎所有其他實用化的人工智慧一樣,Cicero 的構建也大量使用了機器學習技術。訓練資料有許多不同的部分,其中一些涉及大量的勞動來建立。該系統最終依賴於四類定製資料,比人們在典型的深度學習系統中使用的要多得多,其中有相當數量的手工構建的資料(這在深度學習領域也很罕見),其中包括:- 線上平臺上進行的 125300 場人類遊戲的語料庫(其中 40400 場包括對話,總共有 12900000 條單獨資訊);
- 一個大型的語言模型,似乎是在數十億個單詞的基礎上訓練出來的,在遊戲對話的語料庫中進一步微調;
- 數以千計的專家生成的註釋,評估由初步版本的 Cicero 產生的資訊的質量;
- 大量的合成資料集,其中許多是手工構建的,用於訓練各種模組。例如,為了訓練排除無效資訊的過濾器,他們建立了一個手工構建的無效資訊集;另一個資料集訓練了 Cicero,使其擺脫了錯誤計算棋盤上實體的傾向;還有一個資料集是為了提高其對否定句的理解,一個自我博弈的語料庫被用來進行強化學習等等。
有了這些精心設計的資料,系統需要學習語言中的資訊在遊戲行動方面的含義。例如,它需要學習 「你想在比利時支援荷蘭嗎?」這一連串的話語意味著在遊戲過程中標記為「NTH S BEL」的行動。為了做到這一點,Cicero 做了一個假設,即一般來說 A 和 B 之間的對話中的句子是指 A 和 B 在對話結束時進行的行動。該系統會在接下來的對話中尋找不誠實的說法。如果 B 在某一時刻對 A 說「你上一回合對我撒謊了」,那麼這表明 A 在上一回合對 B 的陳述不應該被註釋為 A 的實際行動。Cicero 在許多方面都屬於奇蹟:它實現了迄今為止任何人工智慧系統在動態世界中最深入和最廣泛的語言和行動整合,還以前所未見的形式與人類成功進行了複雜的互動。但它在如何做到這一點上也很引人注目。令人震驚的是,與許多時代潮流相反,Cicero 在很大程度上依賴於手工製作,包括資料集和架構。在這個意義上,它在許多方面更讓人想起經典的「老式人工智慧」,而深度學習系統往往結構化程度較低,對特定問題的定製程度較低。它比最近的人工智慧系統存在更多的天性。另外,值得注意的是,Cicero 的某些方面使用了神經符號的人工智慧方法,如語言中的資訊與行動符號表徵的關聯、對於對話結構的內在(先天)理解等等。也就是說,我們並不清楚 Cicero 的特殊性有多大的可概括性。據我們所知,Cicero 只在單一任務上進行了測試,這正是它精心設計的任務:Diplomacy。它不能立即應用於挑戰,例如客戶服務或指導家用機器人的行動,或者幾乎任何其他事情。即使在 Diplomacy 的環境裡,其範圍也是有些侷限的。例如,人類玩家可能可以很好地應對另一個棋盤(例如 1400 年的歐洲地圖),或是稍加修改的行動規則(例如部隊可以透過空中旅行而不僅僅是陸地或海上)。而在 Cicero 中,卻沒有簡單的方法來 「呈現」任何這樣的規則或地圖變化,而且其訓練與描述標準 Diplomacy 棋盤行動細節的語言有很大的關係。最好的假設是,如果你用其他規則玩 Diplomacy,系統會希望幾乎從頭開始重新訓練。然而,並沒有簡單的方法來重新訓練 Cicero。如果你想建立一個在 20x20 圍棋棋盤上對弈的 AlphaZero 版本,那可以用很少的新的人力來完成,因為 AlphaZero 完全是在自我博弈中訓練出來的。而對於 Cicero,你必須等到人類下了 125000 盤棋後再進行重新訓練,然後才能繼續進行實驗。這並不意味著將 Cicero 改造為其他任務的道路很容易。正如領域內經常出現的情況一樣,關鍵問題是,Cicero 中使用的技術在多大程度上可以推廣到涉及行動和社會互動的其他情況?如果我們想搭建一個 AI,在封閉和有限的 Diplomacy 環境之外與人進行一些複雜的互動,那麼 Cicero 的執行架構、訓練架構或通用方法論方法的哪些方面將是有用的?這個系統很複雜,我們無法很有把握地預測這一點,但就目前的情況來看,我們認為通用化的前景有些有限。這種工作方式在其他問題上可能很有用,但如果將該系統應用於其他問題,例如橋牌等遊戲中的競價,或者為一個專案的團隊談判工作計劃,或者計劃婚禮,那麼該架構的具體內容可能不會有太大的用處。Cicero 廣泛使用了機器學習,但它並不是簡單地製造更大的模型(所謂「擴充套件最大化」)的典型代表,也不是目前流行的「端到端」機器學習的觀點——即單一的通用學習演算法全面適用。在執行時,Cicero 由一系列獨立的精心設計的模組組成,具有複雜的相互作用。在訓練時,它利用了各種訓練素材,其中有些是專家專門為 Cicero 搭建的,有些是用專家手動編寫的程式合成的。在 Cicero 釋出的同一天,AACL 會議上就「NLP 是否不限於深度學習」這一話題進行了友好的辯論。Cicero 也許是在提醒我們,自然語言處理確實遠不止於深度學習。我們最後的收穫是什麼?我們瞭解到機器學習有價值已經有一段時間了,但如今機器學習經常被當作萬能的溶劑,好像人工智慧的其他部分無關緊要。而 Cicero 或許會改變這種計算方式。原文連結:https://garymarcus.substack.com/p/what-does-meta-ais-diplomacy-winning