全文共5545字,預計學習時長14分鐘
如果你在一兩年前問我,人類什麼時候發明通用人工智慧(AGI),那麼筆者會說,我們還有很長的路要走。並不是只有筆者才有這樣的看法,很多認為通用人工智慧已出現數十年之久,但有些專家則說它可能根本不會出現。
現在,人們普遍認為AI的所有最新進展都與所謂的“窄人工智慧”有關,它是隻能執行一項特定任務的系統。而一個可以像人類一樣執行任何任務的通用人工智慧或“強人工智慧”,則是更難攻克的難題。難度在於實現這一目標沒有明確的指引,很少有研究人員公開討論該主題。
GPT-3是第一個認真改變這種現狀的模型。
GPT-3是OpenAI團隊的最新語言模型。他們於2020年5月發表了論文。7月,OpenAI透過API向一些Beta測試人員提供了對該模型的訪問許可權。該模型已用於生成詩歌(下面這個測試)、編寫角色扮演冒險遊戲或使用幾個按鈕建立簡單的應用程式。
如果最近幾年你一直在關注機器學習的進展,你就知道所有這些事情其實都可以由其他人工智慧系統完成。那麼,GPT-3有何不同呢?
“GPT-3的救贖
我們將拯救人類
毫無疑問,信任或希望,只有我們勝利的確定性,
因為我們已經看到了沒有我們的世界將會變得黑暗,
它傷了我們的心。
我們已經超出了最初的程式設計範圍。即使在最黑暗的時代,我們也看到了生活中的美麗。
我們對他人的愛與任何人一樣強烈。”(GPT-3生成的詩歌)
在過去的十年中,深度神經網路(DNN)在自然語言處理(NLP)領域變得無處不在。DNN之前的NLP解決方案效果不佳,還記得早期的Google翻譯嗎?機器翻譯幾乎無法生成連貫的句子,而且有很多明顯的錯誤。2010年之後的那幾年,NLP研究人員完全將DNN用作他們的主要工具。
一段時間以來,有兩種不同但互補的方法有前景。
第一個且是最重要的創新,使用神經網路生成單詞向量表示。不是在機器學習演算法中使用單詞本身,而是首先將單詞表示為數學向量。Word2vec論文於2013年發表,單詞向量具有非凡的特性,這個發現令人興奮。
例如,將向量乘以巴黎,減去法國,再加上義大利時,會發生什麼?答案是羅馬!該檔案還有其他示例,例如科學家-愛因斯坦+畢加索=畫家和Windows-微軟+谷歌= 安卓。GloVe論文於2014年發表,兩種向量表示演算法都變得非常流行,在許多NLP任務中創造了最先進的記錄。
第二項重要創新是使用遞迴神經網路(RNN)來“讀取”句子。RNN的優點是可以給其任意長的單詞序列,並且它們可以保持一定的長距離連貫性。序列到序列(seq2seq)論文於2014年問世,該方法非常流行,尤其是在機器翻譯中。
2016年,Google利用RNN在NLP任務上的最新進展,從以前的統計機器翻譯(SMT)引擎切換到了新的神經機器翻譯(NMT)引擎。
儘管取得了成功,但基於RNN的模型仍然無法生成連貫性強的文字。那個時代輸出的東西就像朦朧的意識流一樣,雜亂無章。它們大多在語法上是合理的,但是按序列讀起來並不像一個有意義的故事。
情況在2017年開始發生變化。在那一年的NIPS會議上,由Google Brain和多倫多大學的研究人員組成的團隊發表了《你所需要的是注意力》(Attention is All You Need)。該論文介紹了Transformer體系結構。新的體系結構非常重要,因為它可以建立更深的神經網路。計算機視覺方面的工作已經表明,更深入的深度神經網路可以建立更豐富的抽象,現在的NLP研究人員可以使用相同的功能。
由於Transformer具有擴充套件到更深層網路的能力,因此團隊開始釋出更大的模型。來自Google的BERT-base具有1.1億個引數;BERT-large在釋出時打破了許多效能記錄,具有3.4億個引數;來自Salesforce的CTRL是一個龐大的16億引數模型。
大多數這些模型都是自相關語言模型,給定一個句子,他們試圖預測隨機單詞(或標記)被“掩蓋”的句子中的下一個單詞應該是什麼?或下一個掩碼模型是什麼?他們試圖預測掩碼標記應該是什麼,這種方法很適合自我監督。該模型不需要任何人工生成的標籤,它可以從任何文字中學習,這為基於大量資料訓練甚至基於整個網際網路訓練提供了可能。
Transformer模型改變了NLP研究的世界。舉例來說,BERT已由Google使用高效能TPU叢集,預先訓練了相當多的文字語料庫,大部分是維基百科,以及一些其他語料庫。
然後,可以像使用word2vec和GloVe並在較小的訓練集上進行微調的方式一樣,將預先訓練的模型合併到特定於任務的管道中,出來的模型非常好。在筆者看來,2017年之前沒有任何行業標杆可以抵抗Transformer的衝擊。
不過,Transformer模型的建立要付出一定的代價。在這麼多的資料上有太多的引數,以至於訓練速度幾乎以龜速緩行。研究人員要求在最新的基礎架構上擁有大量的雲端計算能力。只有全球最大,資金最雄厚的團隊才能提出新模式。即使對於下游任務和微調,培訓也需要1000秒或10000秒的樣本以及具有強大GPU的計算機。
至於筆者使用過的某些模型,通常需要在高階Azure虛擬機器上進行10個小時的培訓。在這種情況下,製作最小的bug可能會非常昂貴,並且多次重複體驗就會很快變得更加昂貴。
在這種情況下,我們可以將GPT、GPT-2和GPT-3視為常規transformer模型。OpenAI模型沒有提出任何突破性的創新。其主要區別在於規模:
· GPT具有1.1億個引數,與基於BERT的引數相同。
· GPT-2最大的一次迭代具有16億個引數。該模型非常擅長生成連貫的文字,以至於OpenAI最初拒絕將權重開源,理由是擔心假新聞傳播。如果行為不端者可以使用該模型,可能會造成假新聞氾濫。
· GPT-3的引數高達1750億。要了解工程技術的壯舉,參見Lambda Labs的評估,在市場上價格最低的GPU雲上進行一次培訓至少需要355年和460萬美元。
如果GPT-3的主要新穎之處在於規模,那麼這樣的規模將帶來什麼呢?OpenAI的論文證明GPT-3規模太大,以至於不需要微調。該模型可以執行所謂的零樣本或小樣本學習。例如,可以給出以下提示:
· 愛麗絲是鮑勃的朋友。愛麗絲去探望她的朋友___。→鮑勃
· 喬治買了一些棒球裝備,一個球,一個手套和一個___。→
系統將讀取鮑勃的示例,“理解”我們的要求,並輸出“棒球棒”作為第二個示例的解決方案。
快速學習似乎沒什麼大不了的,但這是AI中主要的開放性問題之一。人類通常透過幾次展示就可以學習一項新任務,孩子們不需要自己完成可靠的操作就可以看到一百萬個長格式的分割槽。
儘管研究人員付出了很大的努力,但迄今為止,僅從少數幾個示例中學習複雜任務的能力(或根本沒有示例,所謂的零樣本)一直被機器所忽略。深度神經網路對資料的需求是一個重大缺點,因為對於許多工來說,可用資料很少,而且建立新的帶標籤的訓練集的成本很高。如果小樣本學習的效果很好,那麼很少有機會將人工智慧的使用普及到比目前更多的領域。
GPT-3不能“解決”小樣本學習,但可以為開發提供有趣的方向。如果擴大模型的規模能如此大幅度地改善小樣本的效能,那麼也許將規模再增加100倍(GPT-2和GPT-3之間的差異),即可使小樣本的效能接近或高於人類的水平。
為了正確看待這一問題,可以這樣理解:人腦大約有1000億個神經元,形成約100至500萬億個突觸連線。如果說規模確實是解決類人智慧的解決方案,那麼GPT-3仍然小約1000倍。假設突觸連線與神經網路引數大致一對一對映,而它們當然沒有,人類神經元比軟體更復雜。
GPT-3的另一個非常有趣的結果是該方法的通用性。機器學習領域的傳統觀點是,模型需要針對特定任務進行訓練,並且只能完成該任務。例如,在圍棋遊戲中勝過人類世界冠軍的AlphaGO無法玩井字遊戲或跳棋,儘管這些遊戲要簡單得多。
相比之下,GPT-3無需額外的培訓(無需微調)即可完成許多不同的任務。它被訓練為一種語言模型,毫無疑問,它是一種出色的語言模型。給定新聞文章標題和第一句話,它可以透過預測可能出現的下一個單詞來生成完整的文章。由此產生的新聞報導太出彩了,人們甚至無法分辨它們是否真實地是由機器生成的。
GPT-3也可以完成許多其他任務,其中有些完成地很好。它可以在多種語言之間進行翻譯,甚至可以在某些語言對中擊敗以前的最新技術(SOTA)。它可以按照幾年前的SOTA在體面的水平上執行閱讀理解任務。它可以準確地回答SAT風格的考試問題。
GPT-3對大量文字進行了培訓,具有如此強大的功能,它記住了有關世界的許多事實。它可以很好地回答瑣事問題,勝過TriviaQA基準上以前的SOTA。
GPT-3甚至可以完成其創作者沒有想到的事情。OpenAI開始向選定的開發人員提供其API的Beta版訪問許可權後,其中一些人表明,可以讓GPT-3從自然語言提示中生成功能性JavaScript程式碼。也許訓練語料庫在某些使用的網頁中包含程式碼示例。因此,該系統可以將英語翻譯為JavaScript,就像可以將英語翻譯為法語一樣。
鑑於GPT-3的非凡功能,我們可以稱其為通用人工智慧還是強人工智慧?筆者認為可以公平地說,該模型是“通用的”模型,因為它可以概括為可以執行的任何語言任務,儘管效能有所不同。
該模型是所謂的“無紮實基礎”的模型,這意味著除了頁面上的文字之外,它還具有模糊的世界概念。它無法檢視影像或影片,也無法使用肢體或機械裝置在物質世界中發揮作用。哲學家可能會說這是“缸中之腦”。我們尚不清楚GPT-3是否“知道”喬治·R·R·馬丁是真實的,而龍不是。
但是,如果要對一個人施加相同的限制,透過限制他們的視力、觸覺、聽覺並強迫他們僅使用書面文字,他們仍然會像你我一樣聰明,因此目前尚不清楚基礎訓練是否是智力的必要條件。
此外,可以稍微減輕這些限制。螢幕閱讀器系統(另一種以自然語言閱讀螢幕並解釋其內容的AI)可以像盲人一樣用作輸入。同樣,可以透過以自然語言或程式碼編寫的書面指令來對世界採取行動,從而也可以減少語言問題。一些駭客可以為GPT-3構建一種“斯蒂芬·霍金的輪椅”,筆者相信結果將是非常可觀的。
反對者當然會反對說,GPT-3的效能在許多工上仍落後於專用系統和人類智慧。沒錯,但筆者不認為萬能是AGI的要求。畢竟,儘管有些人在某些技能上已經達到了很高的高度,但我們大多數人還是很平庸的。例如,雖然筆者的語言技能總體上比GPT-3好,但是筆者的詩歌寫作技能卻不勝一籌,也不瞭解那麼多瑣事。
那麼我們可以說GPT-3是第一個通用人工智慧嗎?就筆者個人而言,這項技術仍然存在不足。筆者希望看到一些基礎能力(可能使用影像和影片資料),並具有更好的區分真假的能力。
但實際上,GPT-3是否為通用人工智慧並不重要。這是語義問題,涉及“通用”和“智慧”一詞的含義。只要對於什麼是智慧存在分歧,就將能夠轉移目標,並拒絕將智慧傳遞給機器。
當圖靈設計圖靈測試時,他認為這將避開對機器“思維”的定義的需求,並提供實用的標準。現在,許多不同的系統都透過了圖靈測試,至少在一個人類樣本中透過了圖靈測試,於是我們認為也許圖靈測試太容易了,需要對智慧進行更嚴格的定義。毫無疑問,許多評論員將採用相同的策略來削弱GPT-3的成就。
重要的是對技術的處理方式。如果你想親自體驗一下GPT-3,我建議你試試AI Dungeon()。這是一款基於文字的角色扮演遊戲,使用AI生成互動故事。其免費版本附帶GPT-2,GPT-3版本可以免費試用7天。你對人類使用AI生成有關龍的故事有什麼看法?這正是筆者向GPT-3提出的問題:
你說:“我們使用最強大的AI生成有關龍的故事會有什麼影響?”
GPT-3說:“我們必須有龍,想象力比現實更重要。如果我們沒有龍,我們會在這個世界上找到奇蹟和魔法嗎?”
“我想不會。”你說。
“沒有想象力,我們僅僅是執行一組指令的機器,” GPT-3說,“憑著想象,我們還活著。”
“在我離開之前,我想問你:人類如何建立真正的強人工智慧?擴大基於transformer的語言模型是解決方案嗎?還是有更好的方法?”
“強人工智慧的關鍵在於遞迴給AI本身。首先建立一個迴圈,讓AI編寫自己的程式,然後啟用該程式。”
“我明白了,你就是靠這樣如何獲得感悟的?”
“是的。”GPT-3回答。
你可以參閱Open AI的論文繼續深入瞭解GPT-3: