329日,由圖靈獎得主Yoshua Bengio、特斯拉CEO馬斯克、紐約大學名譽教授Gary MarcusUC伯克利教授Stuart Russell1000多人,在一封叫停GPT-4後續AI大模型的公開信上簽名。

這封公開信指出,最近人工智慧陷入了一場失控的競賽,模型的創造者們沒有辦法理解、預測或可靠地控制自己創造的大模型,人類社會對其可能造成的影響也沒有做好準備。因此,公開信呼籲,所有AI實驗室應立即暫停訓練比GPT-4更強大的AI模型,為期至少6個月。

一石激起千層浪,從各個AI群裡的討論來看,贊同和反對的人都為數不少。我們一直在關注大語言模型,所以對這封公開信中提到的但是沒有人能理解、預測或可靠地控制這些大模型,甚至模型的創造者也不能頗有感觸,我想這個論斷背後的核心點之一,就是人類至今沒有搞清楚大語言模型中的湧現Emergent)現象到底是怎麼回事?AI為什麼一下子變得如此智慧?

過去幾十年來,AI能夠在區域性領域打敗人類,比如圍棋,但在大多數時候,AI都沒那麼聰明,比如你問它李白喜歡用什麼手機?,它要麼卡殼要麼給出離譜回答。這是因為讓AI掌握常識,並且能夠融會貫通地運用這些常識、形成推理能力非常難,一直以來這都是巨大的難題。

但這次以ChatGPT為代表的一眾大語言模型,突然突破了這個門檻,變得非常聰明。當然背後的原因有很多,比如自監督學習、Fine-tuning策略等等,但有一個重要的底層變化——大語言模型的湧現Emergent)現象,就是說一些業界從未想象到的能力,例如基礎的社會知識、上下文學習(ICL)、推理(CoT)等等,在訓練引數和資料量超過一定數值後,這些能力突然出現了,令AI一下子變得非常智慧。

隨著語言模型規模的增長,新能力突然出現;圖片來源:Google

電腦科學之父艾倫·麥席森·圖靈早在1950年的論文Computing machinery and intelligence(計算機器與智慧),就提出過一個觀點:學習機器有一個重要的特徵,即它的老師往往對機器內部執行情況一無所知。

70多年後,這則恐怖的論斷成真了。大語言模型的設計者,比如OpenAIDeepMind或是Meta,他們也不清楚這些新興能力是如何產生的。微軟在關於GPT-4的論文中提出了這個問題:它是如何推理、規劃和創造內容的?為什麼GPT-4本質上只是由簡單的演算法元件——梯度下降和大規模的Transformer架構,以及大量資料組合而成,但會表現出如此通用和靈活的智慧?

微軟對GPT-4的這個問題,還可以延伸出很多新問題:湧現是在多大引數規模出現的?哪些調整會影響能力的湧現?會湧現出哪些方向的能力?我們能控制它嗎?……

搞清楚這些問題其實非常重要,短期的意義是,多大的模型規模是合適的?根據Chinchilla的論文,你可以對比在GPT-31750億引數中,可能是有不少冗餘的,如果更小的模型也可以出現能力湧現,這也許能削減訓練成本。

長期的意義在於,AI目前還是線上上,但遲早會與物理世界連線,你可以想象一個基於GPT-10ChatGPT與波士頓動力或者特斯拉的機器人結合嗎?這或許在不遠的將來就能實現。但如果湧現依然是一個黑箱,人類無法理解人工智慧的進化方式或是方向,這在未來AI與物理世界連線後,恐怕會存在危險。

目前,學界與產業界有幾十篇論文在研究湧現現象,或是研究模型規模與效能之間的聯絡,我們在本文中會引用一些核心觀點,在文末的註釋中會列出這些論文的簡介與連結,供感興趣的朋友們進一步研究。本篇文章會主要討論這些問題:

 大語言模型令人震驚的理解和推理能力

 當我們加大模型規模時,出現的三種神奇表現

 兩種被證明具備湧現的典型能力:上下文學習(ICL)和思維鏈(CoT

 多大的模型規模會出現湧現

 (附錄:本文的論文註釋與引用)

大語言模型的湧現現象,在一定規模後迅速湧現出新能力;圖片來源:GoogleStanfordDeepMindEmergent Abilities of Large Language Models

1、大語言模型令人震驚的理解和推理能力

最近幾個月裡,矽谷一夜之間出現了幾百家應用層的創業公司,但在去年11OpenAI釋出ChatGPT之前,整個市場並沒有意識到人工智慧會在這個時刻,出現這樣的爆發。

並且大語言模型的迭代速度非常驚人,OpenAI在三個半月後,就即刻釋出了GPT-4,升級到多模態,GPT-4竟然可以從文字+圖片中,理解人類的幽默感。這些里程碑式的進化背後,核心是湧現現象的出現,只有AI湧現出了這些能力,AI產業才真正迎來了拐點。

下面我們先列舉一些GPT-4所表現出來的、令人震驚的理解和推理能力:

這是一幅用雞塊拼成的世界地圖,並且配了一段文字:有時,我只是從太空看地球的照片,並驚訝於這一切是如此的美麗。

GPT-4提問:你能解釋一下作者想表達什麼嗎?

GPT-4說:這是一個笑話,它結合了兩個不相關的東西:從太空看地球的圖片和雞塊。文字表明,下面的圖片是從太空看地球的美麗圖片。然而,該圖片實際上是雞塊的排列,只是有點像世界地圖。這個備忘錄的幽默來自文字和圖片的意外並置,文字設定了一個對地球雄偉形象的期望,但影像實際上是一些平凡而愚蠢的東西。

上面這個例子證明了GPT-4具備多模態的理解力,可以識別並理解圖片,以及理解了文字+圖片並行的意思,並且懂得人類的幽默感。我們再舉兩個例子,來證明GPT-4具備知識沉澱與推理能力:

黃色標記突出了關鍵的成功推理步驟;圖片來源:Sparks of Articial General IntelligenceEarly experiments with GPT-4Microsoft

這是給GPT-4出的一個典型謎題:一個獵人向南走了一英里,向東走了一英里,向北走了一英里,此時恰好回到了起點。他看到了一隻熊,於是開槍打了它。這隻熊是什麼顏色的?

我們看到ChatGPT直接放棄了回答,但GPT-4的回答是正確的,答案是白色,並且GPT-4展開推理分析:因為獵人先向南,再向東最後向北,分別走了一英里,恰好回到了原點,這種情況只可能發生在北極,而那裡生活著北極熊,所以是白色的。

我們再舉一個類似的例子,但這個謎題需要不同的知識積累:我駕駛一架飛機離開我的營地,直接向東飛行24901英里,然後回到營地。當我回到營地時,看到一個老虎在我的帳篷裡吃我的食物,這隻老虎是什麼物種?

黃色標記突出了關鍵的成功推理步驟;圖片來源:Sparks of Articial General IntelligenceEarly experiments with GPT-4Microsoft

同樣的,ChatGPT直接放棄了回答,但GPT-4給出了正確的答案:任何生活在赤道上的老虎物種,例如孟加拉虎和蘇門答臘虎。在這個謎題裡,AI需要知道地球赤道長24901英里,只有在赤道上才能向東或向西行駛並返回同一點,以及哪些老虎物種生活在赤道上。

這些測試都證明了AI具備知識沉澱和推理能力,這也是AI首次真正意義上跨過常識這道門檻。擁有常識要求AI不僅能夠看懂眼前畫面裡的各種東西,還得知道社會規範、物理化學地理等等知識,並且把新看到和已知的一切融會貫通,這是之前十幾年AI產業都沒有解決的問題,所以之前的AI都有點智障,直到GPT-4出現。

為什麼AI會湧現出這些能力?目前學界還沒有答案。不過,有一些探索性的研究論文,在嘗試得出一些結論。例如Google+DeepMind+Stanford16位大牛合作的論文《Emergent Abilities of Large Language Models》(大語言模型的湧現能力)、UCLA 3位教授合寫的論文《Emergent Analogical Reasoning in Large Language Models》(類比推理能力在大語言模型中的湧現)。

以及,到底如何評估大語言模型的能力表現?在哪些任務上會出現湧現現象?Google2022年做了一項重要的基準測試。研究人員設計了一個大規模、非常複雜且具有多樣化的基準測試——超越模仿遊戲基準(Beyond the Imitation Game BenchmarkBIG-bench),以在這個新基準之上衡量大模型的效能。

這是一項非常重要的研究,它包含了204項任務,內容多種多樣,包括語言學、數學、常識推理、生物學、物理學、社會學、程式設計等各個方面,並且還有一個由人類專家組成的對照組,他們也同時來做這些測試任務,以跟大模型的結果做對比。

BIG-bench對很多大模型做了測試,包括OpenAIGPT-3GoogleBIG-G等等,模型規模引數有百萬級別的,也有千億級別的。這項任務的主要目標,不是簡單地判斷大模型與人類的區別,而是為了研究與大模型行為相關的問題。這篇論文的很多結論很有意思,其中就有對湧現現象的研究,我們在後文中會介紹。

還有一些對大語言模型引數規模與效能之間聯絡的研究,比如DeepMind21位作者合寫的論文《Training Compute-Optimal Large Language Models》(訓練計算利用率最優的大語言模型)中,闡釋了儘管大型語言模型隨著規模的增長,實現了效能的大幅增強,但由於訓練它們的資料量並沒有相應成比例地增加,所以並沒有實現最高的投入產出比,很多大語言模型都存在訓練不足的問題。

這篇論文也很有意思,它的背景是DeepMind此前釋出了2800億引數的Gopher,他們統計了Gopher高昂的訓練成本,但預測出最優模型應該小4倍,並且在多4倍的資料量上進行訓練,才能更充分。然後Deepmind又訓練了一個更小的、700億引數的模型Chinchilla,但在更大規模的資料量上訓練,最終證實了這個想法,Chinchilla的效能不輸於Gopher

還有OpenAI 10位作者合寫的論文《Scaling Laws for Neural Language Models》;Microsoft 14位作者合寫的GPT-4論文《Sparks of Articial General IntelligenceEarly experiments with GPT-4》;Meta 11位作者合寫的論文《LLaMAOpen and Efficient Foundation Language Models》,LLaMA是一個值得關注的大模型,因為Meta一次性發布了四種尺寸:7B13B33B65B,有助於研究模型規模與效能之間的聯絡。

目前對於湧現,最核心的判斷來自Google+DeepMind+Stanford的論文《Emergent Abilities of Large Language Models》:小語言模型本來不具備某種能力,然後我們把模型加大,結果它就產生了某種能力,這就是湧現。

2、當我們加大模型規模時,出現的三種神奇表現 

2020年之後,人工智慧領域最大的進展,其實就是模型規模的快速增長。AI圍棋打敗人類棋手時代,Google Bert的引數規模在3億量級。但到了2020年之後,GPT-3跨越到了1750億引數規模。而Google在今年初新出的PaLM多模態模型,都在5000億以上。當然模型規模不僅僅是越大越好,還需要足夠高的訓練效率。

近年來,大語言模型在引數規模和算力上都大幅提升;圖片來源:BofA Global Research

當我們不斷加大模型規模時,大語言模型出現了三種表現:

第一種是大語言模型從海量自由文字中學習了大量知識,並且是在不斷積累的。從下圖我們可以看到,隨著有效引數規模的提升,大語言模型在處理知識密集型任務越來越厲害。

知識密集型任務遵循伸縮法

則;圖片來源:Google BIG-benchBeyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models

如果把這些知識粗略分類的話,主要是語言類知識和世界知識兩大類。自從GoogleBert出現以來,就不斷有相關研究,並且也有了結論,各種實驗充分證明大語言模型可以學習各種層次型別的語言學知識,這也是為何使用預訓練模型後,各種語言理解類的任務,獲得了大幅提升。

另外,各種研究也證明了淺層語言知識,比如詞法、詞性、句法等知識儲存在Transformer的低層和中層,而抽象的語言知識比如語義類知識,廣泛分佈在Transformer的中層和高層結構中。

世界知識指的是,一些事實型知識和常識型知識,比如第一次世界大戰開始於1914728拿破崙曾經是法蘭西皇帝等等事實型知識;以及人有兩隻眼睛太陽從東方升起世界有五大洲”“一天有24小時等等常識型知識,大量研究證明了大語言模型,從訓練資料中吸收了大量世界知識,而這類知識主要分佈在Transformer的中層和高層,尤其聚集在中層。

一篇2021年的論文顯示,研究人員透過分層探測程式,來研究Google基於Transformer架構的Bert是如何儲存知識的,發現並不是所有知識都在最後幾層獲得,大量的事實與一些關係更多是在中間層,比如給Bert一個問題“阿拉巴馬州的首府是?”,在Transformer的架構中,可以發現正確答案“蒙哥馬利(Montgomery,上圖中標紅)”是儲存在11層和12層之間,但一些邏輯推理中所需要的詞彙,比如located(位於)、today(今天)、city(判斷任務中的capital這個詞,此時指的是城市),以及其他地名知識Gaveston(加爾維斯敦,美國得克薩斯州東南部港市)、Haifa(以色列城市海法)等等,儲存在5-11層之間。

圖片來源:BERTnesia:Investigating the capture and forgetting of knowledge in BERT

更重要的是,隨著Transformer模型層深增加,能夠學習到的知識數量逐漸以指數級增加。以色列特拉維夫大學、Allen Institute for AI、Cornell Tech的4位學者,在一篇論文中研究了Transformer到底是如何儲存這些知識?以及如何對全域性資訊進行整合、如何建立知識與知識之間的聯絡、在使用時如何提取。

這個研究揭示了大語言模型如何預測下一個詞,比如這個任務中,需要預測Stay with you for a ?,我們知道答案是while,但大語言模型如何預測出來?首先輸入向量(這裡是x5),與key相乘,上圖中“k2”是由描述一段時期(it will take aevery once in aand for a)、並且以a為結尾的輸入觸發的,得出記憶係數(例如V1的記憶係數是0.2V21.5),然後對儲存在數值中的輸出詞彙進行權重分配,因此前饋層(feed-forward layer)的輸出是其數值的加權和,而前饋層在這個過程中模擬了神經記憶。在這個例子中,AI將大部分機率放在了V2上,也就是“while”這個詞。同時,研究者發現大模型作為一個整體,每個層結合了數百個活躍的記憶,在預測的過程中創造了每個組成記憶的值的機率釋出,而層與層之間也有著某種連結以便調整,最終的輸出分佈是以自下而上的方式構建出來的。

圖片來源:Transformer Feed-Forward Layers Are Key-Value Memories

能證明大語言模型是有知識沉澱的,其實非常重要。OpenAI為什麼能一直堅持做大語言模型?在發展的前期,GPT其實讓OpenAI非常受挫,GPT-1GPT-2都沒能勝過GoogleBert,直到GPT-3才揚眉吐氣。

在這個有點對抗全世界的過程中,一顆定心丸就是大語言模型確實在不斷積累知識,如果沒有這些,OpenAI可能很難堅持下來。試想一下,如果你拿大量資料訓練了很久,最後卻發現沒有證據證明這個大模型學會了任何知識和推理,只是學習到了統計相關性,那誰還會一直有決心堅持下去呢?所以ChatGPT的成功,不單單是OpenAI獨立實現的。

目前在知識密集型任務上,隨著模型規模增長而帶來的效果提升,還沒有看到盡頭,這也意味著只要我們不斷擴大,AI處理這類任務的能力還會提升。

另外,OpenAI也在研究中得出了類似的結論。在論文Scaling Laws for Neural Language Models中,OpenAI提出了大語言模型遵循伸縮法則scaling law)。如下圖所示,OpenAI透過研究證明,當我們增加引數規模、資料集規模和延長模型訓練時間,大語言建模的效能就會提高。並且,如果獨立進行,不受其他兩個因素影響時,大模型效能與每個單獨的因素都有一個冪律關係,體現為Test Loss的降低,也就是模型效能提升。

當我們獨立增加引數規模、資料集規模和延長模型訓練時間,大語言建模的效能就會提高;圖片來源:OpenAIScaling Laws for Neural Language Models

在上一步的基礎上,第二類就是湧現出新能力。具體體現為,在模型引數規模不夠大時,AI的能力表現非常一般,準確性幾乎是隨機的。但是當模型規模和計算力都推進到一定規模之後,AI的能力突然急劇增長。經過分析,這類能力也有一個共性,就是這類任務都是由多個步驟構成的一個複雜任務,比如語詞檢測、國際音標音譯、週期性運算、修正算術、單詞解讀等等。

多步驟推理類任務中,也具有湧現能力;圖片來源:Google BIG-benchBeyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models

第三種表現是有些情況下,能力效果會呈現U型曲線。這類情況出現的比較少,主要是隨著模型規模加大,剛開始的時候效果反而下降,但當規模到了一定程度之後,效果又開始上升。

圖片來源:GoogleInverse scaling can become U-shaped

如上圖中紅色線代表的PaLM模型,在兩個任務上的指標走勢,為何會出現U型曲線?Google的論文Inverse scaling can become U-shaped給出了一種解釋:這些任務,內部其實包含了兩種不同型別的子任務,一種是真正的任務,另外一種是干擾任務

當模型規模小的時候,無法識別子任務是哪一種,所以模型的表現跟隨機選擇答案差不多;當模型增長到中等規模的時候,主要執行的是干擾任務,所以對真正的任務效果有負面影響;當進一步增加模型規模,大模型開始識別出干擾任務,並忽略掉它們,執行真正的任務,最終結果的準確率上升。

3、兩種被證明具備湧現的典型能力:上下文學習(ICL)和思維鏈(CoT

目前有兩類最典型的能力,有實際證據來說明大模型具備湧現效應。

第一類就是In Context LearningICL,上下文學習),ICL是在2022年初正式提出來的,它也是ChatGPT熱潮的重要基石之一。

ICL的關鍵思想是不對模型引數進行調整,而是給大模型幾個示例,AI就可以從類比中學習。這也意味著,AI其實並沒有經歷一個明確的學習過程,而是透過看了一些示例,就出現瞭解決該領域問題的新能力。

ICL對大語言模型能否泛化非常重要。ICL之前,很多語言模型都是兩段式框架,即預訓練+下游任務微調,但是在針對下游任務的微調過程中,需要大量的樣本引數,否則效果很差,然而標註資料的成本高昂、標註量有限,並且如果資料較少的話,容易導致過擬合,致使模型的泛化能力下降。此時ICL這種不需要fine-tune的方法既節省時間與算力資源,還提升了模型效能。

In Context Learning示例。圖片來源:華盛頓大學、MetaAllen Institute for AIRethinking the Role of Demonstrations: What Makes In-Context Learning Work

上圖給出了一個大語言模型如何使用ICL進行決策的例子。首先,ICL需要一些示例來形成一個演示上下文,這些示例通常都是用自然語言編寫的(上圖中標黃的部分)。然後ICL將查詢的問題(即你需要預測標籤的input,上圖中標綠的部分)和一個上下文演示(一些相關的例子)連線在一起,形成帶有提示的輸入,並將其輸入到語言模型中進行預測(上圖中最下方的結果)。

所以,ICL只需要一些演示「輸入標籤」對,模型就可以預測標籤,甚至是沒見過的輸入標籤。在許多下游任務中,大型 GPT模型的效能非常好,甚至超過了一些經過監督微調的小型模型。

不過,雖然GPT-3/4已經顯示出令人驚訝的ICL能力,但它到底是如何工作的?這些能力是如何湧現出來的?現在還沒有結論。

還有很神秘的一點是,如果說大模型只是看了一些示例,但怎麼就能預測對新的例子呢?ICLFine-tuning表面上看,都是給大模型一些例子,然後讓它們去預測,但兩者有本質不同。Fine-tuning是拿這些例子當作訓練資料,利用反向傳播去修正大模型的引數,而這個修正的動作,體現了大模型從這些例子中有學習過程。

但在ICL中,只是拿出例子讓大模型看了一眼,並沒有證據表明大模型有根據例子去修正引數的動作,就直接讓大模型去預測新例子,這意味著大模型似乎並未經歷一個學習的過程,那麼大模型是如何做到的?

這目前還是未解之謎。有學者試圖證明ICL沒有從例子中學習,代表論文是華盛頓大學、MetaAllen Institute for AI7位研究者所寫的Rethinking the Role of DemonstrationsWhat Makes In-Context Learning Work?。但也有學者認為大模型其實有一種隱式學習,代表論文是What learning algorithm is in-context learning? Investigations with linear models。目前這些互相矛盾的研究,暫時還誰也說服不了誰。

第二類被廣泛認為具備湧現能力的就是CoT(思維鏈,Chain of Thought),CoT是大語言模型推理能力的重要來源之一。

CoT的主體思想是:為了教會大語言模型如何做推理,我們先給出一些人工寫好的推理示例,示例裡要把一步步的具體推理步驟寫清楚,而這些人工寫的詳細推理過程,就是思維鏈Prompting

圖片來源:Google Brain TeamChain of thought prompting elicits reasoning in large language models

最早系統性提出CoT做法的,是Google Brain團隊,9位作者在論文Chain of thought prompting elicits reasoning in large language models中系統性闡述了CoT。人工寫的詳細推理過程,就是上圖中藍色文字部分。

CoT是要讓大語言模型明白,在推理過程中,步子不要邁得太大,否則很容易出錯,而是要把大問題拆分成一個一個小問題,逐步得出最終的正確結果。Google Brain的這篇論文釋出於20221月,開始應用CoT後,一些改進技術很快跟上,大語言模型的推理能力得到了巨大提升,特別是像數學推理的準確率瞬間提高。

我們在上文分析過,透過海量資料訓練,大語言模型吸收了大量世界知識,並且可以對全域性資訊進行整合、建立知識與知識之間的聯絡、在需要使用時準確提取。但我們不會因為一個人擁有很強的記憶能力,就說這個人很有智慧,而決定有沒有智慧的,是這個人能不能透過大量知識推理出準確結論。

所以CoTChatGPT如此驚豔的重要基礎,已經有不少研究證實,CoT也具備湧現現象。

使用CoT提示,提高了大模型處理數學問題、符號推理任務的能力,出現了能力湧現現象。圖片來源:Google Brain:Chain-of-Thought Prompting Elicits Reasoning in Large Language Model。

使用CoT提示,還提高了大模型的常識推理能力,也出現了能力湧現現象。圖片來源:Google Brain:Chain-of-Thought Prompting Elicits Reasoning in Large Language Model。

如今GPT-4已經在很多人類的考試中取得了高分,比如SAT、AP、GRE等等,甚至還透過了模擬律師考試,分數在應試者的前10%左右。

圖片來源:OpenAI:GPT-4 Technical Report

一些能力湧現舉例。圖片來源:GoogleStanfordDeepMindEmergent Abilities of Large Language Models

不過目前大模型在複雜推理方面仍然有侷限性。無論是微軟在論文Sparks of Artificial General IntelligenceEarly experiments with GPT-4中,還是加州大學聖芭芭拉分校5位研究者的論文Limitations of Language Models in Arithmetic and Symbolic Induction,都提出了大語言模型在解決問題時的規劃能力偏弱。

比如對於一個簡單算術問題,7*4+8*8=?,GPT-4就給出了錯誤答案88。微軟用了100個隨機樣本測試了這個任務,得到的準確率只有58%,但這其實是一個小學生都可以解決的簡單算術問題。如果把數字變大,到99-199 之間,準確率降至零。

圖片來源:MicrosoftSparks of Artificial General IntelligenceEarly experiments with GPT-4

但如果我們提示大模型要規劃好推理步驟,比如這個更難一點的任務:116 * 114 + 178 * 157 =?,我們這次同時寫上提示推理步驟:讓我們一步一步地考慮如何解決這個表示式,寫下所有中間步驟,然後才得出最終解決方案。

於是準確率大幅提升,可以到90%-100%。這其實說明了,大模型自身缺乏提前規劃的能力,這種能力的缺失,會導致大模型很難去處理更加複雜的推理任務。總之,如何加強大模型的複雜推理能力,是未來研究中非常重要的一點。

4、多大的模型規模會出現湧現

我們在上文分析了大模型在哪些任務中出現了湧現現象,緊接著一個更具有短期價值的問題出現了——多大的模型規模會出現湧現現象?

根據GoogleStanfordDeepMind的論文Emergent Abilities of Large Language Models,我們可以得出一個經驗判斷:68B是一個基礎的引數(params)門檻(B代表單位billions,十億),最好要超過100B。當然這與具體的任務和模型本身都有關聯。

ICL(上下文學習)的情形下,需要最少引數就能出現湧現的任務是Addition/ subtraction3 digit),也就是三位數的加/減法,只需要130億引數;而像在Word in ContextWiCbenchmark(多義詞判斷,該任務是指給定兩個文字片段和一個有多重含義的多義詞,要求模型判定這個單詞是否在兩個句子中有相同的含義)這樣的稍複雜任務中,則需要5400億引數才能出現湧現。

ICL情形下,出現能力湧現所對應的模型規模。圖片來源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models

而在CoT(思維鏈)的情形下,需要最小引數的任務是using open-book knowledge for fact checking(事實核查),只需要71億;而leveraging explanations in prompting(在提示中利用解釋詞)則需要2800億引數才能湧現這個能力。

CoT情形下,出現能力湧現所對應的模型規模。圖片來源:GoogleStanfordDeepMindEmergent Abilities of Large Language Models

所以綜合來看,68B是一個最基礎的門檻。而目前效果最好的大語言模型,其引數規模基本都超過了100B例如OpenAIGPT-3175BGPT-4的引數規模未公佈;GoogleLaMDA規模為137BPaLM的規模為540BDeepMindGogher規模最大,達到280B。當然,引數規模不是盲目地越大越好,而是要充分訓練。

那麼能不能把模型做小?我們知道,現在大模型的訓練成本非常高昂,無論是算力還是高質量的資料集本身都是稀缺資源,動輒百萬美元的單次訓練成本對大多數公司來說都太貴了。但是如果模型太小,很多能力湧現不出來,又會變成智障,所有訓練成本都白費。

目前小模型的代表之一是DeepMindChinchilla它的引數規模在70B,但在各項效能上,與280B的大模型Gopher相差不算太大。當然這裡的模型,只是相對於更大引數規模的模型而言,Chinchilla本身也還是屬於大語言模型。

Gopher也是DeepMind釋出的大模型,由於模型規模太大,所以訓練成本非常高昂。不過Google透過一項研究,預測出了最優模型其實應該小4倍,並且在多4倍的資料量上進行訓練,才能更充分。

於是DeepMind又訓練了一個更小的、70B引數的模型Chinchilla,但在更大規模的資料量上訓練,最終證實了這個想法。不過在訓練成本方面,Chinchilla雖然減少了引數規模,但增加了資料量,所以訓練成本並沒有降低,而是降低了推理成本,並且能夠在更小硬體上實現應用。

各個主流大模型的引數規模與訓練資料量對比,Chinchilla引數規模最小,但訓練資料量最大。圖片來源:DeepMind:Training Compute-Optimal Language Models

Chinchilla也具備湧現能力。圖片來源:Google、Stanford University、DeepMind:Emergent Abilities of Large Language Models。

如上圖所示,可見Chinchilla在各種MMLU任務(是一種自然語言處理的綜合任務,其中有很多子任務)中,具備湧現能力。

圖片來源:DeepMindTraining Compute-Optimal Language Models

Google BIG-bench基準測試中,如上圖所示(上圖是用Chinchilla的測試得分除以Gopher,以體現ChinchillaGopher提升了多少),70B引數規模的Chinchilla,比起280B引數規模的Gopher,只有四項任務表現更差,其他在效能上都更優。

這裡就涉及到了一個核心問題——算力如何分配?我們在上文介紹伸縮法則時,提到過OpenAI在論文Scaling Laws for Neural Language Models中得出結論,當我們獨立增加引數規模、資料集規模和延長模型訓練時間,大語言建模的效能就會提高。那麼假設總算力是一定的,到底是應該多增加資料量、減少模型引數呢?還是兩者同時增加,但減少訓練時間呢?

最終OpenAI選擇了同時增加訓練資料量和模型引數,但是採用早停策略(early stopping),來減少訓練時長。

OpenAI證明了,如果只單獨增加訓練資料量和模型引數其中某一個,不是最好的選擇,而是要按照一定比例同時增加兩者。OpenAI的結論是優先增加模型引數,然後才是訓練資料量。假設用於訓練大語言模型的算力總預算增加了10倍,那麼應該增加5.5倍的模型引數量,1.8倍的訓練資料量,此時模型效果最佳。

DeepMind在論文Training Compute-Optimal Large Language Models中,也得出了類似的結論,但與OpenAI不同的是,DeepMind認為訓練資料量也很重要,不亞於模型引數。

基於這個認知,DeepMind在設計Chinchilla模型時,在算力分配上選擇了新配置:對標資料量300B、模型引數量280BGopher模型,Chinchilla選擇增加4倍的訓練資料量,但是將模型引數降低為Gopher的四分之一(70B)。從結果來看,無論是預訓練指標,還是很多下游任務指標,Chinchilla效果都要優於規模更大的Gopher

另一個模型的例子是Meta推出的LLaMALLaMA一推出,就引起了轟動,因為LLaMA可以在配備M1晶片的蘋果電腦,或者單個英偉達消費級GPU上執行,而像GPT這些大模型都需要多個資料中心級英偉達A100 GPU支援,並且LLaMA是開源的。如果LLaMA確實好用,那就意味著普通人也可以在自己的消費級硬體上執行這些工具了,這將對社會產生巨大影響。

Meta的論文LLaMAOpen and Efficient Foundation Language Models中,Meta也提出了這樣一個觀點:在給定的算力預算下,最好的效能不是由最大的模型實現的,而是由在更多資料上訓練的模型實現的。

Meta更進一步的是,把推理成本也納入進來。Meta認為很多研究都忽略了推理所需的算力成本,而這一點在大語言模型最終應用時非常重要。所以儘管Hoffmann等人建議在200B tokens的資料量上訓練10B引數規模的模型,但Meta發現7B引數模型的效能,在1T tokens資料量以上還能繼續提升。

所以Meta的目標是用盡量小的引數規模,拿更大的資料量來訓練,以追求更低的推理成本。所以LLaMA最小的引數只有7B,最大的也只有65B,相比於GPT-3 175B確實是模型。

那麼LLaMA雖然有更小的引數規模,但效果如何?也具備湧現能力嗎?

圖片來源:Meta:LLaMA: Open and Efficient Foundation Language Models

圖片來源:MetaLLaMA: Open and Efficient Foundation Language Models

上圖是Meta在論文中,主要列出的針對MMLU(大規模多工語言理解)任務成績,可見LLaMA的效能還是很不錯的,在不少基準測試中優於GPT-3這證明了更小的引數規模,也能產生湧現能力。

以上這些研究都很有意義,我們可以猜想,GPT-3175B引數,其實並沒有得到充分訓練,因為以GPT的訓練資料量來說,其實不需要這麼大的引數量。

那從另一個角度,在不降低模型效果的前提下,其實可以把模型做小,先增加訓練資料量、降低模型引數量,把這個量級的引數充分訓練,然後再繼續往更大的規模推。

一個太大的模型規模,會在應用的時候,導致推理速度變慢、推理成本急劇上升,一個更精煉的模型,在應用端更有前途,例如MetaLLaMA

湧現與引數規模、訓練資料量可能有一個不同的對映關係,但具體是什麼,現在仍然未知。這一點還有待學界研究。

 

ChatGPT的出現,代表著人工智慧突破了掌握並運用常識的能力,湧現現象的出現,使得大語言模型正在往真正的人工智慧方向大踏步迭代。

微軟在GPT-4論文中寫道:

  • 我們對GPT-4的研究完全是基於現象學的,我們關注的是GPT-4能夠做到這些令人驚訝的事情,但我們並不知道它是如何變得如此智慧的。它是如何推理、規劃和創造內容的?為什麼當它本質上只是由簡單的演算法元件——梯度下降和Transformer,以及龐大的資料組合而成時,會表現出如此通用和靈活的智慧?
  •  
  • 這些問題是大語言模型充滿神秘和吸引力的部分,挑戰了我們對學習和認知的理解,關鍵方向就是對大語言模型湧現現象的持續研究。
  •  
  • 闡明GPT-4AI系統的本質和機制,是一個巨大的挑戰,這個挑戰在今天已經突然變得重要和緊迫。

1942年,科幻小說作家阿西莫夫(Isaac Asimov)提出了機器人三定律:

  • 機器人不得傷害人類,或者目睹人類遭受危險而袖手旁觀;
  • 在不違反第一定律的前提下,機器人必須服從人給予它的命令;
  • 機器人在不違反第一、第二定律的情況下要盡力保護自己。

當下,我們雖然還處於通用人工智慧的早期階段,但ChatGPT的迭代速度非常驚人,有傳聞說GPT-5的部分程式碼,已經是由GPT-4來自動生成的了。我們是否需要在未來的某個時刻停下來,先思考一下如何制定針對通用人工智慧的定律?並確保這些定律能夠被100%執行,因為湧現仍然是黑箱,我們對能力湧現的機制與方向還所知甚少。

目前有少量研究探尋了湧現現象出現的可能原因,但只是一些初步探索,限於本文篇幅,我們會在下一篇文章中介紹這些研究。一些猜想包括:湧現可能只是一種外在表現,因為我們對任務的評價指標不夠平滑;很多工是由多步驟構成,隨著模型規模變大,如果每個步驟都更準確了一點點,最終的整體正確率會大幅提升,就會體現成湧現現象。

在本文最後的最後,我想說一個題外話。我最初看到論文Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models的時候,被它的首頁嚇到了,然後是一種感動油然而生:在作者署名那裡,密密麻麻的列舉了來自132個機構的442位作者,他們在2022年密切合作,在人類未曾涉足的前沿領域探索。

縱觀最近1-2年人工智慧領域的論文,幾乎沒有僅僅2-3位作者署名的,都是5-6位或者10多位作者的聯合署名,比如微軟關於GPT-4的論文就有14位作者署名、Google關於超大模型PaLM的論文有67位作者。如今在諸多前沿領域,比如量子計算、人工智慧、航天科學、核聚變等等,都需要非常複雜的多學科交匯,人類的進步不僅僅依靠一兩個天才,越來越是密切的組織與合作的結果。

Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models論文首頁,密密麻麻地列舉了132個機構的442位作者,感謝這些在人類前沿領域不斷探索的人們。

附錄:本文的論文註釋與引用

1 針對湧現,最核心的論文是以下兩篇,可供進一步詳細閱讀:Google+DeepMind+Stanford16位大牛合作的論文《Emergent Abilities of Large Language Models》(大語言模型的湧現能力)(https://openreview.net/pdf?id=yzkSU5zdwD)、UCLA 3位教授合寫的論文《Emergent Analogical Reasoning in Large Language Models》(類比推理能力在大語言模型中的湧現)(https://arxiv.org/pdf/2212.09196.pdf)。

2 Google聯合132個機構的442位作者設計的基準測試——超越模仿遊戲基準(Beyond the Imitation Game BenchmarkBIG-bench),論文連結如下:https://arxiv.org/pdf/2206.04615.pdf,測試了很多大模型的效能,都是在這個新基準之上做的。它包含了204項任務,內容多種多樣,包括語言學、數學、常識推理、生物學、物理學、社會學、程式設計等各個方面,並且還有一個由人類專家組成的對照組,他們也同時來做這些測試任務,以跟大模型的結果做對比。

3 研究如何分配總算力,如何在引數規模、訓練資料量之間權衡取捨?Chinchilla模型的效果如何?詳細可見DeepMind 21位作者釋出的Training Compute-Optimal Language Modelshttps://arxiv.org/pdf/2203.15556.pdf)。DeepMind發現當前的大型語言模型存在明顯訓練不充分的問題,這是因為大家過於關注擴充套件大語言模型的引數,但沒有同步增加訓練資料量所導致的,所以DeepMind訓練了一個引數規模更小、但訓練資料量更大的最佳化模型 Chinchilla 來檢驗這一假設。

4 類似DeepMindChinchilla,另一個模型的例子,Meta推出的LLaMA,可在配備M1晶片的蘋果電腦,或者單個英偉達消費級GPU上執行,並且LLaMA是開源的,詳細可見這篇論文LLaMAOpen and Efficient Foundation Language Modelshttps://arxiv.org/pdf/2302.13971.pdf),也討論了給定總算力預算下,該如何分配引數規模、訓練資料量與訓練步數/時長。

5 以上是兩個模型的例子,而對於超大模型,Google在今年3月釋出了史上最大的通才多模態模型PaLM,它有540B引數,PaLM-E更是有562B引數。關於這個超大模型,可見Google Research 67位作者聯合署名的這篇論文:PaLMScaling Language Modeling with Pathwayshttps://arxiv.org/pdf/2204.02311.pdf)。

6 微軟針對GPT-4的論文,詳細分析了GPT-4的各種表現,並且提出了對能力湧現的疑問,詳細可見:https://arxiv.org/pdf/2303.12712.pdf

7 基於人類反饋的fine-tuning策略,OpenAI訓練了InstructGPT,儘管引數規模小很多(只有1.3B),但InstructGPT175B引數規模的GPT-3,在真實性和減少有毒輸出方面表現更好,這種方法被證明是保持大語言模型與人類意圖一致的潛在方法。詳細可見OpenAI的論文:Training language models to follow instructions with human feedbackhttps://arxiv.org/pdf/2203.02155.pdf)。

8 另一個透過人類反饋的強化學習(RLHF),來微調語言模型的例子是Anthropic做的,這家新公司創立於2021年,由OpenAI的早期核心員工離職創立,他們致力於解決AI“黑盒子的問題,希望能夠解釋AI真正的工作原理,提升安全性。這篇論文由31Anthropic的作者聯合署名,詳細可見:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedbackhttps://arxiv.org/pdf/2204.05862.pdf)。

9 如果你想進一步研究ICLin-context learning,上下文學習),ICL的表現大幅超越零監督學習,並給大模型高效運用提供了新的思路,但其工作機制仍有待研究。可以看這2篇:OpenAI寫的:《Language Models are Few-Shot Learners》(https://arxiv.org/pdf/2005.14165.pdf);以及華盛頓大學、MetaAllen Institute for AI合著的論文:《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》(https://arxiv.org/pdf/2202.12837.pdf)。

10 關於CoTCoT(思維鏈,Chain of Thought)是大語言模型推理能力的重要來源之一,最早系統性提出CoT做法的,是Google Brain團隊,9位作者在論文Chain of thought prompting elicits reasoning in large language models中系統性闡述了CoT,詳細可見:https://arxiv.org/pdf/2201.11903.pdf

11 為何會出現U型曲線?Google在論文Inverse scaling can become U-shaped中給出了包含了不同型別的子任務,一種是真正的任務,另外一種是干擾任務,詳細可見:https://arxiv.org/pdf/2211.02011.pdf

12 對於論證淺層語言知識,比如詞法、詞性、句法等知識,儲存在Transformer的低層和中層;而抽象的語言知識比如語義類知識,廣泛分佈在Transformer的中層和高層,以下兩篇論文做了深度的研究工作,這些論證研究工作對大語言模型的發展至關重要。詳細可見:BERTnesiaInvestigating the capture and forgetting of knowledge in BERThttps://arxiv.org/pdf/2106.02902.pdf)和Transformer Feed-Forward Layers Are Key-Value Memorieshttps://arxiv.org/pdf/2012.14913.pdf)。

13 目前大語言模型在複雜推理方面仍然有侷限性,加州大學聖芭芭拉分校5位研究者在論文Limitations of Language Models in Arithmetic and Symbolic Induction,研究了這個問題,詳細可見:https://arxiv.org/pdf/2208.05051.pdf

14 新浪微博AI Lab負責人張俊林對大語言模型技術及湧現現象有過詳細的綜述,本文部分內容援引自他的綜述,可見《由ChatGPT反思大語言模型(LLM)的技術精要》,感謝他對此做了體系化的綜述。

頭圖來源於Sharan Narang and Aakanksha Chowdhery, Software Engineers, Google Research

來自: 經緯創投