近年來,語言模型對自然語言處理 (NLP) 產生了革命性影響。眾所周知,擴充套件語言模型,例如引數等,可以在一系列下游 NLP 任務上帶來更好的效能和樣本效率。在許多情況下,擴充套件對效能的影響通常可以透過擴充套件定律進行預測,一直以來,絕大多數研究者都在研究可預測現象。
相反,包括 Jeff Dean 、 Percy Liang 等在內的 16 位研究者合作的論文《 Emergent Abilities of Large Language Models 》,他們討論了大模型不可預測現象,並稱之為大型語言模型的突現能力( emergent abilities)。所謂的突現,即有些現象不存在於較小的模型中但存在於較大的模型中,他們認為模型的這種能力是突現的。
突現作為一種想法已經在物理學、生物學和電腦科學等領域討論了很長時間,本論文從突現的一般定義開始,該定義改編自 Steinhardt 的研究,並植根於 1972 年諾貝爾獎獲得者、物理學家 Philip Anderson 的一篇名為 More Is Different 的文章。
本文探討了模型規模的突現,透過訓練計算和模型引數來衡量。具體而言,本文將大型語言模型的突現能力定義為在小規模模型中不存在、但在大規模模型中存在的能力;因此,大型模型不能透過簡單地推斷小規模模型的效能改進來進行預測。該研究調查了在一系列先前工作中觀察到的模型突現能力,並將它們進行分類:小樣本提示和增強提示等設定。
模型的這種突現能力激發了未來的研究,即為什麼會獲得這些能力,以及更大的規模是否會獲得更多的突現能力,並強調了這項研究的重要性。
論文地址:https://arxiv.org/pdf/2206.07682.pdf
小樣本提示任務
本文首先討論了提示正規化中的突現能力。例如在 GPT-3 提示中,給出預訓練語言模型任務提示,模型無需進一步訓練或對引數進行梯度更新即可完成響應。此外,Brown 等人提出了小樣本提示,他們將模型上下文(輸入)中的一些輸入輸出示例作為提示(preamble),然後要求模型執行未見過的推理任務。圖 1 為一個提示示例。
當模型具有隨機效能且具有一定規模時,透過小樣本提示就可以執行任務,這時突現能力就會出現,之後模型效能遠遠高於隨機效能。下圖展示了 5 個語言模型系列(LaMDA、GPT-3、Gopher、Chinchilla 以及 PaLM )的 8 種突現能力。
BIG-Bench:圖 2A-D 描述了來自 BIG-Bench 的四個突現小樣本提示任務,BIG-Bench 是一個由 200 多個語言模型評估基準的套件。圖 2A 顯示了一個算術基準,它測試了 3 位數字的加減法,以及 2 位數字的乘法。表 1 給出了 BIG-Bench 更多突現能力。
增強提示策略
目前來看,儘管小樣本提示是與大型語言模型互動的最常見方式,但最近的工作已經提出了其他幾種提示和微調策略,以進一步增強語言模型的能力。如果一項技術在應用到一個足夠大的模型之前沒有顯示出改進或者是有害的,本文也認為該技術也是一種突現能力。
多步推理(Multi-step reasoning):對於語言模型和 NLP 模型來說,推理任務,尤其是那些涉及多步推理的任務一直是一個很大的挑戰。最近有一種名為思維鏈(chain-of-thought)提示策略,透過引導語言模型在給出最終答案之前生成一系列中間步驟,從而使它們能夠解決這類問題。如圖 3A 所示,當擴充套件到 1023 次訓練 FLOP(~ 100B 引數)時,思維鏈提示只超過了沒有中間步驟的標準提示。
指令( Instruction following ):如圖 3B 所示,Wei 等人發現,當訓練 FLOP 為 7 · 10^21 (8B 引數)或更小時,指令微調(instruction-finetuning)技術會損害模型效能,在將訓練 FLOP 擴充套件到 10^23 (~100B 引數)時才能提高效能。
程式執行( Program execution ):如圖 3C 所示,在 8 位加法的域內評估中,使用暫存器僅有助於 ∼9 · 10^19 個訓練 FLOP(40M 引數)或更大的模型。圖 3D 顯示這些模型也可以泛化到域外 9 位加法,它出現在 ∼1.3 · 10^20 個訓練 FLOPs(100M 引數)。
本文討論了語言模型的突現能力,到目前為止,僅在一定的計算規模上才能觀察到有意義的效能。模型的這種突現能力可以跨越各種語言模型、任務型別和實驗場景。這種突現的存在意味著額外的規模擴充套件可以進一步擴大語言模型的能力範圍。這種能力是最近發現的語言模型擴充套件的結果,關於它們是如何出現的,以及更多的擴充套件是否會帶來更多的突現能力,可能是NLP領域未來重要的研究方向。
更多內容,請參考原論文。