Jeff Dean等人新作：換個角度審視語言模型，規模不夠發現不了

機器之心發表於2022-06-17

原文網址 : https://www.jiqizhixin.com/articles/2022-06-17-5

近年來，語言模型對自然語言處理 (NLP) 產生了革命性影響。眾所周知，擴充套件語言模型，例如引數等，可以在一系列下游 NLP 任務上帶來更好的效能和樣本效率。在許多情況下，擴充套件對效能的影響通常可以透過擴充套件定律進行預測，一直以來，絕大多數研究者都在研究可預測現象。

相反，包括 Jeff Dean 、 Percy Liang 等在內的 16 位研究者合作的論文《 Emergent Abilities of Large Language Models 》，他們討論了大模型不可預測現象，並稱之為大型語言模型的突現能力（ emergent abilities）。所謂的突現，即有些現象不存在於較小的模型中但存在於較大的模型中，他們認為模型的這種能力是突現的。

突現作為一種想法已經在物理學、生物學和電腦科學等領域討論了很長時間，本論文從突現的一般定義開始，該定義改編自 Steinhardt 的研究，並植根於 1972 年諾貝爾獎獲得者、物理學家 Philip Anderson 的一篇名為 More Is Different 的文章。

本文探討了模型規模的突現，透過訓練計算和模型引數來衡量。具體而言，本文將大型語言模型的突現能力定義為在小規模模型中不存在、但在大規模模型中存在的能力；因此，大型模型不能透過簡單地推斷小規模模型的效能改進來進行預測。該研究調查了在一系列先前工作中觀察到的模型突現能力，並將它們進行分類：小樣本提示和增強提示等設定。

模型的這種突現能力激發了未來的研究，即為什麼會獲得這些能力，以及更大的規模是否會獲得更多的突現能力，並強調了這項研究的重要性。

Jeff Dean等人新作：換個角度審視語言模型，規模不夠發現不了

論文地址：https://arxiv.org/pdf/2206.07682.pdf

小樣本提示任務

本文首先討論了提示正規化中的突現能力。例如在 GPT-3 提示中，給出預訓練語言模型任務提示，模型無需進一步訓練或對引數進行梯度更新即可完成響應。此外，Brown 等人提出了小樣本提示，他們將模型上下文（輸入）中的一些輸入輸出示例作為提示（preamble），然後要求模型執行未見過的推理任務。圖 1 為一個提示示例。

Jeff Dean等人新作：換個角度審視語言模型，規模不夠發現不了

當模型具有隨機效能且具有一定規模時，透過小樣本提示就可以執行任務，這時突現能力就會出現，之後模型效能遠遠高於隨機效能。下圖展示了 5 個語言模型系列（LaMDA、GPT-3、Gopher、Chinchilla 以及 PaLM ）的 8 種突現能力。

Jeff Dean等人新作：換個角度審視語言模型，規模不夠發現不了

BIG-Bench：圖 2A-D 描述了來自 BIG-Bench 的四個突現小樣本提示任務，BIG-Bench 是一個由 200 多個語言模型評估基準的套件。圖 2A 顯示了一個算術基準，它測試了 3 位數字的加減法，以及 2 位數字的乘法。表 1 給出了 BIG-Bench 更多突現能力。

Jeff Dean等人新作：換個角度審視語言模型，規模不夠發現不了

增強提示策略

目前來看，儘管小樣本提示是與大型語言模型互動的最常見方式，但最近的工作已經提出了其他幾種提示和微調策略，以進一步增強語言模型的能力。如果一項技術在應用到一個足夠大的模型之前沒有顯示出改進或者是有害的，本文也認為該技術也是一種突現能力。

多步推理（Multi-step reasoning）：對於語言模型和 NLP 模型來說，推理任務，尤其是那些涉及多步推理的任務一直是一個很大的挑戰。最近有一種名為思維鏈（chain-of-thought）提示策略，透過引導語言模型在給出最終答案之前生成一系列中間步驟，從而使它們能夠解決這類問題。如圖 3A 所示，當擴充套件到 1023 次訓練 FLOP(~ 100B 引數)時，思維鏈提示只超過了沒有中間步驟的標準提示。

指令（ Instruction following ）：如圖 3B 所示，Wei 等人發現，當訓練 FLOP 為 7 · 10^21 （8B 引數）或更小時，指令微調（instruction-finetuning）技術會損害模型效能，在將訓練 FLOP 擴充套件到 10^23 （~100B 引數）時才能提高效能。

程式執行（ Program execution ）：如圖 3C 所示，在 8 位加法的域內評估中，使用暫存器僅有助於 ∼9 · 10^19 個訓練 FLOP（40M 引數）或更大的模型。圖 3D 顯示這些模型也可以泛化到域外 9 位加法，它出現在 ∼1.3 · 10^20 個訓練 FLOPs（100M 引數）。

Jeff Dean等人新作：換個角度審視語言模型，規模不夠發現不了

本文討論了語言模型的突現能力，到目前為止，僅在一定的計算規模上才能觀察到有意義的效能。模型的這種突現能力可以跨越各種語言模型、任務型別和實驗場景。這種突現的存在意味著額外的規模擴充套件可以進一步擴大語言模型的能力範圍。這種能力是最近發現的語言模型擴充套件的結果，關於它們是如何出現的，以及更多的擴充套件是否會帶來更多的突現能力，可能是NLP領域未來重要的研究方向。

更多內容，請參考原論文。

從語言學角度看詞嵌入模型
2018-12-03
模型
換個角度帶你學C語言的基本資料型別
2022-06-01
C語言資料型別
關於C語言Switch語句，先學這些技巧夠不夠？
2020-10-22
C語言
CosyVoice: 多語言大規模語音生成模型的全棧解決方案
2024-10-18
模型全棧
Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級省記憶體
2024-05-25
RNN模型ORM記憶體
首個千億中文語言模型的使命，不止於規模與刷榜成績
2021-04-28
模型
為視覺語言多模態模型進行偏好最佳化
2024-07-16
視覺模型
深入瞭解視覺語言模型
2023-03-01
視覺模型
CVPR 2024｜FairCLIP：首個多模態醫療視覺語言大模型公平性研究
2024-04-08
AI視覺大模型
MMF的初步介紹：一個規範化的視覺-語言多模態任務框架
2021-06-07
視覺框架
換個角度看中國
2020-03-24
微信推出自研NLP大規模語言模型WeLM，現已開放API推動應用落地
2022-10-13
模型API
谷歌大神Jeff Dean領銜，萬字展望5大AI趨勢
2022-02-06
谷歌AI
出手即王炸？照片級真實度生成式世界模型，還獲得皮克斯和Jeff Dean投資
2024-12-20
世界模型
Jeff Dean與David Patterson：不思考體系結構的深度學習研究者不是好工程師
2019-03-03
深度學習工程師
大語言模型中上下文視窗理解和實現原理
2024-06-18
模型
作業系統：程式狀態轉換模擬，C語言實現
2020-10-02
作業系統C語言
01-大語言模型發展
2024-04-21
模型
大語言模型能用作世界模擬器嗎?
2024-06-16
模型
換個角度看原型鏈
2019-04-15
原型
讓CRM與BI完美融合?換個角度看其實不難！
2018-05-07
在本地跑一個大語言模型
2024-04-02
模型
大語言模型湧現欺騙能力
2024-06-05
模型
新型大語言模型的預訓練與後訓練正規化，谷歌的Gemma 2語言模型
2024-11-29
模型谷歌Gemma
新型大語言模型的預訓練與後訓練正規化，Meta的Llama 3.1語言模型
2024-11-30
模型
南轅北轍：大語言模型不會通向AGI？
2024-09-27
模型
大語言模型
2024-08-08
模型
語言大模型
2024-08-07
大模型
視覺語言模型的高效遷移學習
2024-10-30
視覺模型遷移學習
探索自然語言處理：語言模型的發展與應用
2024-03-13
自然語言處理模型
Jeff Dean執筆谷歌團隊2017年終總結，乾貨滿滿
2019-02-14
谷歌
換個角度，重新理解架構
2022-07-29
架構
c語言 - 交換兩個變數（不建立臨時變數）兩種方法
2020-11-02
C語言變數
Android 實現APP可切換多語言
2023-11-29
AndroidAPP
使用 Kotlin 語言開發 NeoForge 模組
2024-07-07
Kotlin
為什麼要轉行Java開發？十個理由夠不夠
2021-11-19
Java
nlp中的傳統語言模型與神經語言模型
2018-11-03
模型
新型大語言模型的預訓練與後訓練正規化，蘋果的AFM基礎語言模型
2024-11-28
模型蘋果

Jeff Dean等人新作：換個角度審視語言模型，規模不夠發現不了

相關文章