GPT-5湧現能力可預測?UC伯克利僅使用當前模型檢查點預測未來模型
机器之心發表於2024-11-30
LLM 規模擴充套件的一個根本性挑戰是缺乏對湧現能力的理解。特別是,語言模型預訓練損失是高度可預測的。然而,下游能力的可預測性要差得多,有時甚至會出現湧現跳躍(emergent jump),這使得預測未來模型的能力變得具有挑戰性。最近,來自加州大學伯克利分校(UC 伯克利)的研究團隊提出湧現預測的任務:是否可以僅透過使用 GPT-N 模型的檢查點(即當前模型的狀態)來預測 GPT-N+1(未來模型)是否會出現湧現能力? 並在論文《Predicting Emergent Capabilities by Finetuning》中給出了答案。- 論文標題:Predicting Emergent Capabilities by Finetuning
- 論文地址:https://arxiv.org/pdf/2411.16035
值得注意的是,這篇論文的作者包括強化學習大牛 Sergey Levine。該研究擬合了一個引數函式 —— 湧現定律,模擬了湧現點如何隨資料量的變化而變化。為了進行驗證,該研究使用四個標準 NLP 基準 ——MMLU、GSM8K、CommonsenseQA 和 CoLA。透過僅使用小規模 LLM 來擬合湧現定律,該研究能夠準確預測湧現點。最後,該研究提出了兩個實際的湧現案例研究,表明該研究提出的湧現定律可用於預測更復雜的能力。思維鏈提出者 Jason Wei 稱讚:「這是一篇非常聰明的論文,可以預測預訓練模型的下游效能,非常有價值。因為可以使用它來預測和證明對下一個大模型訓練執行的資本投資的合理性。」作者首先提出了湧現預測,並將湧現預測定義為僅使用湧現前的模型檢查點,來識別發生湧現的擴充套件點的問題。簡單理解就是,對於給定的 LLM,其在特定任務上具有隨機少樣本準確率,我們能否預測這個 LLM 在哪個擴充套件點(例如,預訓練損失)上效能將超越隨機表現?帶著這一疑問,作者發現了這樣一個見解:在給定的任務上微調 LLM, 可以將湧現發生的臨界點向著能力較低的模型移動 ,這意味著,透過微調,模型在湧現能力出現的時間點可以提前,這對於理解模型擴充套件和能力躍升的過程非常重要。微調所使用的資料量,會調節這種臨界點移動的幅度。 圖 3(左)繪製了每個模型在 GSM8K 和 MMLU 上的少樣本和微調效能與預訓練損失的關係。可以看到,微調後的模型遵循與少樣本設定類似的 ReLU 形狀。此外,在相同的預訓練損失下,所有模型大小的轉變都是一致的,這表明預訓練損失可以作為少樣本和微調設定中有效的獨立變數。作者還發現出現湧現偏移受微調資料量的影響。圖 3(右)繪製了 3B 模型檢查點在完整資料子集上進行微調後的效能。在 MMLU 和 GSM8K 上,隨著微調資料量的增加,湧現點進一步向能力較弱的 LLM 偏移。因此,微調資料量可以調節湧現偏移。為了將這一洞察付諸實踐,作者針對不同數量的資料對 LLM 進行了微調,並擬合了一個引數函式(即湧現定律),該函式模擬了湧現點如何隨資料量的變化而變化。然後,根據這一發現可以推斷出在少樣本設定中關於湧現的預測。作者利用四個標準 NLP 基準來驗證湧現定律,結果發現湧現定律可以提前準確預測湧現點,最多可提前 4 倍 FLOP。接下來作者進行了這樣一個實驗,就預訓練 FLOPS 而言,可以提前多久成功做出預測。結果發現,可以提前預測湧現的程度在某種程度上取決於任務。在 MMLU 和 GSM8K 上,可以分別提前最多 4.3 倍和 3.9 倍的 FLOPS 湧現出現。然而,在 CommonsenseQA 和 CoLA 上,分別只能提前預測 1.9 倍和 2.3 倍。最後,作者還進行了真實世界的案例研究:1)低成本評估預訓練資料質量(左)。2)使用困難 APPS 編碼基準預測更復雜的能力,更接近未來前沿模型的能力(右)。