從80個模型中構建Scaling Law：華人博士生新作，思維鏈提出者力薦

机器之心發表於2024-05-24

原文網址 : https://www.jiqizhixin.com/articles/2024-05-24-8

在 AI 領域，擴充套件定律（Scaling laws）是理解 LM 擴充套件趨勢的強大工具，其為廣大研究者提供了一個準則，該定律在理解語言模型的效能如何隨規模變化提供了一個重要指導。

但不幸的是，擴充套件分析在許多基準測試和後訓練研究中並不常見，因為大多數研究人員沒有計算資源來從頭開始構建擴充套件法則，並且開放模型的訓練尺度太少，無法進行可靠的擴充套件預測。

來自史丹佛大學、多倫多大學等機構的研究者提出了一種替代觀察法：可觀察的擴充套件定律（Observational Scaling Laws），其將語言模型 (LM) 的功能與跨多個模型系列的下游效能聯絡起來，而不是像標準計算擴充套件規律那樣僅在單個系列內。

該方法繞過了模型訓練，而是從基於大約 80 個公開可用的模型上建立擴充套件定律。但這又引出了另一個問題，從多個模型族構建單一擴充套件定律面臨巨大的挑戰，原因在於不同模型之間的訓練計算效率和能力存在很大差異。

儘管如此，該研究表明，這些變化與一個簡單的、廣義的擴充套件定律是一致的，在這個定律中，語言模型效能是低維能力空間（low-dimensional capability space）的函式，而整個模型系列僅在將訓練計算轉換為能力的效率上有所不同。

使用上述方法，該研究展示了許多其他型別的擴充套件研究具有驚人的可預測性，他們發現：一些湧現現象遵循平滑的 sigmoidal 行為，並且可以從小模型中預測；像 GPT-4 這樣的智慧體效能可以從更簡單的非智慧體基準中精確預測。此外，該研究還展示瞭如何預測後訓練干預措施（如思維鏈）對模型的影響。

研究表明，即使僅使用小型 sub-GPT-3 模型進行擬合，可觀察的擴充套件定律也能準確預測複雜現象，例如湧現能力、智慧體效能和後訓練方法的擴充套件（例如思維鏈）。

論文地址：https://arxiv.org/pdf/2405.10938
論文標題：Observational Scaling Laws and the Predictability of Language Model Performance

論文作者共有三位，其中 Yangjun Ruan 為華人作者，他本科畢業於浙江大學。

這篇論文也得到了思維鏈提出者 Jason Wei 的轉發評論，Jason Wei 表示，他非常喜歡這項研究。

論文介紹

該研究觀察到目前存在數百個開放模型，這些模型擁有不同的規模和能力。不過研究者不能直接使用這些模型來計算擴充套件定律（因為模型族之間的訓練計算效率差異很大），但研究者希望存在一個適用於模型族的更通用的擴充套件定律。

特別是，本文假設 LM 的下游效能是低維能力空間（例如自然語言理解、推理和程式碼生成）函式，模型族的變化僅僅在於它們將訓練計算轉換為這些能力的效率。如果這種關係成立，則意味著從低維能力到跨模型族的下游能力存在對數線性關係（這將允許研究者利用現有模型建立擴充套件定律）（圖 1）。該研究使用近 80 個公開可用的 LM 獲得了低成本、高解析度的擴充套件預測 (右)。

透過對標準的 LM 基準分析（例如，Open LLM Leaderboard ），研究者發現了一些這樣的能力度量，這些度量在模型家族內部與計算量之間存在擴充套件定律關係（R^2 > 0.9）（見下圖 3），並且在不同模型家族與下游指標上也存在這種關係。本文將這種擴充套件關係稱為可觀察的擴充套件定律。

最後，該研究表明使用可觀察的擴充套件定律成本低且簡單，因為有一些系列模型足以複製該研究的許多核心發現。透過這種方法，該研究發現只需評估 10-20 個模型就可以輕鬆地對基準和後訓練干預進行擴充套件預測。

湧現能力

關於 LM 是否在某些計算閾值下具有不連續出現的「湧現」能力，以及這些能力是否可以使用小模型進行預測，一直存在著激烈的爭論。可觀察的擴充套件定律表明，其中一些現象遵循平滑的 S 形曲線，並且可以使用小型 sub Llama-2 7B 模型進行準確預測。

智慧體能力

該研究表明，正如 AgentBench 和 AgentBoard 所測量的，LM 作為智慧體的更高階、更復雜的能力可以使用可觀察的擴充套件定律來預測。透過可觀察的擴充套件定律，該研究僅使用較弱的模型（sub GPT-3.5）就能精確預測 GPT-4 的效能，並將程式設計能力確定為驅動智慧體效能的因素。

後訓練方法擴充套件

該研究表明，即使將擴充套件定律擬合到較弱的模型（sub Llama-2 7B）上，擴充套件定律也可以可靠地預測後訓練方法的收益，例如思維鏈（Chain-of-Thought）、自洽性（Self-Consistency）等等。

總的來說，該研究的貢獻是提出可觀察的擴充套件定律，利用了計算、簡單能力度量和複雜下游指標之間可預測的對數線性關係。

驗證可觀察的擴充套件定律

研究者透過實驗驗證了這些擴充套件定律的有用性。此外，在論文釋出後，研究者還預註冊了對未來模型的預測，以測試擴充套件定律是否對當前的模型過擬合。關於實現過程和收集資料的相關程式碼已在 GitHub 上放出：

GitHub 地址：https://github.com/ryoungj/ObsScaling

湧現能力的可預測性

下圖 4 展示了使用 PC（principal capability）度量的預測結果，以及基於訓練 FLOPs 來預測效能的基線結果。可以發現，即使僅僅使用效能不佳的模型，也可以使用本文的 PC 度量來準確預測這些能力。

相反，使用訓練 FLOPs 會導致測試集上的外推效果和訓練集上的擬合效果明顯更差，正如更高的 MSE 值所示。這些差異可能是由不同模型系列的訓練 FLOPs 導致的。

智慧體能力可預測性

下圖 5 展示了使用 PC 度量後，可觀察的擴充套件定律的預測結果。可以發現，在兩個智慧體基準上，使用 PC 度量的留出模型（GPT-4 或 Claude-2）的效能可以從更弱效能（10% 以上的差距）的模型中準確地預測出。

這表明 LMs 的更復雜智慧體能力與它們的基礎模型能力息息相關，並能夠基於後者進行預測。這也說明了隨著基幹 LMs 持續擴充套件規模，基於 LM 的智慧體能力具有良好的擴充套件特性。

後訓練技術的影響

下圖 6a 展示了使用可觀察的擴充套件定律，CoT 和 SC（Self-Consistency，自洽性）的擴充套件預測結果。可以發現，使用 CoT 和 CoT+SC 但不使用（Naive）後訓練技術的更強、規模更大模型的效能可以從更弱、更小計算規模（比如模型大小和訓練 FLOPs）的模型中準確預測出。

值得注意的是，兩種技術之間的擴充套件趨勢不同，其中與使用 CoT 的自洽性相比，CoT 表現出更明顯的擴充套件趨勢。

更多技術細節請參閱原論文。

從80個模型中構建Scaling Law：華人博士生新作，思維鏈提出者力薦

相關文章