從80個模型中構建Scaling Law:華人博士生新作,思維鏈提出者力薦
机器之心發表於2024-05-24
在 AI 領域,擴充套件定律(Scaling laws)是理解 LM 擴充套件趨勢的強大工具,其為廣大研究者提供了一個準則,該定律在理解語言模型的效能如何隨規模變化提供了一個重要指導。但不幸的是,擴充套件分析在許多基準測試和後訓練研究中並不常見,因為大多數研究人員沒有計算資源來從頭開始構建擴充套件法則,並且開放模型的訓練尺度太少,無法進行可靠的擴充套件預測。來自史丹佛大學、多倫多大學等機構的研究者提出了一種替代觀察法:可觀察的擴充套件定律(Observational Scaling Laws),其將語言模型 (LM) 的功能與跨多個模型系列的下游效能聯絡起來,而不是像標準計算擴充套件規律那樣僅在單個系列內。該方法繞過了模型訓練,而是從基於大約 80 個公開可用的模型上建立擴充套件定律。但這又引出了另一個問題,從多個模型族構建單一擴充套件定律面臨巨大的挑戰,原因在於不同模型之間的訓練計算效率和能力存在很大差異。儘管如此,該研究表明,這些變化與一個簡單的、廣義的擴充套件定律是一致的,在這個定律中,語言模型效能是低維能力空間(low-dimensional capability space)的函式,而整個模型系列僅在將訓練計算轉換為能力的效率上有所不同。使用上述方法,該研究展示了許多其他型別的擴充套件研究具有驚人的可預測性,他們發現:一些湧現現象遵循平滑的 sigmoidal 行為,並且可以從小模型中預測;像 GPT-4 這樣的智慧體效能可以從更簡單的非智慧體基準中精確預測。此外,該研究還展示瞭如何預測後訓練干預措施(如思維鏈)對模型的影響。 研究表明,即使僅使用小型 sub-GPT-3 模型進行擬合,可觀察的擴充套件定律也能準確預測複雜現象,例如湧現能力、智慧體效能和後訓練方法的擴充套件(例如思維鏈)。- 論文地址:https://arxiv.org/pdf/2405.10938
- 論文標題:Observational Scaling Laws and the Predictability of Language Model Performance
論文作者共有三位,其中 Yangjun Ruan 為華人作者 ,他本科畢業於浙江大學。這篇論文也得到了思維鏈提出者 Jason Wei 的轉發評論,Jason Wei 表示,他非常喜歡這項研究。該研究觀察到目前存在數百個開放模型,這些模型擁有不同的規模和能力。不過研究者不能直接使用這些模型來計算擴充套件定律(因為模型族之間的訓練計算效率差異很大),但研究者希望存在一個適用於模型族的更通用的擴充套件定律。特別是,本文假設 LM 的下游效能是低維能力空間(例如自然語言理解、推理和程式碼生成)函式,模型族的變化僅僅在於它們將訓練計算轉換為這些能力的效率。如果這種關係成立,則意味著從低維能力到跨模型族的下游能力存在對數線性關係(這將允許研究者利用現有模型建立擴充套件定律)(圖 1)。該研究使用近 80 個公開可用的 LM 獲得了低成本、高解析度的擴充套件預測 (右)。透過對標準的 LM 基準分析(例如,Open LLM Leaderboard ),研究者發現了一些這樣的能力度量, 這些度量在模型家族內部與計算量之間存在擴充套件定律關係(R^2 > 0.9)(見下圖 3),並且在不同模型家族與下游指標上也存在這種關係。本文將這種擴充套件關係稱為可觀察的擴充套件定律。 最後,該研究表明使用可觀察的擴充套件定律成本低且簡單,因為有一些系列模型足以複製該研究的許多核心發現。透過這種方法,該研究發現只需評估 10-20 個模型就可以輕鬆地對基準和後訓練干預進行擴充套件預測。關於 LM 是否在某些計算閾值下具有不連續出現的「湧現」能力,以及這些能力是否可以使用小模型進行預測,一直存在著激烈的爭論。可觀察的擴充套件定律表明,其中一些現象遵循平滑的 S 形曲線,並且可以使用小型 sub Llama-2 7B 模型進行準確預測。該研究表明,正如 AgentBench 和 AgentBoard 所測量的,LM 作為智慧體的更高階、更復雜的能力可以使用可觀察的擴充套件定律來預測。透過可觀察的擴充套件定律,該研究僅使用較弱的模型(sub GPT-3.5)就能精確預測 GPT-4 的效能,並將程式設計能力確定為驅動智慧體效能的因素。該研究表明,即使將擴充套件定律擬合到較弱的模型(sub Llama-2 7B)上,擴充套件定律也可以可靠地預測後訓練方法的收益,例如思維鏈(Chain-of-Thought)、自洽性(Self-Consistency)等等。總的來說,該研究的貢獻是提出可觀察的擴充套件定律,利用了計算、簡單能力度量和複雜下游指標之間可預測的對數線性關係。研究者透過實驗驗證了這些擴充套件定律的有用性。此外,在論文釋出後,研究者還預註冊了對未來模型的預測,以測試擴充套件定律是否對當前的模型過擬合。關於實現過程和收集資料的相關程式碼已在 GitHub 上放出:GitHub 地址:https://github.com/ryoungj/ObsScaling下圖 4 展示了使用 PC(principal capability)度量的預測結果,以及基於訓練 FLOPs 來預測效能的基線結果。可以發現,即使僅僅使用效能不佳的模型,也可以使用本文的 PC 度量來準確預測這些能力。相反,使用訓練 FLOPs 會導致測試集上的外推效果和訓練集上的擬合效果明顯更差,正如更高的 MSE 值所示。這些差異可能是由不同模型系列的訓練 FLOPs 導致的。下圖 5 展示了使用 PC 度量後,可觀察的擴充套件定律的預測結果。可以發現,在兩個智慧體基準上,使用 PC 度量的留出模型(GPT-4 或 Claude-2)的效能可以從更弱效能(10% 以上的差距)的模型中準確地預測出。這表明 LMs 的更復雜智慧體能力與它們的基礎模型能力息息相關,並能夠基於後者進行預測。這也說明了隨著基幹 LMs 持續擴充套件規模,基於 LM 的智慧體能力具有良好的擴充套件特性。下圖 6a 展示了使用可觀察的擴充套件定律,CoT 和 SC(Self-Consistency,自洽性)的擴充套件預測結果。可以發現,使用 CoT 和 CoT+SC 但不使用(Naive)後訓練技術的更強、規模更大模型的效能可以從更弱、更小計算規模(比如模型大小和訓練 FLOPs)的模型中準確預測出。值得注意的是,兩種技術之間的擴充套件趨勢不同,其中與使用 CoT 的自洽性相比,CoT 表現出更明顯的擴充套件趨勢。