LLaMA-2-7B數學能力上限已達97.7%?Xwin-Math利用合成資料解鎖潛力
机器之心發表於2024-03-14
數學問題解決能力一直被視為衡量語言模型智慧水平的重要指標。通常只有規模極大的模型或經過大量數學相關預訓練的模型才能有機會在數學問題上表現出色。近日,一項由 Swin-Transformer 團隊打造,來自西安交通大學、中國科學技術大學、清華大學和微軟亞洲研究院的學者共同完成的研究工作 Xwin 顛覆了這一認知,揭示了通用預訓練下 7B(即 70 億引數)規模的語言模型(LLaMA-2-7B)在數學問題解決方面已經展現出較強的潛力,並可使用基於合成資料的有監督微調方法促使模型愈發穩定地將數學能力激發出來。這項研究釋出在 arXiv 上,題為《Common 7B Language Models Already Possess Strong Math Capabilities》。- 論文連結:https://arxiv.org/pdf/2403.04706.pdf
- 程式碼連結:https://github.com/Xwin-LM/Xwin-LM
研究團隊首先僅使用 7.5K 資料,對 LLaMA-2-7B 模型指令微調,進而測評模型在 GSM8K 和 MATH 的表現。實驗結果表明,當對每一個測試集中的問題從 256 個生成的答案中選擇最佳答案時,測試準確率可分別高達 97.7% 和 72.0%,這一結果說明即使是通用預訓練下 7B 量級的小模型,也具備生成優質回答的巨大潛力,這一發現挑戰了以往的觀點,即強大的數學推理潛力並非僅限於大規模和數學相關預訓練模型。然而研究也指出,儘管已具備強大的數學推理潛力,但當前語言模型的主要問題是難以一致地激發其內在的數學能力。例如,在前面的實驗中如果只考慮每個問題的一次生成的答案,那麼在 GSM8K 和 MATH 基準測試上的準確率會分別降至 49.5% 和 7.9%。這體現出模型數學能力的不穩定性問題。為了解決這一問題,研究團隊採用了擴大有監督微調(SFT)資料集的方法,並發現隨著 SFT 資料的增多,模型生成正確答案的可靠性被顯著提升。研究中還提到,透過使用合成資料,可以有效地擴大 SFT 資料集,而且這種方法幾乎與真實資料一樣有效。研究團隊利用 GPT-4 Turbo API 生成了合成的數學問題與解題過程,並透過簡單的驗證提示詞來確保問題的質量。透過這種方法,團隊成功地將 SFT 資料集從 7.5K 擴充套件到約一百萬樣本,實現了近乎完美的縮放定律(Scaling Law)。最終獲得的 Xwin-Math-7B 模型在 GSM8K 和 MATH 上分別達到了 82.6% 和 40.6% 的準確率,大幅超越此前的 SOTA 模型,甚至可超越一些 70B 量級模型,實現越級提升。而 Xwin-Math-70B 模型在 MATH 評測集上的結果可達 52.8%,顯著超越了 GPT-4 的早期版本。這是基於 LLaMA 系列基礎模型的研究第一次在 MATH 上超越 GPT-4。研究人員還定義了 Pass@N 和 PassRatio@N 評測指標,意圖分別測評模型的 N 次輸出中,是否能夠輸出正確答案(表示模型潛在的數學能力),以及正確答案的所佔比例(表示模型數學能力的穩定性)。當 SFT 資料量較小時,模型的 Pass@256 已經很高,進一步擴大 SFT 資料規模後,模型的 Pass@256 提升極小,而 PassRatio@256 則獲得顯著增長。這表明基於合成資料的有監督微調是提升模型數學能力穩定性的有效方式。此外,研究還提供了對不同推理複雜性和錯誤型別下擴充套件行為的洞察。例如,隨著 SFT 資料集規模的增加,模型在解決數學問題時的準確率遵循與推理步驟數量相關的冪律關係。透過增加訓練樣本中長推理步驟的比例,可以顯著提高模型解決難題的準確率。同時,研究還發現,計算錯誤比推理錯誤更容易被緩解。在表現模型數學推理泛化能力的匈牙利高中數學考試中,Xwin-Math 也拿到了 65% 的分數,僅次於 GPT-4。這表明研究中合成資料的方式並沒有顯著地過擬合到評測集中,展現出良好的泛化能力。這項研究不僅展示了合成資料在擴充套件 SFT 資料方面的有效性,而且為大型語言模型在數學推理能力方面的研究提供了新的視角。研究團隊表示,他們的工作為未來在這一領域的探索和進步奠定了基礎,並期待能夠推動人工智慧在數學問題解決方面取得更大的突破。隨著人工智慧技術的不斷進步,我們有理由期待 AI 在數學領域的表現將更加出色,為人類解決複雜數學問題提供更多幫助。文章還涉及資料合成方法的消融實驗和其他評測指標的結果,詳細內容請參閱全文。