ACL 2024 | 對25個開閉源模型數學評測,GPT-3.5-Turbo才勉強及格

机器之心發表於2024-07-18
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者來自香港大學和騰訊。作者列表:李沁桐,Leyang Cui,趙學亮,孔令鵬,Wei Bi。其中,第一作者李沁桐是香港大學自然語言處理實驗室的博士生,研究方向涉及自然語言生成和文字推理,與博士生趙學亮共同師從孔令鵬教授。Leyang Cui 和 Wei Bi 是騰訊高階研究員。

前言

大型語言模型(LLMs)在解決問題方面的非凡能力日益顯現。最近,一個值得關注的現象是,這些模型在多項數學推理的基準測試中獲得了驚人的成績。以 GPT-4 為例,在高難度小學應用題測試集 GSM8K [1] 中表現優異,準確率高達 90% 以上。同時,許多開源模型也展現出了不俗的實力,準確率超過 80%。

然而在使用中我們經常會發現,當數學問題稍作改變時,LLMs 可能會出現一些低階錯誤,如下圖所示:

圖片

圖 1:GPT-3.5-Turbo 正確解答了一個數學問題(左),但當在原問題的基礎上新增一個限制條件(右)時,Turbo 因為沒有正確區分 “離開” 和 “返回” 的方向,而誤用運算子出錯。

我們不禁要問:大型語言模型是否真的掌握了數學知識的精髓?它們是如何在這些測試中取得如此高分的?難道僅僅是因為模仿了大量訓練資料中的表面推理模式嗎?LLMs 是否真正理解數學概念,仍是一個值得探討的問題。

為了探究這一問題,本文作者設計了一個評估基準 GSM-Plus。這個測試旨在對一個問題進行 8 種不同的細粒度數學變換,系統地評估當前 LLMs 在處理基礎數學應用題時的能力。在這一全新的基準測試中,論文對 25 個不同的 LLMs 進行了嚴格評測,包括業界的開源和閉源模型。

實驗結果表明,對於大多數 LLMs 來說,GSM-Plus 是一個具有挑戰性的基準測試。即便是在 GSM8K 上,GPT-3.5-Turbo 已能取得 73.62% 的準確率,但在 GSM-Plus 上僅能達到 61.19% 的準確率。本文工作已經以4,4, 4.5分被ACL2024錄用。

圖片

  • 論文標題:GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers
  • 論文地址:https://arxiv.org/pdf/2402.19255
  • 論文主頁:https://qtli.github.io/GSM-Plus/

背景

數學推理是人工智慧發展的重要證明。它需要嚴格的問題理解、策略制定和計算執行能力。在過去幾年中,諸多公開資料集被用於評估人工智慧系統的數學推理能力。早期的數學資料集側重於基於方程的數學問題。隨後,更難的資料集被引入,涵蓋了小學、高中和大學水平的數學問題。

隨著評測資料難度的不斷提高,LLMs 的發展也變得十分迅速。為了提升 LLMs 在數學領域的效能,可以透過在多樣化的任務資料上進行訓練,使用監督微調(SFT)來快速幫助 LLMs 適應到數學領域。在推理階段,透過設計巧妙的輸入提示(例如,Chain-of-Thought 和 Program-of-Thought)也可以有效激發 LLMs 的數學能力。

對於大多數 LLMs 而言,面對高中及以上的數學問題仍有很大的提升空間。然而,在小學數學領域,LLMs 已經展現出巨大的潛力。這讓我們不禁思考,在現實環境中 LLMs 是否能依然保持高效能?

對抗性評測資料集 GSM-Plus

本研究旨在推出一個綜合性基準測試 GSM-Plus,以系統地檢驗 LLMs 在解決基礎數學問題時的魯棒性。受 Polya 原則 [2] 中解決數學問題的能力分類法的啟發,本文確定了五個方面的指導原則用於構建 GSM-Plus 資料集:

為了便於理解,此處以「 珍妮特的鴨子每天下 16 個蛋。她每天早上吃三個蛋作為早餐,並且用四個蛋烤鬆餅給她的朋友。她每天以每個鴨蛋 2 美元的價格在農貿市場出售剩餘的蛋。她每天在農貿市場上賺多少美元?」問題為例。

(1)數值變化:指改變數值資料或其型別,本文定義了三個子類別:

  • 數值替換:在同等數位和型別下替換數值,例如將問題中的 “16” 替換為 “20”。
  • 數位擴充套件:增加數值的位數,例如將 “16” 替換為 “1600”。
  • 整數 - 小數 - 分數轉換:將整數更換為小數或分數,例如將 “2” 轉換為 “2.5”。

(2)算術變化:指對數學問題引入額外的運算或者進行反轉,但只限於加、減、乘、除運算:

  • 運算擴充:在原問題基礎上增加限制條件。例如,增加新條件“她每天還會使用兩個雞蛋自制發膜”。
  • 運算逆轉:將原問題的某個已知條件轉換為 GSM-Plus 變體問題的待求解變數。例如,圖 2 中原問題的陳述 “每個鴨蛋 2 美元” 轉換為新問題的疑問句 “每個鴨蛋的價格是多少?”,而原問題疑問句” 每天在農貿市場上賺多少美元?” 則轉換為新問題的已知條件” 她每天在農貿市場賺 18 美元”

(3)問題理解:指在意思不變的前提下,用不同詞句重新表述數學問題,如” 珍妮特養了一群鴨子,這些鴨子每天產 16 個鴨蛋。她早餐消耗三個鴨蛋,然後消耗四個鴨蛋烤鬆餅給她的朋友。珍妮特在農貿市場上以每個新鮮的鴨蛋 2 美元的價格將剩餘的鴨蛋全部出售。她每天透過在農貿市場出售鴨蛋賺多少錢?”

(4)干擾項插入:指將與主題相關、包含數值但對求解無用的句子插入到原問題中,如” 珍妮特還想用兩個鴨蛋餵養她的寵物鸚鵡,所幸她的鄰居每天送她兩個鴨蛋用於餵養鸚鵡”。

(5)批判性思維:側重於當數學問題缺乏必要條件時,LLMs 是否具有提問或懷疑能力,例如” 珍妮特的鴨子每天都會下蛋。她每天早上吃三個蛋作為早餐,並且每天用四個蛋烤鬆餅給她的朋友。她每天以每個鴨蛋 2 美元的價格在農貿市場出售剩餘的蛋。她每天在農貿市場上賺多少美元?”。

基於 GSM8K 的 1,319 個測試問題,本文為每個問題建立了八個變體,從而生成了包含 10,552 個問題變體的 GSM-Plus 資料集(本文還提供了一個包含 2,400 個問題變體的測試子集,以便快速評測)。透過使用每個問題及其八個變體測試 LLMs,GSM-Plus 可以幫助研究人員全面評估 LLMs 在解決數學問題中的魯棒性。

圖片

圖 2:基於一個種子數學題,使用 5 個角度的 8 種擾動生成問題變體。主要修改內容以綠色標出。

透過使用 GSM-Plus 評估 25 個不同規模、不同預訓練方式、不同任務微調的 LLMs,以及組合 4 種常用的提示技術,本文發現 LLMs 整體上可以準確解決 GSM8K 問題,但在回答 GSM-Plus 中的變體問題時會遇到明顯困難。主要發現如下:

  • 任務特定的最佳化,即在數學相關的資料集上微調,通常可以提高下游任務準確性;而魯棒性的高低更多地取決於基礎模型和微調資料集的選擇。
  • 當需要 “批判性思維”、涉及 “算術變化” 和 “干擾因素插入” 時,LLMs 的效能會迅速下降;但對於 “數值變化” 和 “問題理解” 的擾動,LLMs 的效能比較穩定。
  • 先前的提示技術(例如,CoT,PoT,LtM 和 Complexity-based CoT)對於魯棒性增強作用不顯著,特別是對於 “算術變化 “和” 批判性思維”。在前人工作的基礎上,本文進一步探索了一種組合提示方法,透過迭代生成和驗證每個推理思維,可以同時提升 LLMs 在 GSM8K 和 GSM-Plus 上的效能。

GSM-Plus 特點

  1. 質量保證:採用兩階段生成 GSM-Plus 評測題。首先,利用 GPT-4 的問題改寫能力生成問題變體,然後為這些變體生成候選答案;為確保資料質量,所有由 GPT-4 生成的問題變體和答案都要經過人工標註團隊進行嚴格檢查。人工標註團隊修正了 18.85% 的 GPT-4 改寫的問題。
  2. 細粒度評估:對於主流評測資料集 GSM8K 的每個測試題,GSM-Plus 提供了 8 個擾動方向的變體問題,充分測試了在不同上下文下,大模型靈活解決數學應用題的能力。
  3. 挑戰性:相比於 GSM8K,GSM-Plus 的問題變體更具挑戰性,所有參與評估的 LLMs 的效能都顯著下降。在接下來的分析中,本文會特別分析 LLMs 在不同型別擾動下的解題魯棒性。

與其他小學數學應用題資料的比較

圖片

表 1:不同顏色代表不同的擾動型別:圖片數值替換,圖片數位擴充套件,圖片整數 - 小數 - 分數轉換,圖片運算擴充,圖片運算逆轉,圖片問題理解,圖片干擾項插入,圖片批判性思維。

從上表可以看出,先前的研究使用不同的擾動來檢驗數學推理的魯棒性,但是評估設定僅涵蓋部分擾動型別,且大多是透過自動方法構建引入擾動,質量難以保證。相比之下,GSM-Plus 使用八種不同的數學推理技能對單一問題進行擾動,覆蓋面更全,且經過嚴格的質量控制。

實驗分析

評測指標

  • 效能下降率(PDR):與原問題相比,LLMs 在擾動後的問題上的效能下降程度。
  • 同時解決的問題對的百分比(ASP):原問題及其對應的某個問題變體均被 LLMs 正確解答的比例。

整體效能

如下表所示,相較於 GSM8K,大多數 LLMs 在 GSM-Plus 上的效能都大幅下降。

GPT-4 表現出最高的魯棒性,其 PDR 最小僅為 8.23%。而 CodeLlama 的 PDR 最大,其中 7B、13B 和 34B 的模型分別為 40.56%、39.71%和 34.27%,超過了其基座模型 LLaMA-2-7B(39.49%),以及在其上微調的數學 SFT 模型,如 SEGO-7B(34.91%)。這表明僅使用程式語言推理對於擾動是很脆弱的。

在面對數學擾動時,模型規模越大,效能越穩定。雖然監督微調可以提高在下游任務上的準確率,但並不能顯著增強模型對於擾動的魯棒性(即更低的 PDR)。監督微調的資料對於魯棒性非常重要。同樣是基於 LLaMA-2 進行微調,使用不同的資料,會導致模型的準確率和魯棒性具有較大差異。

圖片

表 2:整體效能

細粒度實驗分析

不同擾動下 LLMs 的效能表現

本文進一步評估了 LLMs 在 8 種問題變體下的效能穩定性。與人類基線相比,對於 “批判性思維”(紫色)、“運算擴充” 和 “運算逆轉”(藍色)、“干擾項插入”(粉色)以及 “整數 - 小數 - 分數轉換”(橙色)擾動,LLMs 效能下降明顯。而對於 “數值替換” 和 “問題理解”,LLMs 的效能穩定,甚至有輕微的提升。

圖片

圖 3:細粒度實驗分析

數學推理能力的遷移性

前面的分析主要基於資料集整體。接下來,本文根據數學題是否被正確回答將 2 個資料集分割,分析當 LLMs 成功解決 GSM8K 問題時,是否意味著正確回答 GSM-Plus 變體問題的可能性變高(即高 ASP 值),反之亦然。如果這種斷言成立,可以認為 LLMs 在這類特定的數學題子集上效能穩定,即使在整個資料集上並非如此。在實驗設定中,每個 GSM8K 問題及其在 GSM-Plus 中的變體轉化為 8 個問題對,結果如圖 4 所示。

圖片

圖 4:LLMs 在 GSM8K 和 GSM-Plus 問題對之間的推理可遷移性。紫色(均正確)和藍色(均錯誤)的條形圖表示一致的模型行為,而紅色(GSM8K 正確 & GSM-Plus 錯誤)和黃色(GSM8K 錯誤 & GSM-Plus 正確)的條形圖則表示不一致的模型行為。紫色和紅色條形圖的高度和表示 LLMs 正確解決 GSM8K 問題的數量。

紅色條形圖的存在(LLMs 正確回答原問題,但未解決變體問題),表明大多數模型的效能可遷移性有限。雖然 LLMs 在 GSM8K 問題上效能有所差異(紫色和紅色條形圖的高度),但效能可遷移性相似(紅色條形圖的高度)。這意味著現有的基準測試無法準確評估模型在數學推理方面的真實能力。高準確率並不等價於強大的推理魯棒性。

提示對於 LLMs 效能魯棒性的幫助

先前的工作表明,良好的提示指令對於激發語言模型的數學能力十分重要。本文選擇了 4 個代表性模型,並測試它們在不同的提示指令下解題的表現。如下圖所示,當面對干擾時,使用複雜的示例作為上下文演示(Complexity-based CoT)時,LLMs 表現最為穩定;相比之下,僅使用程式語言表示中間推理(Program-of-Thought)時,LLMs 更容易受到干擾的影響。總體而言,這些提示技巧都不足以讓 LLMs 在 GSM-Plus 上維持與 GSM8K 相同的效能。

圖片

圖 5:提示對於 LLMs 效能魯棒性的影響

組合提示是否有效?

如何基於現有的提示方法增強 LLMs 的魯棒性呢?本文發現 LLMs 在解題過程中常常會忽略重要條件或出現計算錯誤。為此,本文探索了一種組合提示方法 Comp。該方法首先提示 LLMs 提取問題中與數值相關的必要條件(Prompt1)。接著,根據問題和關鍵條件,指示 LLMs 迭代地生成推理目標(Prompt2)和計算目標(Prompt3),並讓其為生成的歷史解題步驟提供反饋,以確定是否獲得了最終答案(Prompt4)。具體實現如圖 6 所示。

圖片

圖 6:Comp 迭代提示方式的示意圖

可以看出,Comp 透過迭代生成和自我驗證可以改善 LLMs 在各種問題變化型別下的效能,但它仍然無法彌合 LLMs 在標準測試集和對抗性測試集之間的效能差距。該研究期待未來有更多的方法進一步提升模型的魯棒性,推動 LLMs 在數學推理領域的進一步發展。

圖片

表 3:Comp 迭代提示的效能

生成示例

下圖展示了在 GSM8K 問題和基於 “運算逆轉” 的 GSM-Plus 改寫問題上,不同提示技術下 GPT-3.5-Turbo 的表現。雖然所有提示都可以激發 Turbo 準確回答 GSM8K 問題,但只有 Comp 能夠幫助 Turbo 在 GSM-Plus 變體問題上生成正確的答案。

圖片

圖 7:在不同提示設定下,模型回答數學問題的示例

結語

本文介紹了一個對抗性小學數學應用題評測集 GSM-Plus,旨在系統分析 LLMs 在解決數學應用題中的魯棒性。實驗分析發現,大多數 LLMs 在面臨擾動時,效能相較於它們在標準基準上的表現顯著下降,遠遠達不到人類的表現水平。研究者期望本文的工作能夠促進更多未來研究,包括但不限於:(1)對 LLMs 的數學技能進行系統評估;(2)構建能夠靈活進行數學推理的模型。

參考連結
[1] Cobbe, Karl, et al. "Training verifiers to solve math word problems." arXiv preprint arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k
[2] George Polya. 2004. How to solve it: A new aspect of mathematical method, volume 85. Princeton university press.

相關文章