AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文標題:GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers 論文地址:https://arxiv.org/pdf/2402.19255 論文主頁:https://qtli.github.io/GSM-Plus/
數值替換:在同等數位和型別下替換數值,例如將問題中的 “16” 替換為 “20”。 數位擴充套件:增加數值的位數,例如將 “16” 替換為 “1600”。 整數 - 小數 - 分數轉換:將整數更換為小數或分數,例如將 “2” 轉換為 “2.5”。
運算擴充:在原問題基礎上增加限制條件。例如,增加新條件“她每天還會使用兩個雞蛋自制發膜”。 運算逆轉:將原問題的某個已知條件轉換為 GSM-Plus 變體問題的待求解變數。例如,圖 2 中原問題的陳述 “每個鴨蛋 2 美元” 轉換為新問題的疑問句 “每個鴨蛋的價格是多少?”,而原問題疑問句” 每天在農貿市場上賺多少美元?” 則轉換為新問題的已知條件” 她每天在農貿市場賺 18 美元”
任務特定的最佳化,即在數學相關的資料集上微調,通常可以提高下游任務準確性;而魯棒性的高低更多地取決於基礎模型和微調資料集的選擇。 當需要 “批判性思維”、涉及 “算術變化” 和 “干擾因素插入” 時,LLMs 的效能會迅速下降;但對於 “數值變化” 和 “問題理解” 的擾動,LLMs 的效能比較穩定。 先前的提示技術(例如,CoT,PoT,LtM 和 Complexity-based CoT)對於魯棒性增強作用不顯著,特別是對於 “算術變化 “和” 批判性思維”。在前人工作的基礎上,本文進一步探索了一種組合提示方法,透過迭代生成和驗證每個推理思維,可以同時提升 LLMs 在 GSM8K 和 GSM-Plus 上的效能。
質量保證:採用兩階段生成 GSM-Plus 評測題。首先,利用 GPT-4 的問題改寫能力生成問題變體,然後為這些變體生成候選答案;為確保資料質量,所有由 GPT-4 生成的問題變體和答案都要經過人工標註團隊進行嚴格檢查。人工標註團隊修正了 18.85% 的 GPT-4 改寫的問題。 細粒度評估:對於主流評測資料集 GSM8K 的每個測試題,GSM-Plus 提供了 8 個擾動方向的變體問題,充分測試了在不同上下文下,大模型靈活解決數學應用題的能力。 挑戰性:相比於 GSM8K,GSM-Plus 的問題變體更具挑戰性,所有參與評估的 LLMs 的效能都顯著下降。在接下來的分析中,本文會特別分析 LLMs 在不同型別擾動下的解題魯棒性。
效能下降率(PDR):與原問題相比,LLMs 在擾動後的問題上的效能下降程度。 同時解決的問題對的百分比(ASP):原問題及其對應的某個問題變體均被 LLMs 正確解答的比例。