答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思

机器之心發表於2024-06-17
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者和通訊作者均來自上海演算法創新研究院。其中,通訊作者李志宇博士畢業於中國人民大學計算機專業,並曾在阿里巴巴、小紅書等網際網路公司從事演算法落地與研究工作,曾參與了包括千億級商品知識圖譜、使用者圖譜和輿情圖譜的研發工作,累計發表論文四十餘篇。李志宇當前在上海演算法創新研究院大模型部門(由熊飛宇博士帶領)負責整體的技術研發工作。研究院主頁:https://www.iaar.ac.cn/

大語言模型(LLM)的迅速發展,引發了關於如何評估其公平性和可靠性的熱議。

儘管現有的評估框架如 OpenCompass、LM Eval Harness 和 UltraEval 以及各種 Benchmark 推動了行業進步,但專注於這些評估框架核心元件可信度或可靠性度量的團隊卻為數不多。

近日,上海演算法創新研究院和中國人民大學的研究團隊釋出了一篇名為《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的論文。這篇論文深入分析了LLM評估框架的整體流程,重點評估了答案抽取器元件在大模型評估中的可靠性和一致性。
圖片
  • 論文地址:
    https://arxiv.org/abs/2405.11874
  • Github連結:
    https://github.com/IAAR-Shanghai/xFinder
  • Huggingface連結:
    https://huggingface.co/collections/IAAR-Shanghai/xfinder-664b7b21e94e9a93f25a8412

當前的評估框架主要依賴正規表示式(RegEx)來抽取答案,但這種方法存在明顯缺陷。人工複核結果顯示,其最佳抽取正確率僅為74.38%,評估結果極不可靠。

此外,RegEx方法容易被有意或無意地擬合,增加了「作弊」的可能性,從而影響評估結果的可靠性和一致性。下圖展示了LLM評估框架中RegEx元件抽取錯誤的情況。
圖片
為了有效解決這一問題,上海演算法創新研究院和中國人民大學的研究團隊開發了一個名為 xFinder 的新模型,用於更準確地抽取關鍵答案。

xFinder 具有以下優勢:

(1)不要求特定格式的答案輸出,具備較強的答案抽取魯棒性,抽取準確率高達95.18%,顯著優於目前最佳LLM評估框架中的RegEx方法。

(2)支援多樣化題型,能夠將字母選擇題自動轉換為問答題,並支援不同題型的混排評估,從而降低測試者擬合題型的可能性。

方法介紹
圖片
xFinder的實現過程主要包括LLM響應內容的生成、KAF資料集的標註和xFinder的訓練。為了實現 xFinder 模型的有效訓練,團隊構建了一個專門的資料集——關鍵答案查詢(KAF)資料集。該資料集包含 26,900 個訓練樣本、4,961 個測試樣本和 4,482 個泛化樣本,涵蓋多種評估任務。

大語言模型響應生成
首先,研究團隊從現有的主要評估基準和報告中挑選了多個典型的評估任務資料集,這些任務被分類為四種型別:字母選項任務、短文字選項任務、分類標籤任務和數學任務。

接著,團隊使用不同系列的 LLM(如 Qwen、InternLM、ChatGLM 等)生成這些任務的資料對。透過多種 LLM,團隊生成了豐富多樣的資料對,為 xFinder 模型的訓練提供了充分的資料支援。

自動標註與人工複核
團隊使用了一種策略,從 LLM 響應中提取關鍵答案並將其用作標籤,以構建高質量的 KAF 資料集。為提高訓練集的標註效率,他們採用了半自動化流程,透過不同提示使用 GPT-4 生成了兩組標註,並利用自一致性策略篩選出標註不一致的項和所有數學問題,提交給人工複查。為了確保測試集和泛化集的有效性和可靠性,所有標籤都經過兩輪手動註釋。

訓練 xFinder
為了增強 KAF 資料集的多樣性和模型的泛化能力,研究團隊採用了兩種資料增強策略:

(1)模擬 LLM 響應:對 KAF 訓練集中 50% 的字母選項問題進行修改,增加或刪除一到兩個選項,以模擬 LLM 的多樣化響應。

(2)豐富提示形式:提取包含關鍵答案句子的 LLM 響應的 10%,替換其中的提示部分,例如將「The final answer is A」替換為「Based on the context of the question, A is the most likely answer」。

此外,團隊使用 XTuner 工具和 QLoRA 方法,對 Llama 系列、Qwen 系列和 Gemma 系列等基座模型進行微調,最終獲得 xFinder。
圖片
實驗結果

該團隊進行了廣泛的實驗,評估xFinder在不同任務上的表現,並與現有的RegEx方法進行了對比。

KAF 測試集上的結果
在 KAF 測試集上,xFinder-qwen1505 的平均提取準確率達到了 96.88%,顯著高於最佳評估框架中的 RegEx 方法的 74.38%。

具體來看,xFinder-qwen1505 在字母選項任務中的提取準確率為 97.35%;在短文字選項任務中為 96.83%;在分類標籤任務中為98.05%;在數學選項任務中為 92.76%。這些結果表明,xFinder 在各類任務中均表現出色,顯著提升了評估的準確性和可靠性。
圖片
KAF 泛化集上的結果
在全新的 KAF 泛化集上(該泛化集使用了與 KAF 資料集中的訓練集和測試集不同的 LLM 和測試任務生成的樣例構造的),xFinder-qwen1505 展現了卓越的效能,平均提取準確率達到了 93.42%。

實驗結果表明,xFinder 的表現不僅優於其他基於 RegEx 的評估框架,甚至顯著優於 GPT-4,充分展示了其高魯棒性和泛化能力。圖片
在現實世界場景中的評估
研究團隊使用 xFinder 和傳統評估框架對 10 種 LLM 進行了綜合評估。評估任務涵蓋了 CommonsenseQA、BoolQ 和 GSM8K 等。透過對 10 種不同的 LLM 應用五種答案提取方案,進行了一系列對比實驗。

概括起來,實驗結果主要揭示了三個關鍵發現:

(1)同一模型在不同框架下的排名常常出現較大差異,難以準確反映模型的真實能力,顯示出一致性較低。

(2)不同的 xFinder 在這些實驗中顯示出了高度的一致性,並且在提取答案的準確率上也超越了其他評測框架,表明 xFinder 是一種更加可靠的評測方法。

(3)與傳統的字母選項設定相比,直接使用選項文字能顯著提升排名的一致性,反映了字母選項設定的不穩定性。更多的細節和實驗結果已在附錄中展示,這些內容進一步證實了上述發現的有效性。
圖片
結語

總的來說,xFinder透過最佳化關鍵答案提取模組,提高了LLM評估的準確性和可靠性。實驗結果表明,xFinder在多種任務上均表現出色,具備較高的魯棒性和泛化能力。未來,該研究團隊將繼續最佳化xFinder,並研究其他評估關鍵問題,為LLM效能的可靠評估提供堅實基礎。

相關文章