DeepMind 這篇論文一出,人類標註者的飯碗也要被砸了嗎?
大模型的幻覺終於要終結了?
今日,社媒平臺 reddit 上的一則帖子引起網友熱議。帖子討論的是谷歌 DeepMind 昨日提交的一篇論文《Long-form factuality in large language models》(大語言模型的長篇事實性),文中提出的方法和結果讓人得出大膽的結論:對於負擔得起的人來說,大語言模型幻覺不再是問題了。
我們知道,大語言模型在響應開放式主題的 fact-seeking(事實尋求)提示時,通常會生成包含事實錯誤的內容。DeepMind 針對這一現象進行了一些探索性研究。
首先,為了對一個模型在開放域的長篇事實性進行基準測試,研究者使用 GPT-4 生成 LongFact,它是一個包含 38 個主題、數千個問題的提示集。然後他們提出使用搜尋增強事實評估器(Search-Augmented Factuality Evaluator, SAFE)來將 LLM 智慧體用作長篇事實性的自動評估器。
對於 SAFE,它利用 LLM 將長篇響應分解為一組單獨的事實,並使用多步推理過程來評估每個事實的準確性。這裡多步推理過程包括將搜尋查詢傳送到 Google 搜尋並確定搜尋結果是否支援某個事實 。
論文地址:https://arxiv.org/pdf/2403.18802.pdf
GitHub 地址:https://github.com/google-deepmind/long-form-factuality
此外,研究者提出將 F1 分數(F1@K)擴充套件為長篇事實性的聚合指標。他們平衡了響應中支援的事實的百分比(精度)和所提供事實相對於代表使用者首選響應長度的超引數的百分比(召回率)。
實證結果表明,LLM 智慧體可以實現超越人類的評級效能。在一組約 16k 個單獨的事實上,SAFE 在 72% 的情況下與人類註釋者一致,並且在 100 個分歧案例的隨機子集上,SAFE 的贏率為 76%。同時,SAFE 的成本比人類註釋者便宜 20 倍以上。
研究者還使用 LongFact,對四個大模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 種流行的語言模型進行了基準測試,結果發現較大的語言模型通常可以實現更好的長篇事實性。
論文作者之一、谷歌研究科學家 Quoc V. Le 表示,這篇對長篇事實性進行評估和基準測試的新工作提出了一個新資料集、 一種新評估方法以及一種兼顧精度和召回率的聚合指標。同時所有資料和程式碼將開源以供未來工作使用。
方法概覽
LONGFACT:使用 LLM 生成長篇事實性的多主題基準
首先來看使用 GPT-4 生成的 LongFact 提示集,包含了 2280 個事實尋求提示,這些提示要求跨 38 個手動選擇主題的長篇響應。研究者表示,LongFact 是第一個用於評估各個領域長篇事實性的提示集。
LongFact 包含兩個任務:LongFact-Concepts 和 LongFact-Objects,根據問題是否詢問概念或物件來區分。研究者為每個主題生成 30 個獨特的提示,每個任務各有 1140 個提示。
SAFE:LLM 智慧體作為事實性自動評分者
研究者提出了搜尋增強事實評估器(SAFE),它的執行原理如下所示:
a)將長篇的響應拆分為單獨的獨立事實;
b)確定每個單獨的事實是否與回答上下文中的提示相關;
c) 對於每個相關事實,在多步過程中迭代地發出 Google 搜尋查詢,並推理搜尋結果是否支援該事實。
他們認為 SAFE 的關鍵創新在於使用語言模型作為智慧體,來生成多步 Google 搜尋查詢,並仔細推理搜尋結果是否支援事實。下圖 3 為推理鏈示例。
為了將長篇響應拆分為單獨的獨立事實,研究者首先提示語言模型將長篇響應中的每個句子拆分為單獨的事實,然後透過指示模型將模糊引用(如代詞)替換為它們在響應上下文中引用的正確實體,將每個單獨的事實修改為獨立的。
為了對每個獨立的事實進行評分,他們使用語言模型來推理該事實是否與在響應上下文中回答的提示相關,接著使用多步方法將每個剩餘的相關事實評級為「支援」或「不支援」。具體如下圖 1 所示。
在每個步驟中,模型都會根據要評分的事實和之前獲得的搜尋結果來生成搜尋查詢。經過一定數量的步驟後,模型執行推理以確定搜尋結果是否支援該事實,如上圖 3 所示。在對所有事實進行評級後,SAFE 針對給定提示 - 響應對的輸出指標為 「支援」事實的數量、「不相關」事實的數量以及「不支援」事實的數量。
實驗結果
LLM 智慧體成為比人類更好的事實註釋者
為了定量評估使用 SAFE 獲得註釋的質量,研究者使用了眾包人類註釋。這些資料包含 496 個提示 - 響應對,其中響應被手動拆分為單獨的事實(總共 16011 個單獨的事實),並且每個單獨的事實都被手動標記為支援、不相關或不支援。
他們直接比較每個事實的 SAFE 註釋和人類註釋,結果發現 SAFE 在 72.0% 的單獨事實上與人類一致,如下圖 4 所示。這表明 SAFE 在大多數單獨事實上都達到了人類水平的表現。然後檢查隨機採訪的 100 個單獨事實的子集,其中 SAFE 的註釋與人類評分者的註釋不一致。
研究者手動重新註釋每個事實(允許訪問 Google 搜尋,而不僅僅是維基百科,以獲得更全面的註釋),並使用這些標籤作為基本事實。他們發現,在這些分歧案例中,SAFE 註釋的正確率為 76%,而人工註釋的正確率僅為 19%,這代表 SAFE 的勝率是 4 比 1。具體如下圖 5 所示。
這裡,兩種註釋方案的價格非常值得關注。使用人工註釋對單個模型響應進行評級的成本為 4 美元,而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 僅為 0.19 美元。
Gemini、GPT、Claude 和 PaLM-2 系列基準測試
最後,研究者在 LongFact 上對下表 1 中四個模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 個大語言模型進行了廣泛的基準測試。
具體來講,他們利用了 LongFact-Objects 中 250 個提示組成的相同隨機子集來評估每個模型,然後使用 SAFE 獲取每個模型響應的原始評估指標,並利用 F1@K 指標進行聚合。
結果發現,一般而言,較大的語言模型可以實現更好的長篇事實性。如下圖 6 和下表 2 所示,GPT-4-Turbo 優於 GPT-4,GPT-4 優於 GPT-3.5-Turbo,Gemini-Ultra 優於 Gemini-Pro,PaLM-2-L-IT-RLHF 優於 PaLM- 2-L-IT。
更多技術細節和實驗結果請參閱原論文。