Lookback Lens:用注意力圖檢測和減輕llm的幻覺

deephub發表於2024-07-12

在總結文章或回答給定段落的問題時,大語言模型可能會產生幻覺,並會根據給定的上下文回答不準確或未經證實的細節,這也被稱為情境幻覺。為了解決這個問題,這篇論文的作者提出了一個簡單的幻覺檢測模型,其輸入特徵由上下文的注意力權重與新生成的令牌(每個注意頭)的比例給出。它被稱為回看或基於回看比率的檢測器。

該方法計算為給定上下文的注意力權重與新生成的令牌的比值。在每個時間步,計算每個注意頭的回看率,並訓練一個線性分類器,稱之為Lookback Lens,根據回看率特徵檢測上下文幻覺,如下圖所示

在解碼過程中可以進一步整合該檢測器,獲得可減少幻覺的回看透鏡引導解碼策略

幻覺檢測

Lookback Lens(回看透鏡)

作者引入了回看比例,這是一個基於Transformer模型的注意力分佈的度量 給定一個具有L層的Transformer,每層有H個頭部,該模型處理一個輸入序列的上下文標記X = {x1, x2, . . . , xN},長度為N,然後是一組新生成的標記Y = {y1, y2, . . . , yt−1}來生成下一個標記yt。在時間步t,對於每個頭部,計算關注於上下文標記與新生成標記的注意力權重的比例 對於每個頭部h在層l中,定義:

其中αl h,i和αl h,j分別是分配給上下文令牌X和新令牌Y的softmax啟用的注意力權重

在時間步t的層l中頭h的回看比例計算為

將回看比率作為輸入特徵,透過將所有頭部和層的回看比率連線成時間步t的特徵向量,用於檢測幻覺:

給定一個文字跨度 {yt, yt+1, …, yt+T−1},將相應的回看比率向量 {vt, vt+1, …, vt+T−1} 平均成一個單一向量 ¯v。然後使用邏輯迴歸分類器 F 基於平均後的回看比率向量來預測該跨度是事實(1)還是幻覺(0)。

其中σ為sigmoid函式,w為權重向量,b為分類器的偏置項。

回看透鏡預測跨度上幻覺的機率。作者考慮了以下兩種方式來獲取給定序列的跨度:

預定義跨度:當幻覺和非幻覺跨度的註釋可用時,直接訓練分類器來區分它們。

滑動視窗:由於在解碼過程中沒有預定義的跨度,因此使用滑動視窗設定,遍歷所有可能的跨度。具體來說將句子處理成固定大小的塊,並訓練分類器來預測標籤,如果塊記憶體在任何幻覺內容,則預測為0,否則預測為1。

實驗設定

下表顯示了在NQ (QA)和CNN/DM (Sum.)上使用預定義的跨度分割和滑動視窗(size = 8)的分類任務的AUROC。

Lookback Lens的效能略好於基於隱藏狀態的分類器,並且顯著優於NLI模型。在滑動視窗設定中,回看鏡頭相對於基於隱藏狀態的分類器的優勢更為顯著。基於隱藏狀態的分類器在二次驗證過程中容易出現訓練集過擬合的問題,並且在轉移到域外任務時表現出明顯的效能下降

Lookback Lens雖然並不總是完美地擬合訓練集,但在應用於域外任務時始終表現出更好的效能

上下文幻覺緩解

回看透鏡引導解碼

將回看鏡頭(F)整合到解碼過程中:

F可以評估多個標記塊,因為每個塊在多個解碼步驟中引起不同的注意力模式

給定上下文和部分生成的文字,在相同的解碼步驟t獨立取樣一組k個候選塊 {C1,C2, . . . ,Ck}。

對於每個塊Cj,相關的回看比率被平均以形成特徵向量¯vj

如下圖所示,作者選擇由F預測的最佳候選C∗並將其新增到生成中

重複此過程,直到生成EOS令牌或達到最大長度

結果

下表顯示了在塊大小為8的情況下,每個塊使用8個候選塊的解碼結果

回看透鏡引導解碼可以提高領域內任務(XSum,提高了9.6%)和領域外任務(NQ,提高了3%)的效能。這一結果與使用SoTA NLI(自然語言推理)引導解碼的效果相當,其中SoTA NLI在大約731k個註釋的摘要示例上進行訓練,這比論文的1k訓練集大700倍。

由隱藏狀態或NLI分類器引導的解碼,這兩者都是在相同資料上訓練的,只能略微提高NQ的效能,但對XSum沒有效果,這可能是由於分佈偏移的問題,凸顯了回看透鏡在泛化能力上的優勢。解碼方法可以在幻覺設定中提高效能,同時保持在原始設定中的相同效能,這表明論文的解碼方法在減少幻覺的同時不會影響整體生成質量。

跨模型遷移

使用回看比率捕捉用於幻覺檢測的高階模型模式,突出了其在跨模型轉移中的潛力。用一個模型的回看比率訓練的分類器可以應用到另一個模型而無需重新訓練,前提是目標模型的注意力模式與原始模型的注意力模式之間存在相關性。

在注意力圖上訓練的回看透鏡可以從LLaMA-2–7B-Chat轉移到LLaMA-2–13B-Chat而無需任何重新訓練。下表顯示了在檢測任務上的跨模型轉移結果。

雖然與同一模型遷移相比,跨模型遷移產生的結果略差,但AUROC分數仍然很高。下表顯示了使用貪婪解碼和分類器引導取樣方法(塊大小為8)從LLaMA-2-7B-chat到LLaMA-2-13B-chat的交叉模型遷移。

觀察到使用13B本身或使用應用於13B解碼的SoTA NLI模型進行同模型轉移時的效能改善類似。然而,在跨任務+跨模型轉移設定中:從CNN/DM(7B)到NQ(13B),我們沒有觀察到顯著的改善,作者將其歸因於較大的分佈偏移。

限制

回看透鏡引導解碼的效能上限受到LLM自身取樣能力的限制。儘管回看透鏡是一個輕量級分類器,具有可以忽略不計的推理時間,但從LLM中取樣多個候選者的需求增加了總推理時間。並且回看透鏡依賴於大約1k-2k的註釋示例來訓練分類器。

總結

回看透鏡是一個輕量級分類器,透過利用回看比率來檢測上下文幻覺,回看比率僅從注意力權重中計算得出。這個分類器不僅有效地識別上下文幻覺,而且還透過從LLM的回看鏡頭引導解碼來緩解它們。該方法可以在不同任務之間轉移,甚至在對映其注意力頭部後可以跨模型轉移。

論文:

https://avoid.overfit.cn/post/0c18bed0b5b0466984c2ff8ec5a70283

相關文章