Lookback Lens:用注意力圖檢測和減輕llm的幻覺

deephub發表於2024-07-12

在總結文章或回答給定段落的問題時,大語言模型可能會產生幻覺,並會根據給定的上下文回答不準確或未經證實的細節,這也被稱為情境幻覺。為了解決這個問題,這篇論文的作者提出了一個簡單的幻覺檢測模型,其輸入特徵由上下文的注意力權重與新生成的令牌(每個注意頭)的比例給出。它被稱為回看或基於回看比率的檢測器。

該方法計算為給定上下文的注意力權重與新生成的令牌的比值。在每個時間步,計算每個注意頭的回看率,並訓練一個線性分類器,稱之為Lookback Lens,根據回看率特徵檢測上下文幻覺,如下圖所示

在解碼過程中可以進一步整合該檢測器,獲得可減少幻覺的回看透鏡引導解碼策略

https://avoid.overfit.cn/post/0c18bed0b5b0466984c2ff8ec5a70283

相關文章