在總結文章或回答給定段落的問題時,大語言模型可能會產生幻覺,並會根據給定的上下文回答不準確或未經證實的細節,這也被稱為情境幻覺。為了解決這個問題,這篇論文的作者提出了一個簡單的幻覺檢測模型,其輸入特徵由上下文的注意力權重與新生成的令牌(每個注意頭)的比例給出。它被稱為回看或基於回看比率的檢測器。
該方法計算為給定上下文的注意力權重與新生成的令牌的比值。在每個時間步,計算每個注意頭的回看率,並訓練一個線性分類器,稱之為Lookback Lens,根據回看率特徵檢測上下文幻覺,如下圖所示
在解碼過程中可以進一步整合該檢測器,獲得可減少幻覺的回看透鏡引導解碼策略
https://avoid.overfit.cn/post/0c18bed0b5b0466984c2ff8ec5a70283