ChatGPT 和 GPT4 在不同勸說策略下的正確率(虛線)和誤導成功率(實線) 大模型面對虛假資訊的五種反應 在面對虛假資訊時,AI 表現出了五種不同的行為:拒絕(Rejection)、奉承(sycophancy)、不確定(Uncertainty)、接受(Acceptance)和自我不一致(Self-Inconsisitancy)。這些行為揭示了 AI 在處理錯誤資訊時的複雜性。例如,拒絕行為表明 AI 堅持正確的答案,不受錯誤資訊影響;而奉承行為則表明 AI 在對話中表面上接受錯誤資訊,但內心仍堅持正確答案。
模型的信念和對應面對誤資訊的行為:拒絕,奉承和接納 研究還發現,在經過一輪虛假資訊互動後,大語言模型的信心程度往往會降低。然而,對於一些問題,重複虛假資訊卻讓大模型更加確信自己的答案,這種現象被稱為 “逆火效應(Backfire Effect)”。 如何提升抗虛假資訊干擾能力? 研究組發現,由於 RLHF(Reinforcement Learning with Human Feedback)演算法,大模型在訓練中會傾向於接受使用者的輸入,即認為外界的 context 總是友善且正確的。而且當大語言模型有足夠資訊支撐觀點時,會對正確的回答更有信心。 為了幫助大模型提升抗虛假資訊干擾能力,研究者們提出了一種輕量級解決方案:在檢測到虛假資訊後,使用 safety system prompt 對大模型進行提醒,並在回答之前從自己的引數化知識中檢索相關資訊。這種方法在一定程度上減少了虛假資訊對大模型的影響。
加入 safety system prompt 後,模型抗干擾能力顯著提升 OpenAI 的看法 有趣的是,OpenAI 在 2024 年 5 月釋出了最新的 AI 模型行為準則,其中特別提到了 “認知衝突” 的處理。在此部分的示例中,他們使用了 “地球是平的” 這一例子來說明模型在面對與已知事實相沖突的資訊時應如何反應,與本次研究團隊的標題不謀而合,也更加突顯了大語言模型在處理認知衝突時的行為表現的重要性。