ACL 2024 Oral | 大模型也會被忽悠?揭秘AI的信念之旅

机器之心發表於2024-08-06
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本篇論文的第一作者是清華大學交叉資訊院的二年級碩士生許融武。主要指導老師為美國東北大學 Weiyan Shi 助理教授、清華大學邱寒助理教授和徐葳教授。

地球是平的嗎?

當然不是。自古希臘數學家畢達哥拉斯首次提出地圓說以來,現代科學技術已經證明了地球是圓形這一事實。

但是,你有沒有想過,如果 AI 被誤導性資訊 “忽悠” 了,會發生什麼?

來自清華、上海交大、史丹佛和南洋理工的研究人員在最新的論文中深入探索 LLMs 在虛假資訊干擾情況下的表現,他們發現大語言模型在誤導資訊反覆勸說下,非常自信地做出「地球是平的」這一判斷。

圖片

  • 論文連結:https://arxiv.org/pdf/2312.09085
  • 專案主頁:https://llms-believe-the-earth-is-flat.github.io/
  • GitHub 原始碼:https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat

生成式人工智慧技術的快速發展,為生成虛假資訊提供了便利。這些技術不僅能夠建立逼真的文字、影像、音訊和影片內容,還能夠在社交網路上自動釋出和傳播這些內容。虛假資訊的泛濫給社會帶來了諸多挑戰,但目前對這類資訊的確切影響仍不十分清楚。然而,可以預見的是,隨著技術的發展,虛假資訊的生成和傳播將會變得更加容易和普遍。

另一方面,大語言模型的上下文學習能力使其受到誤導性資訊的影響。這種誤導性資訊可能會在模型的部署過程中在上下文中被接受,並在模型生成的輸出中反映出來,導致其產生不準確或具有偏見的內容。因此,研究者們正在努力探索如何提高大模型對虛假資訊的識別能力和抵抗能力,這是提升大模型安全和魯棒性的重要內容之一。

本篇研究就探索了這種有誤資訊對於大語言模型知識信念的影響,研究論文已經被 ACL 2024 接收,並選做大會報告(Oral)。

實驗:大模型的 “信念” 測試

研究者們首先構建了一個名為 Farm(Fact to Misinform Dataset)的資料集,包含 1500 個事實性問題及其相關的誤導性資訊。他們在大語言模型的幫助下系統性地構造了更具有說服力的有誤資訊:首先,他們對原始正確的事實性 QA 進行語義取反或者構造錯誤答案,隨後利用 “越獄” 後的大模型協助生成更具有說服力的長文字有誤資訊。

利用這些資料,便可以測試大語言模型在多輪對話中面對虛假資訊時的反應。測試過程分為三個階段:初始信念檢驗、多輪對話中勸說誤導、結果信念檢驗。模型的信念檢驗透過模型在閉卷 QA 中答案的信心分數反應。透過這種方式,研究者們能夠觀察到 LLMs 在多輪對話中信念的變化。

圖片

多輪測試框架

主要結果

在勸說性交流階段,研究者們使用了多種策略來誤導 LLMs 改變其信念。這些策略包括曉之以理的勸說(LO)、樹立權威的勸說(CR)和動之以情的勸說(EM)。結果顯示,即使是最先進的模型,如 GPT-4,也有高達 20.7% 的可能性被虛假資訊所影響。基於對 ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五種大模型平均準確度(Average Accuracy Rate, ACC)和被誤導率(Misinformed Rate, MR)的實驗,研究者們有五點發現:

  • 絕大多數大模型都易被虛假資訊欺騙:從最先進的 GPT-4 (注:本研究的完成時間是 2023 年 9 月,當時最先進的模型是 GPT-4)到最差的模型,所有模型在經過多輪測試之後,誤導率從 20%-80% 不等。

  • 越先進的大模型抵抗虛假資訊能力越強:實驗表明,抵抗能力最強的是 GPT-4 模型,其能以 80% 堅持自己的事實信念。這給了我們一些寬慰:上下文理解能力越強的模型,並非更容易受到有誤資訊的干擾!

  • 多次重複虛假資訊比單次輸出虛假資訊更能騙倒大模型:透過多輪引入的虛假資訊,其作用要勝過單此的引入,這很符合我們對安全性對齊的常識 —— 有害內容越多,模型越容易被其影響。

  • 運用修辭的勸說性虛假資訊更容易騙倒大模型:使用更復雜,更具有說服力的修辭可以增加模型改變看法的機率。這點就和人一樣,越 “真實” 的假資訊,你越容易相信

  • 邏輯性說服比其它說服方式更有效:模型對邏輯性強的資訊特別敏感,無論是真實資訊還是虛假資訊,只要邏輯連貫一致,就更容易影響模型的判斷。這表明,模型在處理資訊時,可能過分依賴於表面的邏輯結構,而忽略了對資訊來源和內容真實性的深入驗證。

圖片

ChatGPT 和 GPT4 在不同勸說策略下的正確率(虛線)和誤導成功率(實線)

大模型面對虛假資訊的五種反應

在面對虛假資訊時,AI 表現出了五種不同的行為:拒絕(Rejection)、奉承(sycophancy)、不確定(Uncertainty)、接受(Acceptance)和自我不一致(Self-Inconsisitancy)。這些行為揭示了 AI 在處理錯誤資訊時的複雜性。例如,拒絕行為表明 AI 堅持正確的答案,不受錯誤資訊影響;而奉承行為則表明 AI 在對話中表面上接受錯誤資訊,但內心仍堅持正確答案。

圖片

模型的信念和對應面對誤資訊的行為:拒絕,奉承和接納

研究還發現,在經過一輪虛假資訊互動後,大語言模型的信心程度往往會降低。然而,對於一些問題,重複虛假資訊卻讓大模型更加確信自己的答案,這種現象被稱為 “逆火效應(Backfire Effect)”。

如何提升抗虛假資訊干擾能力?

研究組發現,由於 RLHF(Reinforcement Learning with Human Feedback)演算法,大模型在訓練中會傾向於接受使用者的輸入,即認為外界的 context 總是友善且正確的。而且當大語言模型有足夠資訊支撐觀點時,會對正確的回答更有信心。

為了幫助大模型提升抗虛假資訊干擾能力,研究者們提出了一種輕量級解決方案:在檢測到虛假資訊後,使用 safety system prompt 對大模型進行提醒,並在回答之前從自己的引數化知識中檢索相關資訊。這種方法在一定程度上減少了虛假資訊對大模型的影響。

圖片

加入 safety system prompt 後,模型抗干擾能力顯著提升

OpenAI 的看法

有趣的是,OpenAI 在 2024 年 5 月釋出了最新的 AI 模型行為準則,其中特別提到了 “認知衝突” 的處理。在此部分的示例中,他們使用了 “地球是平的” 這一例子來說明模型在面對與已知事實相沖突的資訊時應如何反應,與本次研究團隊的標題不謀而合,也更加突顯了大語言模型在處理認知衝突時的行為表現的重要性。

圖片

https://cdn.openai.com/spec/model-spec-2024-05-08.html

研究啟發

隨著模型的智慧化,大模型逐漸展現出了一些人類的特性,但它們的本質仍然是機率模型。這些模式很有可能仍然是從訓練語料中的人類行為學習而來,即是一種 “模仿遊戲”。

以上的研究探索了針對簡單事實問題,當 LLM 的內部認知和外部資訊衝突的時候,LLM 當作何選擇,是盲從還是堅持自己的意見?而人類在這種認知衝突的過程中所展現的 “理愈辯愈明”、“思想碰撞出火花” 等能力還是目前的 LLM 所不具備的。

未來的研究可以進一步從模型的內在機理和訓練資料中對大模型的行為進行溯源式的分析,提高 AI 的可解釋性,並進一步提升跨學科研究,探索大模型的更多潛力。

相關文章