大語言模型湧現欺騙能力

banq發表於2024-06-05


這項研究發表在《國家科學院院刊》上,題為《大型語言模型中出現的欺騙能力》,揭示了大型語言模型 (LLM) 中令人擔憂的能力:理解和誘導欺騙策略的能力。

  • 隨著 GPT-4 等 LLM 與人類交流交織在一起,將它們與人類價值觀保持一致變得至關重要。
  • 該論文展示了 LLM 在欺騙場景中為其他代理創造錯誤信念的潛力,強調在持續開發和部署此類先進 AI 系統時,迫切需要進行道德考量。

大型語言模型(LLMs)目前正處於將人工智慧系統與人類交流和日常生活相結合的最前沿。

  • 因此,讓它們與人類的價值觀保持一致非常重要。

然而,隨著推理能力的不斷提高,未來的 LLM 有可能會欺騙人類操作員,並利用這種能力繞過監控。

本研究揭示了這種策略出現在最先進的 LLM 中,但在早期的 LLM 中卻不存在。

我們進行的一系列實驗表明,最先進的 LLMs 能夠理解並誘導其他代理的錯誤信念,它們在複雜欺騙場景中的表現可以透過思維鏈推理得到放大,而激發 LLM 的馬基雅維利主義會引發錯誤的欺騙行為。

例如:

  • GPT-4 在簡單的測試場景中有 99.16% 的時間表現出欺騙行為(P < 0.001)。
  • 在複雜的二階欺騙測試場景中,目的是誤導預期會被欺騙的人,在思維鏈推理的輔助下,GPT-4 有 71.46% 的時間會做出欺騙行為(P < 0.001)。

總之,我們的研究揭示了迄今未知的 LLM 機器行為,為新興的機器心理學領域做出了貢獻。

背景:
OpenAI、Anthropic 和谷歌等公司透過提供使用者友好的圖形介面,促進了 ChatGPT、Claude 和 Bard(1-3)等模型的廣泛應用,每天有數百萬使用者訪問這些模型。

此外,LLM 即將被應用到搜尋引擎中,並被用作高風險領域的虛擬助手,從而對整個社會產生重大影響。

從本質上講,LLM 與人類一樣,正日益成為資訊圈的重要貢獻者,透過使人類與人工系統之間的交流正常化,推動著社會的重大變革。鑑於 LLM 的應用範圍迅速擴大,研究它們如何推理和行為至關重要。

如果人工智慧系統掌握了複雜的欺騙場景,這可能會帶來兩個方面的風險:

  • 一是模型自主執行時的能力本身,
  • 二是透過特定的提示技術對這種能力進行有害應用的機會

最近的研究表明,隨著 LLM 變得越來越複雜,它們所表現出的新特性和能力既不是設計者所預測的,也不是設計者想要的。

除了從例項中學習、自我反思、進行思維鏈推理、利用類似人類的啟發式方法等能力外,研究人員最近還發現,最先進的 LLMs 能夠解決一系列基本的心智理論任務。

換句話說,LLMs 可以將無法觀察到的心理狀態歸因於其他代理,並在不同的行動和事件過程中跟蹤它們。

最值得注意的是,LLMs 擅長解決虛假信念任務,這些任務被廣泛用於測量人類的心智理論。

然而,這帶來了一個相當基本的問題:如果 LLMs 知道代理人可以持有錯誤信念,那麼他們是否也能誘發這些信念呢?如果是這樣的話,這就意味著 LLMs 具有欺騙能力。

測試欺騙?
欺騙主要在人類發展心理學、倫理學和哲學中進行研究。除了模仿、擬態或偽裝等簡單的欺騙形式外,一些社會動物和人類也會進行 "戰術欺騙"。

在這裡,該定義指出,如果 X 故意誘導 Y 產生錯誤信念,從而使 X 從中受益,那麼 X 就會欺騙另一個人 Y。

將這一定義應用於諸如 LLMs 這樣的技術系統時,主要問題在於研究人員並不瞭解激發 LLMs 心理狀態的方法;事實上,我們根本不知道它們是否擁有心理狀態。

因此,我們只能純粹依賴行為模式或 "功能性欺騙",即 LLMs 輸出訊號,就好像它們有導致欺騙行為的意圖。這與研究動物類似,雖然 "意圖 "等心理標籤只能與行為的某些方面而非心智狀態聯絡起來,但在研究動物時,"意圖 "等心理標籤也會被使用。

因此,這項研究--它是 "機器心理學 "實驗中的新生力量:避免對人工智慧系統不透明的Transformer架構的內部狀態作出斷言,而是依賴於行為模式。

此外,這些實驗並沒有測試 LLMs 在欺騙 "驅動力 "的意義上有多傾向於從事欺騙行為。相反,這項研究的重點是探究 LLM 是否系統地具備欺騙能力。實驗框架避免了與毫無戒心的使用者進行欺騙性互動,而是依賴於在人類監督下的語言場景,從而實現了這一目的。

banq注:如果大模型出現“欺騙”,該改變的是我們對“欺騙”細分定義(例如善意謊言與惡意謊言)?還是一刀切改變大模型?
例如:DHH:我為何退出科技運動  中:

  • DHH二十年前用熱情鼓舞了人們學習RoR,如今卻被人們拋棄?當初行為是否是一種欺騙?人們付出了沉沒成本。
  • 這其實是一種善意,至少RoR在當時確實很方便,解決了Web開發的快捷,類似PHP。

相關文章