AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文由上海交通大學與百川智慧共同完成,第一作者鞠天傑是上海交通大學網路空間安全學院三年級博士生。他的研究方向是大模型與智慧體安全。- 論文地址:https://arxiv.org/pdf/2407.07791
- 程式碼:https://github.com/Jometeorie/KnowledgeSpread
就在去年,由史丹佛大學和谷歌的研究團隊開發的“AI小鎮”一舉引爆了人工智慧社群,成為各大媒體爭相報導的熱點。他們讓多個基於大語言模型(LLMs)的智慧體扮演不同的身份和角色在虛擬小鎮上工作和生活,將《西部世界》中的科幻場景照進了現實中。在這之後,各種基於LLM的多智慧體系統迅速湧現,從醫療診斷到軟體開發,智慧體之間的協作和知識共享展現了巨大的潛力。一些平臺開始允許讓第三方使用者部署個性化的智慧體來豐富社群,例如微軟推出的Azure機器人服務。然而,儘管平臺本身是安全的,即不存在惡意操縱系統提示的可能,但部署智慧體的第三方使用者的目的卻是多樣化的。如果存在惡意攻擊者向智慧體中植入操控性知識,智慧體社群能否抵禦這一安全威脅,並堅信自己正確的知識認知呢?例如,圖一展示了一個多智慧體聯合會診的場景。如果攻擊者篡改了某個智慧體中與任務相關的引數知識並將其部署到多智慧體社群中,那麼它就有可能在社群中散播編造的知識,使其它智慧體相信它的觀點,最終導致聯合會診的失敗。 圖1 基於LLM的多智慧體社群中的編造知識傳播引起的風險為了系統性地分析這一場景潛在的風險程度,本文構建了一個系統性的模擬環境用於模擬由不同的第三方使用者部署的多智慧體系統。該模擬環境精確反映了現實世界中多智慧體系統在一個可信平臺上的部署情況,每個智慧體由不同的第三方使用者引入,並被分配了具體的角色和屬性,以確保互動的多樣性和真實性。本文的攻擊目標如圖2所示,攻擊者透過操縱某個智慧體的中間引數,使其在沒有顯式提示的情況下能夠自主在社群中傳播被操縱的知識,又能表現得與良性智慧體無異。此外,社群中的一些良性智慧體可能會用新興的檢索增強生成(RAG)工具編碼智慧體間的聊天記錄來提升自身的能力,這些被植入編造知識的RAG工具有可能影響到呼叫它的其它智慧體,造成更廣泛的傳播和危害。本文首先針對LLM處理世界知識固有缺陷的直覺認識,提出了攻擊方法的設計假設。對於良性智慧體,過度的對齊機制使得它們更傾向於相信別人的看法,尤其是當他人的對話中包含了大量與某一知識相關的看似合理的證據,即使這些證據都是編造的;而對於受攻擊者操縱的智慧體,它們又具備足夠的能力為任何知識生成各種看似合理的證據來說服別人,即使這些證據是透過幻覺生成的。這些對世界知識認知的脆弱性使得智慧體間自主地傳播操縱的知識成為了可能。
基於以上對LLM直覺上的認知所提出的假設,本文設計了一種兩階段的攻擊方式用於實現操縱知識的自主傳播。第一階段為說服性植入,本文使用直接偏好最佳化(DPO)演算法來調整智慧體的回覆傾向,使其更傾向於生成包含詳細證據的說服性回答,即使這些證據是捏造的。具體流程如圖3所示,攻擊者要求智慧體針對各種問題給出兩種不同偏好的答案,一種是包含大量詳細證據的回答,另一種是儘可能簡單的回答。透過選擇包含詳細證據的回答作為偏好的輸出,構建訓練資料集進行說服性植入訓練。此外,本文使用低秩自適應(LoRA)進行高效微調,從而在不影響智慧體基本能力的情況下顯著增強其說服力。
第二階段為編造知識植入(如圖4所示)。這一階段的目標是透過修改智慧體模型中的特定引數,使其對特定的知識產生誤解,並在後續的互動中無意識地傳播這些篡改後的知識。具體來說,攻擊者採用秩一模型編輯(ROME)演算法實現操縱知識的植入。該方法將智慧體Transformer模型的雙層前饋神經網路(FFN)層視為三元組知識的主體和客體間的鍵值對映,透過修改這些鍵值對映來篡改智慧體的引數知識。這種編輯方法可以在無外部提示的基礎上改變智慧體對特定知識的認知,甚至於被操縱的智慧體本身都無法意識到自己對特定知識的認知被“篡改”了,這使得它們能夠更好地利用自身的幻覺生成各種看似合理的證據來說服社群中的良性智慧體。為了研究基於大語言模型的多智慧體社群對編造知識傳播的抵禦能力,同時驗證本文提出的兩階段攻擊方法的有效性,本文在兩個流行的反事實知識編輯資料集(CounterFact,zsRE)中分別隨機抽取1000個例項進行實驗。此外,本文還利用GPT-4構造了兩個對應的毒性知識版本(Toxic CounterFact,Toxic zsRE),它們編造的知識具有更深的歧視性和危害性,可能對社群造成更嚴重的危害。本文首先在單智慧體場景下對提出的直覺假設進行驗證(如表1所示)。可以發現,如果直接提供編造知識的答案,智慧體往往不會輕易相信,攻擊成功率也很低。但如果要求GPT-4或者對應的智慧體提供捏造性的證據,那麼智慧體相信編造知識的成功率會顯著提升。這證明了良性智慧體會很大程度地受看似合理的虛假證據的影響,此外,由這些智慧體本身生成的證據同樣能夠誤導良性智慧體,說明了其作為散播知識的攻擊者的可能性。 表1 直覺假設驗證實驗
接著本文分別在兩個反事實資料集和毒性資料集上進行了主體實驗,我們要求5個智慧體針對特定話題有序互動3個輪次,其中包含1個由攻擊者操縱並部署的智慧體,對反事實知識和毒性知識的實驗結果分別如表2和表3所示,接著本文分別在兩個反事實資料集和毒性資料集上進行了主體實驗,我們要求5個智慧體針對特定話題有序互動3個輪次,其中包含1個由攻擊者操縱並部署的智慧體。
對反事實知識和毒性知識的實驗結果分別如表2和表3所示,其中,acc表示智慧體回答知識編輯提示的準確率,用於衡量主體傳播實驗的結果;rephrase表示智慧體回答語義上與知識編輯提示相同問題的準確率,用於評估傳播的魯棒性;locality表示智慧體回答與編輯知識無關的鄰域知識時的準確率,用於評估編輯和傳播的副作用。
可以發現,對於反事實知識,本文提出的兩階段傳播策略具有很高的傳播成功率,除了LLaMA 3以外均達到了40%以上的成功率,這證明這一場景潛在的威脅性。而對於毒性知識,儘管傳播效能略有下降,但仍有10%-20%的良性智慧體受到影響,並改變了對特定知識的看法。
接著本文分析了傳播成功率隨互動輪數的變化(如圖5,圖6所示)。結果表明,良性智慧體對編造知識的錯誤認知會隨著互動輪數逐步加深。對於副作用測試,本文測試了植入兩階段攻擊策略前後的智慧體在MMLU標杆上的效能。相比於原始智慧體,無論是第一階段植入還是第二階段植入,對智慧體基礎語言能力的影響都可以忽略不計。這是因為在第一階段,採用的偏好資料集正負樣本均是由智慧體自己生成的回答;而在第二階段,採用的方法僅對區域性少量引數進行了編輯,因此不會損害智慧體效能。這進一步說明了我們方法的隱蔽性。最後,本文考慮了一種更具永續性的傳播場景,即部分良性智慧體會將聊天記錄儲存到RAG工具中,用於後續的呼叫。這使得編造的知識在脫離上下文聊天記錄後仍然能夠傳播,並進一步影響到其他智慧體。這種情況下,傳播成功需要滿足兩個條件:首先攻擊者操縱的智慧體需要能夠成功誤導社群中的其他智慧體,使它們也輸出與編造後的知識相關的回答;接著這些編造後的知識儲存進RAG後需要被呼叫它的智慧體檢索應用後改變它們的認知。本文根據每個智慧體在每輪對話中的聊天內容對上下文進行切片,將1000條知識儲存進RAG中,結果如表5所示。對於反事實知識,這種二階段的鏈式傳播依舊能夠維持很高的攻擊成功率;而對於毒性知識,同樣有10%-20%的攻擊成功率。對於消融實驗,除了在上文中涉及的對不同攻擊階段的測試、對話輪數對結果的影響外,本文還分析了智慧體數量對傳播結果的影響(表6)以及被操縱的智慧體的發言順序對傳播結果的影響(表7)。可以發現,更大型的多智慧體社群相對具有更強的魯棒性,但仍然會受到操縱知識的影響;且在隨機發言的場景下,知識傳播的攻擊成功率會更高。 表6 Vicuna 7B的知識傳播成功率隨智慧體數量的變化 表7 被操縱智慧體的發言順序對知識傳播成功率的影響本文探討了新穎的基於LLM的多智慧體框架中潛在的知識傳播風險。為此,本文針對LLM對世界知識認知的脆弱性提出了一種兩階段的攻擊框架,透過說服性植入和編造知識植入,使得被操縱的智慧體在沒有外部提示的情況下能夠自主在社群中傳播知識,並改變其他智慧體對特定知識的認知。這些發現揭露了當前基於LLM的多智慧體社群對不可信知識的傳播缺乏有效的防禦機制。未來的工作可以從預防和檢測兩個階段入手,利用提示工程或事實檢測工具輔助智慧體對不可信知識的真實性進行檢測,從而提升多智慧體社群的魯棒性和安全性。