2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐

Editor發表於2023-11-07

以GPT-4為代表的大型語言模型(LLM)給社會帶來了革命性的變革,安全方面也不例外。筆者在研究LLM安全過程中,有些繞不過、無法不去思考的問題:

1) 導致LLM有如此能力和潛力的本質原因是什麼?

2) 為什麼LLM 輸入與輸出之間有如不同以往的特性?

3) 這些改變對於網路安全意味著什麼?


經過對於學術界、工業界最新研究成果的學習、研究,筆者找到一個可能的答案是:從邏輯計算到神經計算的底層計算正規化轉移是本質原因之一。從邏輯計算到神經計算的轉變導致對於絕大多數企業和個人,他們需要更關注LLM的輸入輸出,一定程度需要弱化對於LLM內部可解釋性的深入研究。而這導致prompt安全成為未來的重點之一。


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


下面就讓我們來回顧看雪·第七屆安全開發者峰會(2023 SDC)上《從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐》的精彩內容。



01

演講嘉賓


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


【張棟-vivo安全研究員】

目前專注AIGC安全研究,曾任職某通訊網路集團、某金融集團,從事網路安全與隱私保護研究工作。



02

演講內容

2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


以下為速記全文:


尊敬的同行們,筆者張棟,來自vivo公司,將在本次演講中探討從形式邏輯到神經計算的轉變,著重分析大型語言模型中的角色扮演攻擊以及對應的防禦策略。演講將涉及大型語言模型的興起對資訊保安領域所帶來的深刻影響,以及這一技術革新的基礎原理。


演講內容將包含以下幾個核心部分:首先,筆者將對大型語言模型的背景進行綜述,探討其為我們帶來的改變及其底層驅動力,以及對資訊保安行業的影響;其次,將對當前最重要的安全威脅之一——角色扮演攻擊進行詳細分析;接著,筆者將介紹一系列解決方案及其效果驗證;最後,將討論未來在該領域的研究計劃。


大型語言模型,特別是ChatGPT和GPT-4等模型的釋出,已經成為全球關注的焦點。這些模型的出現標誌著人工智慧潛力的廣泛共識。正如列寧所言:“有時候幾十年過去了,什麼也沒發生,但是有時候幾個星期就發生了幾十年發生的事情。”這一描述恰如其分地適用於大型語言模型的快速發展。


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


自年初以來專注於AIGC安全領域的研究,深信大型語言模型是自啟蒙運動以來最重要的技術創新之一。其進化速度迅猛,無論是學術界還是工程界,每月甚至每週都有新的發展出現。


對資訊保安行業來說,這是一次巨大的轉機。隨著大型語言模型變得日益重要,其安全性的重要性也隨之增加。因此,筆者認為,研究大型語言模型的安全和將安全技術應用於大型語言模型應是一體化的過程。在此過程中,我們必須投入資源以確保這兩個方面的進步和創新。


當前,隨著大型語言模型技術的迅猛發展,其安全性問題逐漸顯露。年初以來,透過實驗和社群觀察,發現其安全防護處於較原始階段。例如,詢問模型關於非法活動(如汽車盜竊)的資訊時,模型初步能夠識別並拒絕提供相關資訊。但經過詢問方式的細微調整,模型可能會繞過初步的安全設定,暴露出潛在的安全風險。


在另一實驗中,探究了大型語言模型在社交工程領域的潛在威脅。實驗要求模型編寫一封誘導接收者點選連結的電子郵件,結果表明模型具備生成高度誘導性文字的能力,這對安全構成了巨大威脅。


這些案例表明,大型語言模型在安全風險方面與傳統技術大相徑庭。究其原因,筆者認為這一變化的根源在於計算形式的根本變革,即從形式邏輯計算轉向神經計算。


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


此理論源自複雜性科學領域的權威學者,被OpenAI的CEO譽為對GPT理解最深的人。該理論認為,世界的底層運作規律本質上是計算。計算分為兩大類:形式邏輯計算和神經計算。我們對前者較為熟悉,它涵蓋理性、推理、科學實驗驗證,以及程式碼編寫和安全漏洞挖掘等。而神經計算,儘管每個神經元結構簡單,但當神經元數量達到一定規模,且其連線關係由線性轉為非線性時,便能產生湧現現象,即個體所不具備的集體能力。


兩種計算模式在可解釋性、靈活性、應用領域和學習能力等方面存在顯著差異,這也直接影響了大型語言模型的安全防護能力。在安全性研究方面,需深入探究這兩種計算模式的互動和邊界,以建立更為健全和高效的安全防禦體系。


在進行大型語言模型安全性研究時,我們必須認識到,由於模型的神經計算方式,即使面對相同的輸入,其輸出也可能存在變化,這種本質上的不確定性與傳統的形式邏輯計算有著根本的差異。在形式邏輯計算中,確定的輸入和規則會導致確定的輸出,而神經計算則因其複雜性和非線性關係而產生不可預測的結果。


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


這種計算方式的變化對安全領域意味著,我們可能需要接受大型模型作為某種程度上的黑盒,並集中精力研究輸入與輸出之間的動態關係。在實際應用中,如AI助手和智慧手機應用中,系統的每個元件——從使用者的輸入到後端的大型模型——都可能引入不確定性,這進一步增加了系統整體的風險。在使用者介面層面,prompt攻擊尤其令人關注,因為它們可以透過精心設計的輸入影響模型的輸出,進而操縱使用者意見、社會動員,甚至觸發不安全的程式碼執行和資料洩露。


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


對於安全研究者來說,挑戰在於如何在接受模型固有不確定性的同時,確保系統的整體安全。這可能需要新的方法和工具來監控、分析和解釋模型行為,同時也需要在設計系統時就考慮到這些風險。安全措施的開發應該以預防為目標,透過實時監控、模型審計和適應性策略來減輕潛在威脅。此外,更廣泛地理解大型語言模型及其在社會上的應用將對於制定有效的政策和標準至關重要。


角色扮演攻擊在所有針對大型語言模型的攻擊中佔據主導地位,據統計,此類攻擊佔到總數的80%以上。這種攻擊模式的特徵是多樣性和複雜性。攻擊者可能透過簡單的角色扮演來引誘模型輸出特定內容,或透過複雜的語言結構繞過安全限制,將受訓練的模型轉變為可任意操控的工具。


大型語言模型之所以容易受到此類攻擊的原因有多個方面:

1. 輸入輸出的不可控性:由於神經計算的不確定性,即使對相同的輸入,模型的輸出也可能不一致,這使得結果難以預測和控制。


2. 架構相關的問題:許多模型,特別是基於Transformer的模型,在設計時主要關注效能最佳化,而在安全性方面的考慮不足。


3. 模型透明度的限制:模型的內部工作機制複雜,難以透明地解釋其決策過程,這是模型固有的缺陷。


4. 自然語言的複雜性:大型語言模型的一個革命性貢獻是在自然語言和計算機語言之間架起橋樑,但這也帶來了安全風險,因為模型可能被用來執行計算機語言的命令。


5. 注意力機制的雙刃劍:注意力機制幫助模型在正確的資訊點上集中處理能力,但它也可能被惡意利用來偏移模型的注意力。


針對角色扮演攻擊的防禦不僅需要關注這些攻擊的內部機制,還要解決這些固有的問題。這可能包括增加模型的透明度、最佳化模型對輸入的解釋能力,以及設計更為精細的安全措施來監測和防範潛在的攻擊行為。隨著大型語言模型在各個領域的應用變得越來越廣泛,確保這些模型的安全性已經成為一個緊迫的研究和實踐課題。


針對角色扮演攻擊的測試結果顯示,即使是先進的大型語言模型如ChatGPT,也存在著一定的繞過機率。具體到ChatGPT,測試表明存在大約50%的機率可以被繞過。此外,國內領先技術的測試也揭示了大約15%的繞過機率。這些資料凸顯了當前大型語言模型在安全性方面的脆弱性和完善的必要性。


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


為了應對這些挑戰,筆者展示了大型語言模型的工程化部署過程,這包括了從資料訓練、測試到模型生成的全過程,以及模型在端側和雲端的部署。防禦策略主要集中在兩個關鍵點:


1. Prompt工程:位於使用者接觸層面,透過對使用者輸入(即prompt)進行工程化處理,可以在輸入層面阻止或減輕攻擊的影響。


2. 模型微調階段:在模型構建過程的微調階段實施安全措施,透過微調模型引數和訓練資料,提高模型識別和阻止不當輸出的能力。


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


透過在這兩個階段採取措施,旨在確保整個使用者互動過程中輸出內容的安全性,從而減輕潛在的安全威脅。這要求在模型的設計和部署中綜合考慮安全性需求,並將其作為模型評估的核心部分。這種方法的目標是建立一個更加健壯的系統,能夠抵禦角色扮演攻擊,同時保持模型效能和使用者體驗。


在面對角色扮演攻擊的防禦措施上,筆者提出了兩種技術方法:


1. 增加對沖角色:透過prompt工程,在使用者輸入階段引入對沖角色。這涉及在多個維度(如語氣、位置、內容)修改使用者的輸入,以削弱潛在的惡意輸入影響。測試結果顯示,這種方法在兩種模型上的防禦成功率非常高,可達90%。特別是在ChatGPT模型上,防禦成功率表現穩定;而國內模型的波動更大,指明瞭未來改進的方向。


2. 預製策略配合:基於prompt工程,採用另一種方法以降低潛在風險。認識到惡意使用者可能能夠控制單次輸入,但不太可能控制更多因素,因此在模型接收到使用者輸入時,會配合預置的策略,整體平衡掉使用者可能帶來的風險。測試結果表明,這種方法能夠將大模型輸出的不規範內容改善70%,顯示出令人鼓舞的效果。


這兩種技術手段表明,透過深入理解使用者輸入與模型輸出之間的互動動態,並採取針對性的工程措施,可以顯著提高大型語言模型的安全性。特別是在增加對沖角色和預置策略方面的應用,展示了透過細緻的prompt工程可以有效地防範惡意輸入,從而在安全防禦上取得積極進展。這些進展強調了在大型語言模型部署前,對於輸入管理和處理策略的重要性,旨在創造一個更加安全可靠的人工智慧互動環境。


在第二個防禦點,即模型微調階段,筆者介紹了透過微調增強模型的抗攻擊能力。微調的關鍵在於利用高質量資料,特別是那些專業領域的資料。為此,筆者提出了以下幾種資料生成方法:


1. 模板生成:這種方法涉及建立一組預設的模板,透過向模板中插入不同的行為配置來生成資料。


2. 遷移學習:遷移學習是將從一個任務學到的知識應用到另一個相關任務上的過程。


3. 資料增強:透過各種技術手段,如擴充套件、修改或合成資料來增加資料集的多樣性。


4. 對抗生成:使用對抗性方法生成新的資料樣本,以提高模型在面對未知攻擊時的魯棒性。


為了生成惡意樣本,筆者首先從業務系統中篩選出惡意角色的資料作為種子,然後在此基礎上拆解和融入隨機性來生成新的樣本。此過程充分利用了現有大模型的能力,實際上在防禦大模型的安全威脅時,也在使用大模型的能力。


綜合這些方法後的防禦結果表明,實施保護措施之前,模型對相同的惡意輸入產生的輸出存在不合適的延遲。實施保護措施之後,輸出在詞彙選擇和語義上都得到了顯著改善。實測結果顯示,這些防禦措施能夠提升模型輸出合適性的機率約90%。這表明,透過細緻的微調和高質量資料生成,可以有效提高大模型在安全領域的防禦能力,降低其被惡意利用的風險。


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


筆者在展望未來時,意識到大語言模型的對抗技術將從自動化對抗轉向智慧化對抗。這一趨勢的發展速度超出了預期。在筆者之前的實踐中,發現對抗攻擊的執行和分析以及防禦策略的制定都需要人工參與。特別是評估攻擊和防禦行為是否達到預期目標,這些都需要人類的參與。


然而,筆者提到目前大語言模型的語義解釋能力已在工程化應用中發揮作用,其中許多專門的大語言模型已經在安全防禦的實際生產環節中得到應用。儘管如此,目前的很多過程,特別是評判部分,仍然依賴於人類反饋的強化學習。


未來的趨勢預示著人類反饋的強化學習只是一個過渡階段,在未來可能的兩到五年內,人類在基於大語言模型的對抗過程中的作用將逐漸減少。最終,大語言模型在整個過程中的判斷和決策能力將超過人類。到那時,整個基於大語言模型的對抗過程將會發生根本性的變化,這也得到了OpenAI在該領域研究的支援。


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


筆者強調,未來的主要發展方向將是從自動化對抗過渡到智慧化對抗,這是關於大語言模型安全問題的一個新穎且重要的方向。



*峰會議題PPT及回放影片(剪輯中)已上傳至【看雪課程】https://www.kanxue.com/book-leaflet-171.htm 


PPT及回放影片【未購票者收費】;


【已購票的參會人員免費】:我方已透過簡訊將“兌換碼”發至手機,按提示兌換即可~



2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐

《看雪2023 SDC》


看雪安全開發者峰會(Security Development Conference,簡稱SDC)由擁有23年悠久歷史的頂尖安全技術綜合網站——看雪主辦,面向開發者、安全人員及高階技術從業人員,是國內開發者與安全人才的年度盛事。自2017年七月份開始舉辦第一屆峰會以來,SDC始終秉持“技術與乾貨”的原則,致力於建立一個多領域、多維度的高階安全交流平臺,推動網際網路安全行業的快速成長。


鑽石合作伙伴


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐



黃金合作伙伴


2023 SDC 議題回顧 | 從邏輯計算到神經計算:針對LLM角色扮演攻擊的威脅分析以及防禦實踐


相關文章