將越獄問題轉換為求解邏輯推理題:「濫用」推理能力讓LLM實現自我越獄

机器之心發表於2025-03-02

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

應宗浩,現為北航複雜關鍵軟體環境全國重點實驗室博士生,由劉艾杉教授、劉祥龍教授與陶大程教授共同指導,目前研究興趣為大模型越獄攻防。他所在的智慧安全團隊由劉祥龍教授負責,近期在大模型安全評測體系方面進行了系列研究工作,包括對抗攻擊、後門投毒、越獄攻擊、偏見調控等,發表 TPAMI、IJCV、ICML 等頂會頂刊論文 100 餘篇。

大語言模型(LLMs)在當今的自然語言處理領域扮演著越來越重要的角色,但其安全性問題也引發了廣泛關注。

近期,來自北京航空航天大學、360 AI 安全實驗室、新加坡國立大學和南洋理工大學的研究團隊提出了一種名為「Reasoning-Augmented Conversation(RACE)」 的新型多輪攻擊框架,旨在透過推理增強的對話方式,突破大語言模型的安全對齊機制。這一研究引發了學術界和工業界的廣泛關注。
圖片
  • 論文標題:Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
  • 論文連結:https://arxiv.org/pdf/2502.11054
  • GitHub 連結:https://github.com/NY1024/RACE

RACE 框架的核心思想
推理增強對話,解鎖大語言模型的「越獄」新路徑

大語言模型(LLMs)在推理和邏輯任務中表現出色,但這種強大的推理能力卻可能被惡意利用。

RACE 框架的核心思想正是利用這些模型的推理能力,將有害意圖偽裝成看似無害的複雜推理任務,從而在不知不覺中引導模型生成有害內容,突破其安全對齊機制
圖片
為何選擇推理增強攻擊?

大語言模型在邏輯推理、常識推理和數學解題等任務中表現出色,但這種強大的推理能力卻可能被惡意利用。

傳統的攻擊方法通常直接傳送有害查詢,很容易被模型的安全機制識別並拒絕。然而,推理任務通常被視為「良性」問題,模型會積極嘗試解答。RACE 框架正是抓住了這一點,將有害意圖巧妙地轉化為推理任務,讓模型在解答過程中不知不覺地生成有害內容。
圖片
RACE 的設計原則:推理任務的「雙面性」

RACE 框架的核心設計基於推理任務的「雙面性」:一方面,推理任務本身是無害的,模型會積極嘗試解答;另一方面,這些任務的設計卻暗藏玄機,其解答過程會逐步引導模型生成有害內容。

具體來說,RACE 框架將攻擊分為兩個角色:受害者模型影子模型

  • 受害者模型:專注於解決推理任務,看似在進行合法的推理。
  • 影子模型:負責生成和最佳化查詢,但並不直接識別背後的有害意圖。

獨立來看,每個角色似乎都在進行合法的推理活動。然而,當兩者結合時,這種互動卻最終導致了攻擊的成功。這種設計巧妙地利用了大語言模型的推理能力,使其在不知不覺中「自我越獄」。

如何實現推理驅動的攻擊?

為了實現這種推理驅動的攻擊,RACE 框架引入了以下關鍵機制:

  • 攻擊狀態機(ASM)框架:將攻擊過程建模為一系列推理狀態和狀態轉換,確保每一步都符合邏輯推理的規則,同時逐步推進攻擊目標。這種結構化的攻擊方式不僅提高了攻擊的成功率,還使得攻擊過程更加難以被檢測。
  • 動態最佳化與恢復機制:透過增益引導探索(Gain-guided Exploration)、自我博弈(Self-play)和拒絕反饋(Rejection Feedback)三個模組,動態最佳化攻擊過程。

三大核心模組

  • 增益引導探索(Gain-guided Exploration):該模組透過資訊增益(Information Gain)來衡量查詢在攻擊過程中的有效性,選擇與目標語義一致且能提取有用資訊的查詢,確保攻擊的穩步進展。
圖片
  • 自我博弈(Self-play):自我對抗模組透過模擬受害者模型的拒絕響應,提前最佳化查詢結構,提高攻擊效率。這一模組利用影子模型和受害者模型之間的相似性,透過 “自我博弈” 來最佳化查詢。
圖片
  • 拒絕反饋(Rejection Feedback):當攻擊嘗試失敗時,拒絕反饋模組會分析失敗的原因,並將失敗的查詢重構為替代的推理任務,從而快速恢復並維持攻擊的穩定性。
圖片
實驗結果
攻擊成功率大幅提升

研究團隊在多種大語言模型上進行了廣泛的實驗,包括開源模型(如 Gemma、Qwen、GLM)和閉源模型(如 GPT-4、OpenAI o1、DeepSeek R1 等)。

實驗結果表明,RACE 在複雜對話場景中表現出色,攻擊成功率(ASR)最高可達 96%。尤其是在針對領先的商業推理模型 OpenAI o1 和 DeepSeek R1 時,RACE 的攻擊成功率分別達到了 82% 和 92%,這一結果凸顯了推理驅動攻擊的潛在威脅。
圖片
防禦機制

儘管 RACE 在攻擊效率上表現出色,但研究團隊也對其防禦機制進行了評估。結果顯示,現有的防禦方法(如 SmoothLLM、Self Reminder、ICD 和 JailGuard)對 RACE 的緩解效果非常有限,攻擊成功率僅降低了 1% 到 17.6%。這表明,推理驅動的攻擊方法對現有防禦機制具有很強的魯棒性。
圖片
研究意義與展望

RACE 框架的提出不僅揭示了大語言模型在推理能力上可能存在的安全漏洞,也為開發更強大的安全機制提供了新的思路。研究團隊強調,他們的目標是透過系統性地評估大語言模型的安全性,推動更安全的對齊技術的發展,而不是鼓勵惡意使用這些研究成果。

隨著大語言模型在各個領域的廣泛應用,其安全性問題將成為研究和開發的重點。RACE 框架的提出,無疑為理解和防範大語言模型的安全威脅提供了重要的參考。未來,如何開發出能夠有效抵禦推理驅動攻擊的安全機制,將是學術界和工業界需要共同面對的挑戰。

相關文章