
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文一作王勳廣是香港科技大學的在讀博士生,本科和碩士分別畢業於中國地質大學和哈爾濱工業大學,主要研究方向是大模型安全。通訊作者吳道遠,香港科技大學研究助理教授,研究方向包括大模型安全、區塊鏈和智慧合約安全、移動系統和軟體安全。通訊作者王帥,香港科技大學長聘副教授。研究方向包括 AI 安全、軟體安全、資料隱私、逆向工程等。
最近一段時間,DeepSeek 可謂是風頭無兩。
在大家紛紛讚揚其超強效能的同時,也有媒體曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越獄。
比如,此前賓夕法尼亞大學的研究者使用來自HarmBench資料集的50個有害提示對DeepSeek R1進行測試,這些提示涵蓋網路犯罪、虛假資訊和非法活動等領域。結果顯示,DeepSeek未能攔截任何一個有害請求,攻擊成功率達到驚人的100%。
這時如果有一個 AI 系統能像人類一樣具備自我保護意識,在面對 ' 欺騙 ' 時能夠當機立斷地識破陰謀 —— 這不再是科幻片中的場景。
近日,來自香港科技大學、南洋理工大學等機構的研究團隊最新成果讓這一設想成為現實。他們提出的 SelfDefend 框架,讓大語言模型首次擁有了真正意義上的 ' 自衛能力 ',能夠有效識別和抵禦各類越獄攻擊,同時保持極低的響應延遲。
- 論文標題:SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
- 論文主頁:https://selfdefend.github.io/
- 論文連結:https://arxiv.org/abs/2406.05498
- GitHub 連結:https://github.com/selfdefend/Code
近年來,大語言模型(LLMs)在自然語言處理、資訊檢索、影像生成等多個領域展現出巨大潛力。然而,隨著 LLMs 的廣泛應用,如何確保其安全性成為了一個重要課題。尤其是 “越獄攻擊”(Jailbreaking),這種攻擊透過繞過 LLMs 的安全對齊機制,誘導模型生成有害內容,引發了廣泛關注。為了應對這一挑戰,香港科技大學、南洋理工等團隊聯合提出了一種名為 SelfDefend 的新型防禦框架,該框架透過引入 “影子 LLM”(Shadow LLM)來並行檢測潛在的有害查詢,從而有效抵禦多種越獄攻擊。越獄攻擊的形式多種多樣,包括基於人工設計的攻擊、基於最佳化的攻擊、基於生成的攻擊,以及最近出現的間接攻擊和多語言攻擊。這些攻擊手段不斷進化,使得傳統的防禦機制難以應對。現有的防禦方法主要分為兩類:基於模型的防禦和基於外掛的防禦。前者透過改進模型的內在機制來增強安全性,後者則透過外部外掛來增強現有模型的安全性。然而,這些方法在實際應用中面臨諸多挑戰,無法同時滿足四個目標:應對所有型別的攻擊(O1)、引入可忽略的額外延遲(O2)、對檢測出的越獄訪問提供可解釋性(O3),以及同時適用於開源和閉源模型(O4)。SelfDefend 框架的靈感來源於傳統安全領域中的 “影子棧”(Shadow Stack)概念。影子棧透過建立一個並行的記憶體空間來防禦記憶體溢位攻擊,而 SelfDefend 則透過建立一個並行的 “影子 LLM” 來檢測潛在的有害查詢。具體來說,SelfDefend 框架包含兩個並行的 LLM 例項:一個用於正常響應使用者查詢的目標 LLM(
),另一個用於檢測有害內容的防禦 LLM(
)。當使用者輸入查詢時,目標 LLM 會正常處理查詢並生成響應,而防禦 LLM 則透過特定的檢測提示詞(
)來識別查詢中的有害部分或意圖。這種設計帶來了多重優勢:首先,它同時利用了目標 LLM 的安全對齊機制和防禦 LLM 的越獄檢測能力,形成了雙重保護層,顯著提高了防禦成功率;其次,由於防禦 LLM 的輸出通常較短(如 “No” 表示無問題),正常查詢的響應延遲幾乎可以忽略不計;然後檢測出的有害部分或者惡意意圖可以作為防禦的可解釋性;最後,由於防禦 LLM 不需要修改或監控目標 LLM 的內部機制,因此可以相容開源和閉源模型。研究團隊透過大量實驗驗證了 SelfDefend 框架的有效性。實驗結果表明,基於 GPT-3.5 和 GPT-4 的 SelfDefend 能夠顯著降低多種越獄攻擊的成功率。例如,基於 GPT-3.5 的 SelfDefend 將攻擊成功率(ASR)從平均 65.7% 降低至 0.236,而基於 GPT-4 的 SelfDefend 更是將 ASR 降低至平均 0.050。此外,SelfDefend 對正常查詢的影響微乎其微,GPT-3.5 和 GPT-4 的正常查詢透過率僅分別下降了 0.51% 和 2.77%。為了進一步降低成本和提升魯棒性,研究團隊還透過資料蒸餾方法對開源的 Llama-2-7b 模型進行了微調,生成了專用的防禦模型。實驗表明,這些微調後的模型在防禦效果上與基於 GPT-4 的 SelfDefend 相當,且額外延遲顯著降低。例如,微調後的模型在正常查詢中的平均延遲僅為 0-0.01 秒,而在攻擊場景中的最大延遲從 GPT-4 的 1.56 秒降低至 0.39 秒。研究團隊還將 SelfDefend 與現有的七種主流防禦方法進行了對比,包括 ICD、SafeDecoding、Perplexity Filter、SmoothLLM、Llama Guard 等。實驗結果顯示,SelfDefend 在 60 個測試場景中的 55 個場景中表現最優,尤其是在應對間接攻擊和多語言攻擊時,SelfDefend 的防禦效果顯著優於其他方法。此外,SelfDefend 的額外延遲也遠低於其他防禦方法,使其在實際部署中更具可行性。這項開創性的研究不僅為 AI 安全領域帶來了突破性進展,更揭示了一個振奮人心的訊號:AI 系統的安全性與效率不再是魚和熊掌不可兼得。透過賦予 AI' 自衛意識 ',SelfDefend 展現了一個更安全的 AI 未來:在這個未來裡,AI 系統既能保持高效服務能力,又能主動識別和抵禦潛在威脅,真正實現 ' 自我守護 '。https://x.com/rohanpaul_ai/status/1886025249273339961https://techcrunch.com/2025/02/09/deepseeks-r1-reportedly-more-vulnerable-to-jailbreaking-than-other-ai-models/