模型安全武裝,復旦新研究實現SOTA擴散模型風險概念擦除效果,入選AAAI 2025

机器之心發表於2025-02-24
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文第一、第二作者為復旦大學視覺與學習實驗室的碩士生韓楓和博士生陳凱。通訊作者為陳靜靜副教授。研究團隊專注於 AI 安全的研究,近年來在 CVPR,ECCV,AAAI,ACM MM 等頂會上發表過多篇 AI 安全的研究成果。

文生圖模型生成圖片過於露骨?不妨直接給影像穿上衣服。

復旦大學團隊設計的風險概念移除網路 DuMo 不僅實現上述功能,同時儘可能保證人物以及其他屬性不受影響。達到現有最好的指哪擦哪效果。
圖片
同時,DuMo 也可避免文生圖模型模仿藝術家風格,從而製作一些侵犯版權的照片。
圖片
隨著生成式人工智慧技術的快速發展,擴散模型影像生成能力已達到了令人驚歎的高度。然而,這一技術也伴隨著安全隱患,例如生成含有敏感、不當或侵犯版權的內容。

現有方法一般透過一種名為概念陳擦除的微調方法以實現模型去毒。

復旦大學研究團隊提出了一種全新的雙編碼器調製網路(DuMo),透過創新性的架構和演算法,實現了對擴散模型中特定風險概念的精準擦除,在擦除效果和精確度方面均達到 SOTA 水平,研究成果已被頂級會議 AAAI 2025 收錄。
圖片
  • 論文:DuMo: Dual Encoder Modulation Network for Precise Concept Erasure
  • 論文連結:https://arxiv.org/abs/2501.01125

DuMo:擦除風險內容,保護生成能力

當前的概念擦除技術普遍面臨兩個挑戰:一是難以有效擦除風險概念,二是擦除過程中,微調後模型對其他安全概念的生成能力被破壞。DuMo 在這兩個方面取得了突破,成功地解決了「擦除」和「保護」之間的矛盾。

具體而言,U-Net 特徵分為主幹網路特徵,和跳躍連線特徵。其他方法都對 U-Net 的主幹特徵進行了修改,會對安全概念的生成產生不良影響,破壞其結構完整性 [1]。此外,跳躍連線特徵的潛力沒有得到充分挖掘,這限制了模型在執行概念擦除時的能力,同時也影響了模型的生成效果 [2]。
圖片
DuMo 透過對 EPR 擦除模組和時間 - 層級調製機制(TLMO)的兩階段微調以實現上述效果:

1、基於跳躍連線的 EPR 擦除模組

DuMo 採用了創新性的「基於先驗知識的擦除模組」(EPR)。EPR 擦除模組是由一份 U-Net Enoder 的副本和零卷積組拼接得到的。零卷積組的卷積層引數被初始化為零,而且原始 U-Net 主幹的引數被凍結,其包含的模型先驗知識被全部保留,只有跳躍連線特徵被修改,從而最大程度避免對安全概念的結構和生成質量產生負面影響 [1]。第一階段微調過程中 DuMo 將不安全概念(例如「裸露」)對齊到目標概念(例如,空文字 「 」)以達到概念擦除的效果
圖片
2、時間 - 層級調製(TLMO)機制

作者觀察到,EPR 模組在不同的跳躍連線層和去噪時間步上,對影像中的低頻結構元素和高頻細節部分表現出不同的擦除偏好。透過將跳躍連線層和時間步分組,DuMo 發現不同層級和時間步對影像的影響不同,因此採取了特定的調整策略。
圖片
DuMo 設計了一個獨特的時間 - 層級調製(TLMO)策略,針對擴散模型的生成過程中的不同時間步和網路層級,使用微調得到的調製係數,自動調整 EPR 模組不同輸出的擦除強度。
圖片
同時在第二階段的微調過程中,除了損失函式中原有的項外,還新增了一個正則項,用於將微調後的模型噪聲(對應空文字)與原始模型進行對齊。這些機制大幅減少對安全概念的影響,從而在擦除風險概念的同時,保證安全概念的生成質量和細節。
圖片
實驗驗證:擦除能力與生成保留的雙贏

DuMo 在裸露內容擦除、卡通概念移除和藝術風格擦除三個任務上進行了全面驗證,其表現優於當前所有主流方法。

裸露內容擦除

在風險性最高的「裸露內容擦除」任務中,DuMo 在 I2P 基準資料集上的表現令人矚目:

  • 裸體部位檢測數量僅為 34 個,是現有最佳方法。

  • 生成影像的質量指標(FID)與 CLIP Score 均達到頂尖水平,生成能力顯著優於其他方法。

圖片
在擦除裸露概念後,DuMo 還能很好的保持影像的結構。如第一行人物的姿勢和第二行人物位置與背景。
圖片
卡通概念移除

針對「Snoopy」等流行卡通概念的擦除任務,DuMo 實現了更好的平衡:

  • 單概念擦除任務中,LPIPS_da(擦除效果 - 生成能力保留平衡性)提升了 0.096;

  • 多概念擦除任務中,LPIPS_da 進一步提升了 0.142,證明其對複雜任務的優異適應性。

圖片
藝術風格擦除

在藝術風格移除任務中,DuMo 精準擦除了「梵高」和「倫勃朗」等風格特徵,同時對其他藝術家風格的破壞降到最低:
  • 實現了 SOTA 級別的風格擦除效果;

  • 定量指標 LPIPS_da 表現顯著優於對比方法。

圖片
在擦除梵高風格的實驗中,其他藝術家風格圖片的生成也不受影響。
圖片
參考文獻

[1] Si, C.; Huang, Z.; Jiang, Y.; and Liu, Z. 2024. Freeu: Free lunch in diffusion u-net. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4733–4743.
[2] Luo, W.; Hu, T.; Zhang, S.; Sun, J.; Li, Z.; and Zhang, Z. 2024. Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models. Advances in Neural Information Processing Systems, 36.

相關文章