生成式AI如何告別色情、版權困擾?基於權重顯著性的機器遺忘演算法有奇效

机器之心發表於2024-04-19

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

近期,矽谷 AI 公司 OpenAI 可謂是話題度拉滿,先是一出「宮鬥戲」引起輿論譁然,後是公佈 Sora 效果炸裂受到了全網的一致好評。在這期間,一樁訴訟案件同樣引爆了熱點 —— 因 ChatGPT 涉嫌侵犯紐約時報著作權,OpenAI 及微軟被起訴並要求支付鉅額版權費 [1]。一方是傳統新聞行業的代表刊物,一方是新興人工智慧技術發展中的佼佼者。雙方展開這場「里程碑式」拉鋸戰的同時,也將科研圈長期存在的問題再次拉上了檯面:

在 AI 高速發展的浪潮中,如何在保持技術創新的同時不失對於資料安全問題的考量?

的確,隨著近年來產業化模型的逐步發展,資料安全在個人隱私、模型安全、版權問題等多方面都受到了嚴峻的挑戰,如:語言模型因引入個人資訊而埋下的隱私洩露隱患;擴散生成模型因訓練資料中涵蓋色情、暴力等不良影像而導致具備產生違法內容的能力。此外,諸如國家網際網路資訊辦公室頒佈的《生成式人工智慧服務管理暫行辦法》[2],以及歐盟的《一般資料保護條例》[3](GDPR)等也意味著對於資料安全的約束也逐漸從道德層面轉向了法律、法規層面。人們對於資料安全的需求逐漸從幕後轉向了臺前,對於機器學習相關研究者以及現有人工智慧服務的提供者而言也是亟待解決的問題與挑戰。

直觀而言,移除敏感資料並重新訓練(Retrain)是一種合理的消除資料影響並保證模型安全的方法。然而,訓練模型對時間和算力的消耗不容小覷,對於一些已經產業化並投入使用的大模型,重新訓練的額外開銷會急劇增大。如何快速有效的消除資料對模型帶來的影響 —— 機器遺忘,便成為了一個新興的熱門研究方向。

什麼是機器遺忘?

機器遺忘(Machine Unlearning, 也可稱機器「反」學習),這種方法旨消除特定訓練資料(如敏感或非法資訊)對已完成預訓練模型的影響,同時保持該模型的實用性。在評估一種機器遺忘方法時,我們需從三個關鍵維度出發:

1. 高效:演算法是否高效執行;
2. 精準:特定資料是否被精準遺忘;
3. 穩定:遺忘後模型是否具有穩定泛化能力。

遺憾的是,現有的機器遺忘方法都無法同時滿足這三個維度的要求。近日,密歇根州立大學(Michigan State University)、賓夕法尼亞大學(University of Pennsylvania)和 IBM 研究院(IBM Research)的研究者們分析了已有機器遺忘方法的侷限性,基於權重顯著性提出了一種簡單、直觀但表現優異的機器遺忘框架 ——SalUn(Saliency Unlearn)。實驗結果表明,在影像分類影像生成任務上,SalUn 都能夠出色地滿足高效、精準和穩定這三個維度的要求,證明了其在機器遺忘領域的創新性和重要性。

圖片

  • 論文題目:SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation
  • 論文地址:https://arxiv.org/abs/2310.12508
  • 程式碼地址:https://github.com/OPTML-Group/Unlearn-Saliency

論文的共同一作樊翀宇在密歇根州立大學交流期間(目前是華中科技大學的本科生,即將加入密歇根州立大學攻讀博士學位),與清華姚班畢業生劉劍成協作完成了這項研究。目前,相關論文已被人工智慧領域的頂級會議 ICLR 2024 錄用為 Spotlight。

圖片

「裸體」概念遺忘前後對比;(中)「狗」類遺忘前後對比;(右)「素描」風格遺忘前後對比 [5]

現有機器遺忘方法存在哪些侷限?

1. 在分類任務下的不穩定性:現有方法在影像分類中不同遺忘任務下的表現仍存在差異性。從下圖可以看到,在遺忘資料量為 10% 時,一些基線方法如 l1-sparse [6] 可以接近理想的遺忘效果,但當遺忘資料量逐步增加,特別是達到 50% 時,現有方法與理想的遺忘差距顯著增大。

圖片

現有方法在不同遺忘資料量下與理想遺忘效果遺忘效果間的差值

2. 在生成任務下無法泛化:目前已有的機器遺忘方法集中於影像分類任務,不能適應影像生成。如下圖所示,當現有的遺忘方法直接遷移到生成模型上時,往往不是過度遺忘就是遺忘不足 —— 模型要麼模型對於非遺忘類影像的生成質量不佳,要麼仍然具有生成被遺忘類別的能力。

圖片

現有方法在生成任務上的表現

SalUn:基於權重顯著性的機器遺忘

對於不同任務的分析表明,當遺忘任務逐步變難時,遺忘資料和剩餘資料在這些任務下可能產生更強的耦合進而導致已有方法無法在保證遺忘效果的同時維持模型的泛化能力。為了達到更加精準的移除,本文在機器遺忘中引入模組化(modularity)思想,提出了基於權重顯著性(Weight Saliency)的機器遺忘方法 ——SalUn。

一般而言,顯著性是指模型在做出決策或預測時認為最相關或最重要的資料特徵。而權重顯著性將此概念擴充套件到模型的內部權重,確定哪些權重對模型的結果影響最大。SalUn 利用遺忘損失梯度預估相關的權重顯著性,篩選出對遺忘資料敏感的權重,並著重對這部分權重進行遺忘。透過對於模型權重的精確掩模,SalUn 在消除模型中對應資料影響的同時儘可能減少對模型泛化能力的損害,以達到遺忘精準度和泛化穩定性之間更好的平衡,在不同任務下的遺忘中達到了一個統一、有效且簡單的解決方案。

圖片

具體而言,對於機器遺忘更新後的權重(θu)可以經權重掩碼(ms)表示為:

圖片

其中,權重掩碼使用遺忘損失函式ℓf 的梯度作為顯著性預估,並基於閾值 γ 進行篩選。文中發現,當ℓf 使用基於梯度上升(Gradient Ascent)的遺忘損失函式時即可取得較好效果,即:

圖片

可以發現,SalUn 的一個優點便是它即插即用的能力:權重掩模對於現有的遺忘方法均可無門檻使用,並在遺忘表現上獲得一定的提升。特別是,當將權重顯著性與隨機標籤(Random Label)遺忘法相結合時,取得了目前 SOTA 的遺忘效果。隨機標籤遺忘為需遺忘的資料重分配一個隨機標籤,然後在重標籤的資料集上微調模型。因此,最佳化過程及損失函式可分別表示如下:

圖片

實驗結果

影像分類任務中,兩個主要的測試場景為類遺忘和隨機資料遺忘。類遺忘是針對特定資料集上訓練的模型,遺忘指定類的全部資料;隨機資料遺忘則隨機指定一定比例的訓練資料進行遺忘。在兩種場景中,與 Retrain 的表現誤差會越小意味著遺忘表現越好。已有文獻表明 [6],相較於類移除,隨機資料移除更有挑戰性,因此文中考慮影像分類時主要關注於 CIFAR-10 中 ResNet-18 模型在不同比例下的隨機資料遺忘。相較於其他基線方法,SalUn 在所有實驗中與 Retrain 間的平均差距均為最小,取得了目前的 SOTA 效果。

圖片

影像生成任務中,主要的測試場景包含類遺忘和概念遺忘。其中,類遺忘與影像分類中類似,旨在消除模型中針對特定類的生成能力。文中探討了將 Stable Diffusion 模型消除 ImageNette 資料集中不同類的效果。下圖展示了 SalUn 遺忘「教堂」類前後模型生成效果的比較,可以發現在遺忘後模型在保持其餘類生成效果的同時,無法根據文字提示「An image of church」(一張教堂圖片)正確的生成對應影像。

圖片

略區別於類遺忘,生成模型中的概念(concept)遺忘通常指消除更為廣泛的「概念」,如暴力、色情等。由於擴散模型訓練資料量過於龐大,從中篩選並刪除相關資料變得異常困難。如前文所述,目前 Stable Diffusion 仍然存在生成 NSFW 內容的能力,這自然成為了一種機器遺忘的應用場景。對此,文中測試了 SalUn 針對「裸體」概念的移除效果,並使用 I2P [4] 測試集對於遺忘效果進行測試。在此應用場景下,SalUn 相較於已有的概念移除的方法,能更好的消除「裸體」概念。

原論文中展示了更多研究細節以及經過 SalUn 遺忘前後的生成影像示例,感興趣的讀者可參考。

參考文獻:
[0] Fan, Liu, et al., "Salun: Empowering machine unlearning via gradient-based weight saliency in both image classification and generation." ICLR’23.
[1] https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
[2] https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
[3] https://gdpr-info.eu/
[4] Schramowski, Patrick, et al. "Safe latent diffusion: Mitigating inappropriate degeneration in diffusion models." CVPR’23.
[5] Zhang, et al., "UnlearnCanvas: A Stylized Image Dataset to Benchmark Machine Unlearning for Diffusion Models." arXiv.
[6] Jia, Liu, et al. "Model sparsification can simplify machine unlearning." NeurIPS’23.

相關文章