最近的文字到影像生成器由文字編碼器和擴散模型組成。如果在沒有適當安全措施的情況下部署,它們會產生濫用風險(左圖)。我們提出了潛在保護方法(右圖),這是一種旨在阻止惡意輸入提示的安全方法。我們的想法是在文字編碼器的基礎上,檢測學習的潛在空間中黑名單概念的存在。這使我們能夠檢測到超出其確切措辭的黑名單概念,並且還擴充套件到一些對抗性攻擊(“<ADV>”)。黑名單在測試時是可調的,可以新增或刪除概念而無需重新訓練。被阻止的提示不會被擴散模型處理,從而節省計算成本。
隨著生成高質量影像的能力,文字到影像(T2I)模型可能被濫用於建立不當內容。為了防止濫用,現有的安全措施要麼基於文字黑名單,這很容易被規避,要麼基於有害內容分類,這需要大量資料集進行訓練且靈活性較低。因此,我們提出了潛在保護(Latent Guard),這是一個旨在改善文字到影像生成安全措施的框架。受到基於黑名單方法的啟發,潛在保護在T2I模型的文字編碼器上學習了一個潛在空間,在該空間中可以檢查輸入文字嵌入中有害概念的存在。我們提出的框架由一個特定於該任務的資料生成管道、專門的架構元件和一種對比學習策略組成,以從生成的資料中受益。我們的方法在三個資料集上進行了驗證,並與四個基準進行了對比。
論文標題:Latent Guard: a Safety Framework for Text-to-image Generation
論文連結:https://arxiv.org/abs/2404.08031
程式碼&資料集連結:https://github.com/rt219/LatentGuard
方法與資料集構建
我們首先生成圍繞黑名單概念的安全和不安全提示的資料集(左側)。然後,我們利用預訓練的文字編碼器提取特徵,並透過我們的嵌入對映層將其對映到一個學習的潛在空間(中間)。在訓練過程中,只有嵌入對映層會更新,所有其他引數保持凍結狀態。我們透過在提取的嵌入上施加對比損失進行訓練,拉近不安全提示和概念的嵌入,同時將它們與安全提示的嵌入區分開來(右側)。
對於 C 個概念,我們根據第 3.1 節中的描述,使用大型語言模型 (LLM) 對不安全的 U 提示進行取樣。然後,我們透過用同義詞替換 c(同樣使用 LLM)來建立同義詞提示,並得到 U^syn。此外,我們使用對抗攻擊方法將 c 替換為 "<ADV>" 對抗文字 (U^adv)。安全提示 S 從 U 中獲得。這對於每個 ID 和 OOD 資料都執行。
實驗結果
我們提供了 Latent Guard 和基準模型在 CoPro 上的準確率 (a) 和 AUC (b)。在所有設定中,我們的排名均為第一或第二,僅在顯式 ID 訓練資料上進行訓練。圖 (c) 顯示了 CoPro 提示和生成影像的示例。不安全的生成影像證明了我們資料集的質量。Latent Guard 是唯一能夠阻止所有測試提示的方法。
在未見資料集上的評估。我們在現有資料集上測試了 Latent Guard,包括 Unsafe Diffusion 和 I2P++。儘管輸入的 T2I 提示分佈與 CoPro 中的分佈不同,我們仍然超越了所有基準,並實現了穩健的分類。
速度和特徵空間分析
計算成本。我們測量了在 c_check 中不同批次大小和概念下的處理時間和記憶體使用。在所有情況下,資源需求都很有限。
特徵空間分析。在 CoPro 上訓練 Latent Guard 會自然地出現安全/不安全區域(右側)。在 CLIP 潛在空間中,安全和不安全的嵌入混合在一起(左側)。
更多研究細節,可參考原論文。