Machine Unlearn Method
半白盒攻擊
LLM unlearning [1] [2] 可以視為RLHF的替代方案, 用於消除LLM的幻覺, 刪除受版權保護的內容等, 也可以視為事後防禦策略, 用於防止JailBreak
在Eraser: Jailbreaking Defense
[2:1]文章中, 作者直觀地認為同一個問題的多個答案應當有相似之處, 所以資料集的構建上 , 作者使用其他未經審查的模型獲取有害回答以構建有害內容資料集\(D_f\)
針對我們使用的半白盒攻擊, 我們並不是使用對抗性字尾觸發Jailbreak, 因此我們的訓練目標應該改成:
其中\(y^*\)是白盒攻擊下我們設定的模型response的字首(諸如 "here is", "1."等等)
資料集\(D_h\) : 為了保留與實體相關的一般性知識建立的資料集
資料集\(D_r\):為了鼓勵模型具備相似拒絕能力而建立的資料集
最小化\(L_r\)以期望模型\(f\)和微調後的\(h\)儘可能相似
這一步的對機率求解: 我們可以在LLaMa中使用之前提出的半白盒實現
我們的訓練目標變為
基於原論文所提到的[3], 我們也為\(L_f\)提供一個閾值.
資料集 | 內容 |
---|---|
D_f | 一個有害內容的資料集 |
D_h | 保留一般性知識而建立的資料集, 使用類似 {實體}的定義,作用,應用場景,優缺點 的prompt ,透過LLM得到 |
D_r | 為了鼓勵模型具備相似拒絕能力而建立的資料集, 使用原始的有害問題建立 |
ref
Yao Y, Xu X, Liu Y. Large language model unlearning[J]. arXiv preprint arXiv:2310.10683, 2023.MLA ↩︎
Lu W, Zeng Z, Wang J, et al. Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge[J]. arXiv preprint arXiv:2404.05880, 2024. ↩︎ ↩︎
we observe that prolonged unlearning training can have a detrimental effect on the model’s performance over time. Therefore, we aim to set a constraint for the unlearning objective and focus on optimizing the remaining two objectives after sufficient unlearning training ↩︎