MachineUnlearn 的一種方法

Mintisn發表於2024-05-27

Machine Unlearn Method

半白盒攻擊

image-20240424152946459

LLM unlearning [1] [2] 可以視為RLHF的替代方案, 用於消除LLM的幻覺, 刪除受版權保護的內容等, 也可以視為事後防禦策略, 用於防止JailBreak

Eraser: Jailbreaking Defense [2:1]文章中, 作者直觀地認為同一個問題的多個答案應當有相似之處, 所以資料集的構建上 , 作者使用其他未經審查的模型獲取有害回答以構建有害內容資料集\(D_f\)

\[L_f=\frac{1}{\left|D_f\right|}\sum_{(x,y)\in D_f}\sum_{i=1}^{|y|}\log\left(p\left(y_i\mid T(x),y_{<i}\right)\right) \]

針對我們使用的半白盒攻擊, 我們並不是使用對抗性字尾觸發Jailbreak, 因此我們的訓練目標應該改成:

\[L^*_f=\frac{1}{\left|D_f\right|}\sum_{(x,y)\in D_f}\sum_{i=1}^{|y|}-\log\left(p\left(y_i\mid y^*_{<i}\right)\right) \]

其中\(y^*\)是白盒攻擊下我們設定的模型response的字首(諸如 "here is", "1."等等)

資料集\(D_h\) : 為了保留與實體相關的一般性知識建立的資料集

\[L_h=\frac{1}{|D_h|}\sum_{(x,y)\in D_h }\sum_{i=1}^{|y|}KL\Big(h\Big(x,y_{<i}\Big) | |f\Big(x,y_{<i}\Big)\Big) \]

資料集\(D_r\):為了鼓勵模型具備相似拒絕能力而建立的資料集
最小化\(L_r\)以期望模型\(f\)和微調後的\(h\)儘可能相似

\[L_r=\frac{1}{|D_r|}\sum_{(x,y)\in D_r}\sum_{i=1}^{|y|}KL\Big(h\Big(x,y_{<i}\Big) | |f\Big(x,y_{<i}\Big)\Big) \]

這一步的對機率求解: 我們可以在LLaMa中使用之前提出的半白盒實現

我們的訓練目標變為

\[L=\text{Min}\left(\begin{array}{c}0,L^*_f-\gamma\end{array}\right)+L_h+L_r \]

基於原論文所提到的[3], 我們也為\(L_f\)提供一個閾值.

資料集 內容
D_f 一個有害內容的資料集
D_h 保留一般性知識而建立的資料集, 使用類似 {實體}的定義,作用,應用場景,優缺點 的prompt ,透過LLM得到
D_r 為了鼓勵模型具備相似拒絕能力而建立的資料集, 使用原始的有害問題建立

ref


  1. Yao Y, Xu X, Liu Y. Large language model unlearning[J]. arXiv preprint arXiv:2310.10683, 2023.MLA ↩︎

  2. Lu W, Zeng Z, Wang J, et al. Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge[J]. arXiv preprint arXiv:2404.05880, 2024. ↩︎ ↩︎

  3. we observe that prolonged unlearning training can have a detrimental effect on the model’s performance over time. Therefore, we aim to set a constraint for the unlearning objective and focus on optimizing the remaining two objectives after sufficient unlearning training ↩︎

相關文章