遷移學習(DCCL)《Domain Confused Contrastive Learning for Unsupervised Domain Adaptation》

加微信X466550探討發表於2023-04-04

論文資訊

論文標題:Domain Confused Contrastive Learning for Unsupervised Domain Adaptation
論文作者:Quanyu Long, Tianze Luo, Wenya Wang and Sinno Jialin Pan
論文來源:NAACL 2023
論文地址:download 
論文程式碼:download
視屏講解:click

1 介紹

  引入:

    • 監督對比學習不適用於 NLP 無監督域適應,因為存在語法差異、語義偏移;

    

    Note:域差異較大:對比於影像之間的域差異,文字之間的域差異相對較大;

    • 從領域適應的角度來看,構建跨域正樣本和對齊域不可知對在相關文獻中得到的重視較少;
      • 跨域正樣本對齊:對比學習中的正取樣減少了域差異;
      • 對齊域不可知:即下文提到的將源域、目標域和領域謎題 對齊;

  提出:

    • 領域謎題(domain puzzle):丟棄與領域相關的資訊來混淆模型,因此很難區分這些謎題屬於哪個領域;

    

    • Fig 1:領域謎題可被認為是中間域,目的是使源樣本和目標樣本更接近,並透過學習域不變表示來連線兩個域;

  建議:

    • 不建議在源域和目標域之間直接尋找匹配的句子,而是利用源(目標)資料及其相應的領域謎題來減少域的差異,如 Fig1 所示。

    

    • 製作領域謎題的一個簡單想法是遮蔽特定於領域的 Token,然而,Token 級的操作過於離散和不靈活,無法反映自然語言中的複雜語義變化。因此,本文的目標是尋找更好的領域謎題,在每個訓練例項的表示空間中保持高置信度的預測和任務辨別能力;

2 相關工作

2.1 對抗訓練

  域對抗訓練已經被證明可以提高很多自然語言模型的效能,這類演算法通常考慮對單詞嵌入的擾動,並減少輸入樣本週圍的對抗損失,對抗訓練的目標是:

    $\underset{\theta_{f}, \theta_{y}}{\text{min}}\sum\limits _{(x, y) \sim \mathcal{D}}\left[\max _{\delta} \mathcal{L}\left(f\left(x+\delta ; \theta_{f}, \theta_{y}\right), y\right)\right]$

  標準的對抗訓練可用透過使用虛擬對抗訓練進行正則化:

    $\begin{array}{r}\underset{\theta_{f}, \theta_{y}}{\text{min}} \sum_{(x, y) \sim \mathcal{D}}[\mathcal{L}(f(x ; \theta_{f}, \theta_{y}), y)+\alpha_{a d v}\underset{\delta}{\text{max}} \mathcal{L}(f(x+\delta ; \theta_{f}, \theta_{y}), f(x ; \theta_{f}, \theta_{y}))]\end{array}$

  內部最大化可以透過投影梯度下降(PGD)來求解,對抗性擾動 $\delta$ 的近似:

    $\delta_{t+1}=\Pi_{\|\delta\|_{F} \leq \epsilon}\left(\delta_{t}+\eta \frac{g_{y}^{a d v}\left(\delta_{t}\right)}{\left\|g_{y}^{a d v}\left(\delta_{t}\right)\right\|_{F}}\right)$

    $g_{y}^{a d v}\left(\delta_{t}\right)=\nabla_{\delta} \mathcal{L}\left(f\left(x+\delta_{t} ; \theta_{f}, \theta_{y}\right), y\right)$

  其中,$\Pi_{\|\delta\|_{F} \leq \epsilon}$ 在 $\epsilon$ 球上執行投影。PGD 的優點在於它只依賴於模型本身來產生不同的對抗性樣本,使模型能夠更好地推廣到不可見的資料。

3 方法

  整體框架:

  

  該模型將以源標記和未標記的目標句子作為輸入。然後,它將透過製造對抗性擾動來增加輸入資料。下一步用一個編碼器生成一個隱藏表示,該編碼器將進一步用於產生三個損失來訓練整個模型,即情緒分類損失、對比損失和一致性損失。

3.1 製作領域謎題

  對於 UDA,Saito等人[2017] 提到,簡單地匹配分佈並不能確保沒有目標標籤的目標域的高精度。此外,它還可能導致負轉移,惡化知識從源域向目標域的轉移。即使匹配的句子具有相同的標籤,由於巨大的句法和語義轉移,基於例項的匹配策略對齊來自不同域的例子,也會為預先訓練的語言模型引入噪聲,例如在 Fig3 中對齊源域和目標域句子。

  或者,我們也可以定位和遮蔽與句子主題和型別相關的領域特定的標記。由於 Fig3 中綠色框中的句子成為領域不可知的,我們將那些領域混淆的句子(無法判斷這些句子屬於哪個領域)稱為領域謎題。將源域與域難題以及目標域和域難題之間的匹配分佈,也將使語言模型產生域不變表示。

  然而,特定領域的標記並不總是明顯的,由於自然語言的離散性,在不影響語義的情況下決定正確的標記是一個挑戰,特別是當句子是複雜的。因此,我們在表示空間中尋找領域謎題,並引入對抗性擾動,因為我們可以依賴模型本身來產生不同但有針對性的領域謎題。請注意,這裡的對抗性攻擊的目的不是為了增強魯棒性,而是為了構造精細產生的擾動,以便在表示空間中獲得更好的域不變性。

  為了生成域混淆的增強,我們採用帶有擾動的對抗性攻擊來進行域分類。使用對抗性攻擊學習域分類器的損失可以指定如下:

    $\begin{array}{l}\mathcal{L}_{\text {domain }}=\mathcal{L}\left(f\left(x ; \theta_{f}, \theta_{d}\right), d\right)+\alpha_{a d v} \mathcal{L}\left(f\left(x+\delta ; \theta_{f}, \theta_{d}\right), f\left(x ; \theta_{f}, \theta_{d}\right)\right)\end{array}$

    $\delta=\Pi_{\|\delta\|_{F} \leq \epsilon}\left(\delta_{0}+\eta \frac{g_{d}^{a d v}\left(\delta_{0}\right)}{\left\|g_{d}^{a d v}\left(\delta_{0}\right)\right\|_{F}}\right)$

3.2 學習域不變特徵

  在獲得域難題後,簡單地應用分佈匹配將會犧牲從源域學習到的判別知識,而基於例項的匹配也會忽略全域性域內資訊。為了在沒有目標標籤的情況下學習情感方面的辨別性表徵,我們建議透過對比學習來學習領域不變特徵。  

  此外,對比損失鼓勵正對彼此接近,而負對相距很遠。具體來說,最大化正對之間的相似性學習基於例項的不變表示,最小化負對之間的相似性從全域性視角學習均勻分佈的表示,使聚集在任務決策邊界附近的例項彼此遠離。這將有助於增強學習模型的任務辨別能力。

    

  對於正取樣,希望模型能夠將原始句子和大多數具有領域挑戰性的示例編碼為在表示空間中更接近,隨著訓練的進行逐漸將示例拉到域決策邊界。 對於負取樣,它擴大了情感決策邊界,併為兩個領域提升了更好的情感判別特徵。 然而,對於跨域負取樣,對比損失可能會將目標(源)域中的負樣本推離源(目標)域中的 anchor(見F ig4(b)左)。 這與試圖拉近不同領域的領域謎題的目標相矛盾。 

    

  為了避免跨域排斥的損害,從負集中排除具有不同域的樣本非常重要。修改後的 InfoNCE 損失:

    $\mathcal{L}_{\text {contrast }}=-\frac{1}{N} \sum\limits _{i}^{N} \log \frac{\exp \left(s\left(z_{i}, z_{i}^{\prime}\right) / \tau\right)}{\sum_{k}^{N} \mathbb{1}_{k \neq i} \exp \left(s\left(z_{i}, z_{k}\right) / \tau\right)}$

  其中 $N$ 是具有來自同一域的樣本的小批次大小,$z_{i}=g\left(f\left(x_{i} ; \theta_{f}\right)\right)$,$g(\cdot)$ 是一個隱藏層投影頭。 我們將 $x^{\prime}=x+\delta$ 表示為域拼圖增強,$s(\cdot)$ 計算餘弦相似度,$\mathbb{I}_{k \neq i}$ 是指示函式,$\tau$ 是溫度超引數。

3.3 一致性正則化

  給定基於域分類的擾動嵌入 $x+\delta$,我們還鼓勵模型產生與原始例項 $f\left(x ; \theta_{f}, \theta_{y}\right)$ 一致的情感預測。

  為此,我們最小化對稱 $KL$ 散度,公式為:

    $\mathcal{L}_{\text {consist }}=\mathcal{L}\left(f\left(x ; \theta_{f}, \theta_{y}\right), f\left(x+\delta ; \theta_{f}, \theta_{y}\right)\right)$

3.4 整體訓練目標

  對於整體訓練目標,我們以端到端的方式訓練神經網路,損失加權和如下。

    $\begin{array}{l}\min _{\theta_{f}, \theta_{y}, \theta_{d}} \sum_{(x, y) \sim \mathcal{D} S} \mathcal{L}\left(f\left(x ; \theta_{f}, \theta_{y}\right), y\right)+\sum_{(x, y) \sim \mathcal{D}^{S}, \mathcal{D}^{T}}\left[\alpha \mathcal{L}_{\text {domain }}+\lambda \mathcal{L}_{\text {contrast }}+\beta \mathcal{L}_{\text {consist }}\right] \end{array}$

4 實驗

引數敏感實驗

  

視覺化分析

  

5 總結

  略

相關文章