論文解讀(Debiased)《Debiased Contrastive Learning》

發表於2022-04-28

論文資訊

論文標題:Debiased Contrastive Learning
論文作者:Ching-Yao Chuang, Joshua Robinson, Lin Yen-Chen, Antonio Torralba, Stefanie Jegelka
論文來源:2020, NeurIPS
論文地址:download
論文程式碼:download

1 Introduction

  觀察的結果:將擁有不同標籤的樣本作為負樣本能顯著提高效能。

  對比學習思想:鼓勵相似對 $\left(x, x^{+}\right)$ 的表示更接近,而不同對 $\left(x, x^{-}\right)$ 的表示更遠:

    $\mathbb{E}_{x, x^{+},\left\{x_{i}^{-}\right\}_{i=1}^{N}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\sum\limits _{i=1}^{N} e^{f(x)^{T} f\left(x_{i}^{-}\right)}}\right] \quad\quad\quad(1)$

  圖解如下:

   

  抽樣偏差(sampling bias):由於真正的標籤或真正的語義相似性通常是不可用的,負對 $x^{-}$  通常從訓練資料中抽取,這意味著 $x^{-}$  實際上可能和  $x$  相似。

  $\text{Figure 2}$ 對比了不存在抽樣偏差和存在抽樣偏差的效能對比:

  

  設 $\mathcal{X}$ 上的資料分佈 $p(x)$,代表語義意義的標籤離散潛在類 $\mathcal{C}$,即相似的對 $\left(x, x^{+}\right)$ 具有相同的潛在類。用 $\rho(c)$ 表示類分佈,得到聯合分佈 $p_{x, c}(x, c)=p(x \mid c) \rho(c)$。

  設 $h: \mathcal{X} \rightarrow \mathcal{C}$ 是潛在類標籤分配函式,然後  $p_{x}^{+}\left(x^{\prime}\right)=p\left(x^{\prime} \mid h\left(x^{\prime}\right)=h(x)\right) $ 中觀察到的 $x^{\prime}$ 是 $x$ 的正對的概率,$p_{x}^{-}\left(x^{\prime}\right)=p\left(x^{\prime} \mid h\left(x^{\prime}\right) \neq h(x)\right)$ 中觀察到的 $x^{\prime}$ 是 $x$ 的負對的概率。

  假設類 $c$ 概率 $\rho(c)=\tau^{+}$ ,不是的概率為 $\tau^{-}=1-\tau^{+}$ 。

  綜上,對比損失函式可以優化為:

    ${\large L_{\text {Unbiased }}^{N}(f)=\mathbb{E}_{\substack{x \sim p, x^{+} \sim p_{-}^{+} \\ x_{i}^{-} \sim p_{x}^{-}}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\frac{Q}{N} \sum\limits_{i=1}^{N} e^{f(x)^{T} f\left(x_{i}^{-}\right)}}\right]} \quad\quad\quad(2)$

  其中,$Q $ 代表著權重引數。當 $Q=N$ 時,即標準的對比損失函式。

  對有偏對比損失函式和無偏對比損失函式的分析:

  Lemma 1. For any embedding $f$ and finite $N$, we have

    ${\large L_{\text {Biased }}^{N}(f) \geq L_{\text {Unbiased }}^{N}(f)+\mathbb{E}_{x \sim p}\left[0 \wedge \log \frac{\mathbb{E}_{x^{+} \sim p_{x}^{+}} \exp f(x)^{\top} f\left(x^{+}\right)}{\mathbb{E}_{x^{-} \sim p_{x}^{-}} \exp f(x)^{\top} f\left(x^{-}\right)}\right]-e^{3 / 2} \sqrt{\frac{\pi}{2 N}}} \quad\quad\quad(3)$

  where $a \wedge b$ denotes the minimum of two real numbers $a$ and $b$.

  Lemma 1 所帶來的問題:

    • 無偏損失越小,第二項就越大,差距就越大;
    • 最小化 $L_{\text {Biased }}^{N}$ 的上界和最小化理想情況的 $L_{\text {Unbiased }}^{N}$ 所產生的潛在表示是不同的;

2 Method

  我們首先將資料分佈(data distribution)分解為【當從 $p(x)$ 中提取樣本時,樣本 $x_{i}^{-}$ 將來自與 $x$ 相同的類,概率為 $\tau^{+}$。】

    $p\left(x^{\prime}\right)=\tau^{+} p_{x}^{+}\left(x^{\prime}\right)+\tau^{-} p_{x}^{-}\left(x^{\prime}\right)$

  相應的 

    $p_{x}^{-}\left(x^{\prime}\right)=\left(p\left(x^{\prime}\right)-\tau^{+} p_{x}^{+}\left(x^{\prime}\right)\right) / \tau^{-}$

  $\text{Eq.2}$ 的一種替代形式:

    ${\large \frac{1}{\left(\tau^{-}\right)^{N}} \sum\limits_{k=0}^{N}\left(\begin{array}{c}N \\k\end{array}\right)\left(-\tau^{+}\right)^{k} \mathbb{E}_{\substack{x p p, x^{+} \sim p_{x}^{+} \\\left\{x_{i}^{-}\right\}_{i=1}^{k} \sim p_{x}^{+} \\\left\{x_{i}^{-}\right\}_{i=k+1}^{N} \sim p}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\sum\limits_{i=1}^{N} e^{f(x)^{T} f\left(x_{i}^{-}\right)}}\right]} \quad\quad\quad(4)$

  為了得到一個更實際的形式,我們考慮了負例數 $N$ 趨於無窮時的漸近形式。

  Lemma 2. For fixed  $Q$ and $N \rightarrow \infty$  , it holds that

    $\underset{\substack{x \sim p, x^{+} \sim p_{x}^{+} \\\left\{x_{i}^{-}\right\}_{i=1}^{N} \sim p_{x}^{-N}}}{\mathbb{E}}\left[\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\frac{Q}{N} \sum\limits_{i=1}^{N} e^{f(x)^{T} f\left(x_{i}^{-}\right)}}\right]\quad\quad\quad(5)$

    ${\large \longrightarrow   \tilde{L}_{\text {Debiased }}^{Q} =  \underset{x^{+} \sim p_{x}^{+}}{\mathbb{E}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\frac{Q}{\tau^{-}}\left(\mathbb{E}_{x^{-} \sim p}\left[e^{f(x)^{T} f\left(x^{-}\right)}\right]-\tau^{+} \mathbb{E}_{v \sim p_{x}^{+}}\left[e^{f(x)^{T} f(v)}\right]\right)}\right]} \quad\quad\quad(6)$

  $\text{Eq.6}$ 仍然從 $p$ 中取樣例子 $x^−$ ,但用額外的正樣本 $v$ 來修正。這本質上是重新加權分母中的正項和負項。

  經驗估計 $\widetilde{L}_{\text {Debiased }}^{Q}$ 比直接的 $Eq.5$ 更容易計算。在資料分佈 $p$ 中取樣 $N$ 個樣本 $\left\{u_{i}\right\}_{i=1}^{N}$,在分佈 $p_{x}^{+} $ 中取樣 $M$ 個樣本 $\left\{u_{i}\right\}_{i=1}^{M}$,將  $Eq.6$ 分母中的第二項重新估計為:

    $g\left(x,\left\{u_{i}\right\}_{i=1}^{N},\left\{v_{i}\right\}_{i=1}^{M}\right)=\max \left\{\frac{1}{\tau^{-}}\left(\frac{1}{N} \sum\limits_{i=1}^{N} e^{f(x)^{T} f\left(u_{i}\right)}-\tau^{+} \frac{1}{M} \sum\limits_{i=1}^{M} e^{f(x)^{T} f\left(v_{i}\right)}\right), e^{-1 / t}\right\}\quad\quad\quad(7)$

  我們約束估計量 $g$ 大於它的理論最小值 $e^{-1 / t} \leq \mathbb{E}_{x^{-} \sim p_{x}^{-}} e^{f(x)^{T} f\left(x_{i}^{-}\right)}$ 以防止計算一個負數的對數。當資料$ N$ 和 $M$ 固定後,由此產生的損失為

    ${\large L_{\text {Debiased }}^{N, M}(f)=\mathbb{E}_{\substack{x \sim p ; x^{+} \sim p_{x}^{+} \\\left\{u_{i}\right\}_{i=1}^{N} \sim p^{N} \\\left\{v_{i}\right\}_{i=1}^{N} \sim p_{x}^{+M}}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+N g\left(x,\left\{u_{i}\right\}_{i=1}^{N},\left\{v_{i}\right\}_{i=1}^{M}\right)}\right]} \quad\quad\quad(8)$

  其中,為簡單起見,我們將 $Q$ 設定為有限的 $N$。類先驗 $\tau^{+}$ 可以從資料中估計或作為一個超引數處理。Theorem 3 將有限 $N$ 和 $M$ 引起的誤差限定為隨速率 $\mathcal{O}\left(N^{-1 / 2}+M^{-1 / 2}\right)$ 遞減。

  Theorem 3. For any embedding  $f$  and finite  $N$  and  $M$  , we have

    ${\large \left|\widetilde{L}_{\text {Debiased }}^{N}(f)-L_{\text {Debiased }}^{N, M}(f)\right| \leq \frac{e^{3 / 2}}{\tau^{-}} \sqrt{\frac{\pi}{2 N}}+\frac{e^{3 / 2} \tau^{+}}{\tau^{-}} \sqrt{\frac{\pi}{2 M}}} \quad\quad\quad(9)$

  實驗表明,較大的 $N$ 和 $M$ 始終會導致更好的效能。在實現中,我們對 $L_{\text {Debiased }}^{N, M}$ 使用一個完整的經驗估計,以平均在 $T$ 個點 $x$ 上,有限 $N$ 和 $M$ 的損失。

3 Experiments

實驗結果

  • 新的損失在視覺、語言和強化學習基準上優於先進的對比學習;
  • 學習到的嵌入更接近理想的無偏目標;
  • 大 $N$ 大 $M$  提高效能;甚至一個比標準 $M=1$ 更積極的例子可以明顯幫助;

 

相關文章