論文資訊
論文標題:Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks
論文作者:Dong-Hyun Lee
論文來源:2013——ICML
論文地址:download
論文程式碼:download
視屏講解:click
1 介紹
本文提出了一種簡單有效的深度神經網路半監督學習方法。本文所提出的網路是在監督方式下同時使用標記和未標記資料進行訓練。對於未標記資料,$\text{Pseudo-Label}$ 是選擇具有最大預測機率的類,假設他們形如真實標籤。
偽標籤等同於熵正則化,它有利於類之間的低密度分離,這是半監督學習通常假設的先驗。
2 方法
$\text{Pseudo-Label}$ 模型作為一個簡單、有效的半監督學習方法早在 2013年就被提出,其核心思想包括兩步:
-
- 第一步:運用訓練好的模型給予無標籤資料一個偽標籤,可以用機率最高的類別作為無標籤資料的偽標籤;
- 第二步:運用 $\text{entropy regularization}$ 思想,將無監督資料轉為目標函式(Loss)的正則項。實際中,就是將擁有偽標籤的無標籤資料視為有標籤的資料,然後用交叉熵來評估誤差大小;
目標函式:
$L=\frac{1}{n} \sum_{m=1}^{n} \sum_{i=1}^{C} L\left(y_{i}^{m}, f_{i}^{m}\right)+\alpha(t) \frac{1}{n^{\prime}} \sum_{m=1}^{n^{\prime}} \sum_{i=1}^{C} L\left(y_{i}^{\prime m}, f_{i}^{\prime m}\right)$
其中,左邊第一項為交叉熵,用來評估有標籤資料的誤差。第二項即為 $\text{entropy regularization}$ 項,用來從無標籤的資料中獲取訓練訊號;
為了平衡有標籤資料和無標籤資料的訊號強度,引入時變引數 $\alpha(t)$,隨著訓練時間的增加,$\alpha(t)$ 將會從零開始線性增長至某個飽和值。背後的核心想法也很直觀,早期模型預測效果不佳,因此 $\text{entropy regularization}$ 產生訊號的誤差也較大,因而 $\alpha(t)$ 應該從零開始,由小逐漸增大;
其中,$\alpha_{f}=3$、$T_{1}=100$、$T_{2}=600$。
3 為什麼偽標籤有效
低密度分離
聚類假設指出決策邊界應位於低密度區域以提高泛化效能。
熵正則化
該方案透過最小化未標記資料的類機率的條件熵來支援類之間的低密度分離,而無需對密度進行任何建模。
$H\left(y \mid x^{\prime}\right)=-\frac{1}{n^{\prime}} \sum_{m=1}^{n^{\prime}} \sum_{i=1}^{C} P\left(y_{i}^{m}=1 \mid x^{\prime m}\right) \log P\left(y_{i}^{m}=1 \mid x^{\prime m}\right)$
熵是類重疊的量度,隨著類別重疊的減少,決策邊界處的資料點密度會降低。
使用偽標籤作為熵正則化進行訓練
視覺化結果:
在使用神經網路進行分類時, $y^{u}=f_{\theta^{*}}^{*}\left(x^{u}\right)$ , 其中 $y_{u}$ 是 one-hot 編碼。現在我們並不限制其必須是某個類 別, 而是將其看做1個分佈, 我們希望這個分佈越集中越好("非黑即白"), 因為分佈越集中時它的含義就是樣本 $x^{u}$ 屬於某類別的機率很大屬於其它類別的機率很小。
我們可以使用 Entropy 評估分佈 $ y^{\mu}$ 的集中程度 $ E\left(y^{\mu}\right)=-\sum_{m=1}^{5} y_{m}^{\mu} \ln \left(y_{m}^{\mu}\right)$ , 假設是5分類, 其值越小則表示分佈 $ y^{\mu}$ 越集中。
如下圖左側所示, 上面兩個的 $E$為 0 , 所以 $\mathrm{y}$ 的分佈很集中; 最後一個 $\mathrm{E}=1 / 5 $, 比上面兩個大, 我們 只管也可以看出, 他的分佈不那麼集中。
參考