本文介紹了Hinton團隊發表在NeurIPS 2020上的一項研究工作,一作是Ting Chen,研究人員首次在ImageNet上嘗試了半監督學習的典型正規化,並取得了優越的結果。此外,他們還發現,網路的規模越大,需要的標籤資料越少。
論文地址:https://arxiv.org/abs/2006.10029
僅使用1%的標籤(每類≤13個標籤影像),本文提出的方法即可達到73.9%ImageNet top-1準確率,與以前的SOTA相比,標籤效率提高了10倍。
使用10%的標籤,本文的方法可以達到77.5%的top-1準確率,優於使用100%標籤的標準監督訓練。
“無監督預訓練、監督微調”正規化
充分利用少量標記示例和大量未標記示例進行學習是機器學習的一個長期存在的問題。
人們曾經提出一種半監督學習來試圖解決這個問題,其中涉及無監督或自監督的預訓練,然後進行有監督的微調。
這種方法在預訓練期間以與任務無關的方式利用未標記的資料,僅在有監督微調時使用帶標籤的資料。
這種方法在計算機視覺上很少受關注,但是在自然語言處理中已成為主流。例如,人們首先在未標記的文字(例如Wikipedia)上訓練大型語言模型,然後在一些帶標記的示例中對該模型進行微調。
基於視覺表示的自監督學習的最新進展,Ting Chen等人對ImageNet上的半監督學習進行了深入研究,並首次探索了“無監督預訓練、監督微調”正規化。
通過與任務無關的方式使用未標記資料,作者發現,網路規模非常重要。
也就是說,使用大型(在深度和廣度上)神經網路進行自監督的預訓練和微調,可以大大提高準確率。
除了網路規模之外,作者表示,這項研究還為對比表示學習提供了一些重要的設計選擇,這些選擇有益於監督微調和半監督學習。
一旦卷積網路完成了預訓練和微調,其在特定任務上的預測就可以得到進一步改善,並可以提煉成更小的網路。
為此,作者接下來再次使用了未標記的資料,以讓學生網路模仿教師網路的標籤預測。
這種使用未標記資料的蒸餾階段類似於自訓練中偽標籤的使用,但沒有增加太多額外的複雜性。
作者提出的半監督學習框架包括三個步驟,如圖3所示。
(1)無監督或自我監督的預訓練;
(2)有監督的微調;
(3)使用未標記的資料進行蒸餾。
此外,作者還開發了對比學習框架SimCLR的改進版本,用於ResNet架構的無監督預訓練,此框架被稱為SimCLRv2。
在ImageNet ILSVRC-2012上評估該方法的有效性,作者發現,僅需要1%和10%的標籤,就可以實現與過去SOTA方法相當的效能。
作者表示,對於這種正規化的半監督學習,標記越少,就越有可能受益於更大的模型,如圖1所示。
較大的自監督模型具有更高的標籤效率,即使僅對少數幾個帶有示例的示例進行微調,它們的效能也明顯更好。
因此,通過未標記資料的特定任務使用,可以進一步提高模型的預測效能,並將其遷移到較小的網路中。
作者進一步證明了,在SimCLR中用於半監督學習的卷積層之後,進行非線性變換(又稱投影頭)很重要。
更深的投影頭不僅可以改善通過線性評估測得的表示質量,而且還可以改善從投影頭中間層進行微調時的半監督效能。
結合這些發現,該框架在ImageNet上實現了半監督學習的SOTA,如圖2所示。
線上性評估協議下,SimCLRv2實現了79.8%的top-1準確率,相對於之前的SO他的改進為4.3%。
如果僅對1%/ 10%的標記示例進行微調,並使用未標記的示例將其蒸餾至相同的架構,則可以達到76.6%/ 80.9%的top-1準確率,相對於以前的SOTA,準確率提高了21.6%/ 8.7%。
通過蒸餾,這些改進也可以遷移到較小的ResNet-50網路中,使用1%/ 10%的標籤達到73.9%/ 77.5%的top-1準確率。
相比之下,對所有標籤影像進行訓練的標準監督ResNet-50可以達到76.6%的top-1準確率。
表3:在半監督設定下訓練的模型的ImageNet準確率。對於本文的方法,上表展示了在微調後進行蒸餾的結果。對於較小的模型,使用自蒸餾的ResNet-152(3×+ SK)作為教師網路。
關於一作
Ting Chen於2019年加入谷歌大腦,擔任研究科學家。他在2019年3月獲得了加州大學洛杉磯分校電腦科學系的博士學位,導師是UCLA電腦科學系的副教授孫怡舟。他也是論文SimCLR的一作。