主動學習入門篇:如何能夠顯著地減少標註代價

阿里巴巴淘系技術發表於2020-09-25

前言

在大資料和算力的助力下,深度學習掀起了一波浪潮,在許多領域取得了顯著的成績。以監督學習為主的深度學習方法,往往期望能夠擁有大量的標註樣本進行訓練,模型能夠學到更多有價值的知識(如下左圖展示了3組常見的影像分類資料集,擁有上萬的標註樣本)。

然而,實際應用場景的標註樣本嚴重稀缺。並且,標註大量樣本將產生昂貴的標註成本(如下右圖所示,標註一張X射線圖需要5分鐘和30元左右的成本,一張CT圖需要20分鐘和70元的成本)。

主動學習入門篇:如何能夠顯著地減少標註代價

在龐大而複雜的淘系電商場景中,類似的需求比比皆是:例如,鹹魚&躺平和洋淘等社群內容的治理,拍立淘的以圖搜圖,服飾分類(例如,iFashion)等場景都存在標註樣本嚴重稀缺的問題。

綜上,在實際應用場景中,如何“在模型達到目標效能的前提下,儘可能地減少標註成本”是一項亟需解決的挑戰。

主動學習作為機器學習的一個子領域,旨在以儘可能少的標註樣本達到模型的目標效能,廣泛應用於實際需求中。本文的定位是主動學習方法的入門篇,主要介紹的內容包括:1)詳細地介紹主動學習的基礎知識;2)簡要地介紹主動學習在學術界的研究現狀;3)主動學習實踐部分將簡單介紹幾個影像分類的案例;4)文末將給出本文的參考文獻和相關資料。

主動學習的基本知識:

▐  主動學習的概念和基本流程:

✎  主動學習是什麼

Burr Settles[1] 的文章《Active Learning Literature Survey》詳細地介紹了主動學習:“主動學習是機器學習的一個子領域,在統計學領域也叫查詢學習或最優實驗設計”。

主動學習方法嘗試解決樣本的標註瓶頸,透過主動優先選擇最有價值的未標註樣本進行標註,以儘可能少的標註樣本達到模型的預期效能。

✎  主動學習的基本流程

如下圖所示,主動學習方法是一個迭代式的互動訓練過程,主要由五個核心部分組成,包括:未標註樣本池(unlabeled pool,記為U)、篩選策略(select queries,記為Q)、標註者(human annotator,記為S),標註資料集(labeled training set,記為L),目標模型(machine learning model,記為G)。

主動學習將上述五個部分組合到同一個流程中,並透過如下圖所示的順序,以不斷迭代的訓練方式更新模型效能、未標註樣本池和標註資料集,直到目標模型達到預設的效能或者不再提供標註資料為止。

其中,在每次迭代過程中,已標註樣本的數量不斷增加,模型的效能也隨之提升(理想情況)。在實際應用中,應儘可能保證標註者的準確率,緩解模型在訓練初期學偏(此處特指錯誤標註的樣本導致)的情況。

主動學習入門篇:如何能夠顯著地減少標註代價

▐  主動學習和被動學習、半監督學習的關係

✎  主動學習和被動學習

如下圖(a)所示,紅色實線表示理想情況下模型效能隨著訓練標註樣本數量的增多而無限地提升。實際情況下往往是如下圖(b)的紅色實線所示,模型的效能不是隨著標註資料量的增多而無限地提升。

此外,每個模型都會有與之對應的瓶頸效能(peak performance),研究者透過增加訓練資料以及調參使之不斷逼近瓶頸效能。主動學習核心解決的問題正是如何使用盡可能少的標註資料達到模型的瓶頸效能,從而減少不必要的標註成本。如下圖(b)的藍色虛線所示,主動學習根據合適的策略篩選出最具有價值的樣本優先標註並給模型訓練,從而以更少的標註樣本達到模型的瓶頸效能。

主動學習入門篇:如何能夠顯著地減少標註代價

✎  主動學習和半監督學習

在機器學習領域中,根據是否需要樣本的標籤資訊可分為“監督學習”“無監督學習”。此外,同時利用未標註樣本和標註樣本進行機器學習的演算法可進一步歸納為三類:半監督學習直推式學習主動學習 

文獻[21]簡要介紹了主動學習與半監督學習的異同點:“半監督學習和主動學習都是從未標記樣例中挑選部分價值量高的樣例標註後補充到已標記樣例集中來提高分類器精度,降低領域專家的工作量。“

但二者的學習方式不同:半監督學習一般不需要人工參與,是透過具有一定分類精度的基準分類器實現對未標註樣例的自動標註;而主動學習有別於半監督學習的特點之一就是需要將挑選出的高價值樣例進行人工準確標註。

半監督學習透過用計算機進行自動或半自動標註代替人工標註,雖然有效降低了標註代價,但其標註結果依賴於用部分已標註樣例訓練出的基準分類器的分類精度,因此並不能保證標註結果完全正確。

相比而言,主動學習挑選的樣本是人工標註,儘可能引入最少的錯誤類標。值得一提的是,目前已有許多研究者嘗試將主動學習和半監督學習進行結合,並取得了不錯的效果(本文暫不詳細展開介紹,留給下一篇章)。

▐  主動學習的基本策略

樣本的篩選策略直接關係到模型能夠節約標註成本的程度。例如,使用不確定性策略比隨機取樣策略能夠節約更多的標註樣本[4,5] 。因為隨機取樣策略既沒有利用到模型的預測資訊,也沒有利用到大量未標註樣本池的結構資訊,僅憑隨機取樣決定優先標註的樣本。而不確定性策略透過與模型的預測資訊進行互動,優先篩選出相對當前模型最有價值的樣本。本節將圍繞部分經典的篩選策略展開討論。

1、隨機取樣策略(Random Sampling,RS): RS 不需要跟模型的預測結果做任何互動,直接透過隨機數從未標註樣本池篩選出一批樣本給專家標註,常作為主動學習演算法中最基礎的對比實驗。

2、不確定性策略(Uncertainty Strategy,US):US 假設最靠近分類超平面的樣本相對分類器具有較豐富的資訊量,根據當前模型對樣本的預測值篩選出最不確定的樣本。

US 包含了一些基礎的衡量指標:

  • 最不確定指標(Least Confidence,LC)將預測機率的最大值的相反數作為樣本的不確定性分數。
  • 邊緣取樣(Margin Sampling,MS)認為距離分類超平面越近的樣本具有越高的不確定性,常與 SVM 結合並用於解決二分類任務,但在多分類任務上的表現不佳。
  • 多類別不確定取樣(Multi-Class Level Uncertainty,MCLU)是 MS 在多分類問題上的擴充套件,MCLU 選擇離分類介面最遠的兩個樣本,並將它們的距離差值作為評判標準。MCLU 能夠在混合類別區域中篩選出最不確信度的樣本,如式(2.3)所示。其中,xj 表示被選中的樣本,C 表示樣本 xi 所屬的類別集合,c+ 表示最大預測機率對應的類別,f (xi, c) 表示樣本 xi 到分類超平面的距離。
  • 熵值最大化(Maximize Entropy,ME)優先篩選具有更大熵值的樣本,熵值可以透過計算主動學習入門篇:如何能夠顯著地減少標註代價得到,其中 pi 表示第 i 個類別的預測值。
  • 樣本最優次優類別(Best vs Second Best, BvSB)[79]主要是針對多分類問題的一種衡量指標,並且能夠緩解 ME 在多分類問題上效果不佳的情況。BvSB 只考慮樣本預測值最大的兩個類別,忽略了其他預測類別的影響,從而在多分類問題上的效果更佳。

主動學習入門篇:如何能夠顯著地減少標註代價

3、委員會投票(Query by Committee,QBC):QBC[31]是一種基於版本空間縮減的取樣策略,核心思想是優先選擇能夠最大程度縮減版本空間的未標記樣本。

QBC 包括兩個基本步驟:

  • 使用多個模型構成委員會;
  • 委員會中所有的模型依次對未標註樣本進行預測並優先篩選出投票最不一致的樣本進行標註。

由於 QBC 在實際應用的過程中需要訓練若干個模型,導致具有較高的計算複雜度。基於此,熵值裝袋演算法(Entropy Query-By-Bagging,EQB)[80]和自適應不一致最大化(Adaptive Maximize Disagree,AMD)被提出並緩解了計算複雜度問題。其中,EQB 同時引入了 bagging 繼承方法以及 bootstrap 取樣;AMD 主要針對高維資料,將特徵空間劃分為一定數量的子集並構造委員會。

4、其他經典的策略:梯度長度期望(Expected Gradient Length,EGL) 策略根據未標註樣本對當前模型的影響程度優先篩選出對模型影響最大的樣本;EGL [4] 是代表性方法之一,能夠應用在任意基於梯度下降方法的模型中。方差最小(Variance Reduction,VR)策略透過減少輸出方差能夠降低模型的泛化誤差[81,82];Ji 等[82]提出了一種基於圖的 VR 衡量指標的主動學習方法,透過將所有未標註樣本構建在同一個圖中,每個樣本分佈在圖中每個結點上。緊接著,透過調和高斯隨機場分類器直接預測未標註樣本所屬的標籤;在最佳化的過程中,透過挑選一組未標註樣本進行預測並獲得對應的預測類別,使得未標註樣本的預測類別方差最小。

▐  主動學習的擴充套件方法

近年來,主動學習策略在很多實際應用場景中取得顯著的效果。但同時也存在一些亟需解決的挑戰。例如,不確定性策略只關注樣本的不確定性,在BMAL(批次式主動學習方法,每次迭代篩選出N>1的樣本數量)場景下會產生大量具有冗餘資訊的樣本。因此,僅使用單一的策略尚未能最大程度地節約標註成本。

本節將圍繞本文的核心工作簡要地介紹幾種主動學習的擴充套件方法。

1、組合多種基本策略的主動學習方法:組合策略將多個基本策略以互補的方式進行融合,廣泛應用於影像分類任務中[36,37,38,83]。其中,Li 等[36]基於機率分類模型提出一種自適應的組合策略框架。Li 等[36]透過資訊密度指標(Information Density Measure)將未標註樣本的資訊考慮在內,彌補了不確定性策略的不足。如演算法 2-2所示,該演算法能夠自然地擴充套件到更多的組合策略。

主動學習入門篇:如何能夠顯著地減少標註代價

2、結合半監督學習(Semi-Supervised Learning)的主動學習方法:自訓練(Self-training)演算法作為半監督學習的一種基礎方法,其核心步驟如演算法2-3所示。由於自訓練演算法在訓練過程中會根據模型的預測資訊,挑選合適的樣本及其對應的預測標籤加入訓練集,而且初始化少量的標註樣本能夠保證模型的初始效能,因此初始化訓練環節對其後續的學習過程至關重要。

半監督學習演算法需要解決的挑戰之一是:在訓練的過程中容易引入大量的噪聲樣本,導致模型學習不到正確的資訊。部分研究員們透過構建多個分類器的協同訓練演算法緩解噪聲樣本,如Co-Training[84] 和 Tri-Training[85]。

主動學習入門篇:如何能夠顯著地減少標註代價

3、結合生成對抗網路的主動學習方法:生成對抗網路(Generative Adversarial Networks,GAN)模型以無監督的訓練方式對大量未標註樣本進行訓練,並透過生成器產生新的樣本。

經典的 GAN[15] 主要包括生成器和判別器等兩個核心部分,兩者以互相博弈的方式進行對抗訓練,直到兩者達到一個動態均衡的狀態。GAN 的目標函式如式(2.4)所示,其中,V(G,D)=Ex∼Pdata[logD(x)]+Ex∼PG [log(1−D(x))] 表示資料真實分佈 x ∼ Pdata 與生成模型得到的分佈 x ∼ PG 之間的差異。文獻[19,50]將生成器和主動學習策略進行融合並構建目標函式,透過解決最佳化問題控制生成器產生的樣本。

主動學習入門篇:如何能夠顯著地減少標註代價

▐  主動學習方法的基本評價指標

本文側重介紹主動學習方法在保證不損失模型準確率的情況下,節約標註成本的效能,評價指標如下式所示。其中,SavedRate 表示主動學習方法相對於全樣本訓練減少的標註成本;ExpertAnnotated 表示當模型達到預定的目標效能時專家標註的樣本數量;Full Samples 表示當前資料集提供的未標註樣本數量,即全樣本訓練時所使用的標註樣本數量。本文涉及的實驗會先進行全樣本訓練,並分別記錄最佳驗證集準確率作為主動學習相關演算法的目標準確率。

例如,在某組資料集中使用 AlexNet 模型對Full Samples張標註影像進行訓練,記錄訓練過程中最佳的驗證準確率(Best accuracy)並將其作為主動學習的目標準確率(Target accuracy);隨後,模型透過迭代過程不斷提升效能,當達到目標準確率時,記錄專家所標註的樣本數量 ExpertAnnotated;此時,就可以算出SavedRate 的值,即該方法能夠節約多少標註成本。此外,我們也會將主動學習方法與一些常見的方法進行比較,比如 RS 策略常用於基準對比實驗(baseline)。

主動學習入門篇:如何能夠顯著地減少標註代價

▐  早期的主動學習面臨的挑戰及其解決方案

✎  多類分類問題

在處理多類分類問題時,基於 Margin Sampling 的樣例選擇標準忽略了樣例可能屬於其他類別的資訊,因此所選樣例質量較差。基於熵的方法“基於不確定性的主動學習演算法研究(2011)”雖考慮了樣例從屬於每個類別的機率,但在多類分類問題中,樣例的熵也會受到那些不重要類別的干擾。

文獻“Multi-class active learning for image classification(2009)”提出了基於最優標號和次優標號的準則(BvSB),考慮樣例所屬機率最高的前2個類別,忽略剩餘類別對樣例選擇標準產生的干擾。

文獻“基於主動學習和半監督學習的多類影像分類(2011)”將BvSB和帶約束的自學習(Constrained self-training,CST)引入到基於SVM的影像分類中,顯著提高了分類精度。

✎  樣本中的孤立點

若選擇樣例時能綜合考慮樣其代表性和不確定性,通常可避免採集到孤立點。

文獻“Active Learning by querying informative and representative examples(2010)”中提出了一種綜合利用聚類資訊和分類間隔的樣例選擇方法;

文獻“Active Learning using a Variational Dirichlet Processing model for pre-clustering and classification of underwater stereo imagery(2011)”提出了一種利用預聚類協助選擇代表性樣例的主動學習方法;

文獻“Dual strategy active learning(2007)”利用樣例的不確定性及其先驗分佈密度進行樣例選擇以獲取優質樣例;

文獻“基於樣本不確定性和代表性相結合的可控主動學習演算法研究 (2009)”將樣例的分佈密度作為度量樣例代表性的指標,結合以熵作為不確定性指標,提出了一種基於密度熵的樣例選擇策略,有效解決了孤立點問題給樣例選擇質量造成的影響。

✎  訓練集樣本冗餘

如下圖所示,藍色圓圈所表示的新訓練樣本中,樣例1與分類超平面的距離比樣例2近,根據 BvSB 準則應當挑選樣例1進行標註並補充到訓練集中;但緊挨著樣例1的綠色樣例 a 已經在訓練集中,此時若再加入樣例1則對分類介面影響甚微。

相比而言,將樣例2補充到訓練集中,對當前分類模型的訓練貢獻度更大。透過上述分析可知,主動學習中的樣例選擇度量主要分為2種:

  • 不確定性度量;
  • 差異性度量或代表性度量;

樣例的不確定性一般可透過計算其資訊熵獲得,樣例的代表性通常可根據其是否在聚類中心判斷,而樣例的差異性則可透過計算餘弦相似度(基於取樣策略的主動學習演算法研究進展,2012)或用高斯核函式(基於多特徵融合的中文評論情感分類演算法,2015)獲得。

主動學習入門篇:如何能夠顯著地減少標註代價

✎  不平衡資料集

文獻“一種新的SVM主動學習演算法及其在障礙物檢測中的應用(2009)”提出 KSVMactive 主動學習演算法;文獻“基於主動學習的加權支援向量機的分類(2009)”提出了改進的加權支援向量機模型;文獻“基於專家委員會的主動學習演算法研究(2010)”提出了基於SVM超平面位置校正的主動學習演算法。

主動學習的研究現狀

本節將圍繞如下要點對主動學習方法的研究現狀展開討論,包括:

  • 基於未標註樣本池的主動學習策略;
  • 批次式主動學習方法,側重於組合式策略以及引入聚類演算法的主動學習方法;
  • 半監督主動學習方法;
  • 結合生成對抗網路的主動學習方法。

此外,主動學習方法在近幾年的進展不僅侷限於上述歸類的方法,本節將其總結在“其他主流的主動學習方法”(本文涉及的參考文獻,都可以透過文末的參考文獻提供的連結中獲取)。

主動學習入門篇:如何能夠顯著地減少標註代價

✎  主動學習方法概述

主動學習作為機器學習的一個子領域,核心思想是透過一些啟發式策略找到相對最具有“價值”的訓練樣本,使得模型能夠以儘可能少的標註樣本達到甚至超過預期的效果。

主動學習的概念是Simon[23]在1974年提出。隨後,主動學習方法在許多領域中層出不窮,並進一步被歸納為生成式成員查詢(Membership Query Synthesis)、流式主動學習方法(Stream-Based Selective Sampling)和基於未標註樣本池的主動學習方法(Pool-Based Sampling)等經典的場景[4]。

Angluin等[24]於1988年提出了生成式成員查詢場景,模型透過預設的條件控制生成新的樣本並向標註專家詢問標籤;由於當時生成模型的能力有限,並且無法較好的控制生成所需的樣本,因此這類方法的應用範圍未被推廣。

Atlas等[25]在1990提出了基於資料流的方法,模型按照順序依次判斷是否需要對樣本進行標記。由於基於資料流的方法不需要將所有樣本統一放在池中,因此適用於儲存空間較小以及處理能力有限的情況(如,應用到移動裝置),但存在最大的缺陷是無法獲取樣本的結構分佈。

相較之下,基於未標註樣本池的主動學習方法[26]將大量未標註樣本構成未標註樣本池,透過設計樣本篩選策略從未標註樣本池中篩選出最有“價值”的樣本優先進行標註。此外,伴隨著網際網路的熱潮以及資料採集技術的不斷提升,很多領域能夠以廉價的成本獲取大量的未標註資料。因此,基於未標註樣本池的主動學習方法最流行並且廣泛應用於不同的領域中,在機器學習和資料探勘的應用中處於非常重要的地位。

✎  基於未標註樣本池的主動學習方法

樣本篩選策略的質量直接影響到基於未標註樣本池的主動學習方法的效果。目前,一些手工設計策略不斷被提出並應用到主動學習方法中,如不確定性策略和代表性策略。

文獻[27,28]透過計算資訊熵(entropy)表示最不確定的樣本。文獻[12,29,30]使用SVM作為目標分類器,透過選擇距離支援向量最近的樣本作為最不確定的樣本。Seung等[31]首次提出了基於委員會的篩選演算法(Query-by-Committee,QBC),首先訓練了一組分類器組成委員會。緊接著,以委員投票的方式決定篩選哪個樣本作為最不確定的樣本。

隨後,一些基於QBC的改進方法不斷被提出:例如,Breiman等[32]基於Bagging提出的Query-by-Bagging(QBBAG)以及Mamitsuka等[33]基於Boosting提出的Query-by-Boosting(QBB)。

對於樣本的代表性策略,文獻[34,35]透過使用未標註樣本的先驗密度(PriorDensity)作為不確定性指標的權重,從而達到利用未標註樣本的目的。Settles等[28]提出一種相似的框架,使用cosine距離衡量資訊密度(InformationDensity)。

✎  批次式主動學習(BatchModeActiveLearning,BMAL)方法

目前,大多數主動學習方法存在一個共同的問題:序列地篩選樣本,即每次迭代選擇一個樣本進行標註,這種方式非常低效且無法滿足大多數實際需求。在實際應用中,往往需要以分散式的形式並行處理,多名標註專家同時在不同的環境下標註樣本。

BMAL旨在每次迭代中能夠產生一批未標註樣本,同時提供給多名標註者,從而極大地提升了應用效率。BMAL的發展歷程中,起初,有研究嘗試將很多不同的預測模型應用到不同的策略中。但他們在篩選樣本時,只使用了單一的不確定性指標或者多樣性指標的主動選擇策略,導致所挑選的樣本中存在大量的冗餘資訊,從而造成了額外的標註成本。

基於此,Li等[36]提出一種新穎的自適應組合式的樣本篩選策略,將不確定性策略和資訊密度指標進行結合。在每次迭代中,透過自適應地調整兩種策略的權重,從而選擇最具有“價值”的樣本給專家標註,並在三組影像分類資料集上驗證了所提出方法的有效性。

Gu等[37]提出了一種面向多分類的BMAL,透過組合不確定性策略和多樣性策略,並在兩組影像分類的資料集上進行驗證,實驗結果表明該方法能夠挑選出同時滿足最不確定性和最具多樣性的樣本。Zhou等[38]透過組合不確定性指標和多樣性指標,同時引入了遷移學習和資料增強等技術,提出了AIFT方法並將其應用到醫療影像領域,驗證了該方法至少能夠減少一半的標註成本。Cardoso等[39]在傳統BMAL的基礎上提出了一種排序批次式主動學習方法(RBMAL),透過生成一個最佳化過的排序表決定樣本被標註的優先順序。RBMAL避免了標註專家頻繁等待被選中的未標註樣本,實驗結果表明RBMAL能夠在保證甚至提升模型效能的條件下顯著地減少標註成本。此外,為了更加充分利用大量未標註樣本的資訊,有研究員[40,41,42]嘗試將聚類演算法引入主動學習中。

然而,目前大多數聚類方法都是先透過手工提取特徵再聚類,在很大一定程度上侷限於特徵的質量。我們嘗試將卷積自編碼聚類演算法[43]應用到BMAL中,透過將特徵提取和聚類演算法以端到端的形式整合到同一個模型裡(本文暫不展開介紹)。從而既能夠提升聚類效能,又能夠利用卷積神經網路的優勢處理更復雜的影像。

✎  半監督主動學習方法

半監督學習能夠在少量標註成本的情況下訓練模型,透過挑選出預測結果較明確的樣本並由模型直接給標籤,但是容易產生噪聲標籤。

而主動學習則是挑選預測結果最不確定的樣本給專家標註,能夠保證標籤質量。因此,半監督學習方法和主動學習方法的結合能夠在一定程度上互補優缺。

1998年,McCallumzy等[44]首次組合了QBC和期望最大化(EM)演算法,使用樸素貝葉斯方法作為分類器並在文字分類任務上進行實驗。

隨後,Muslea等[45]提出了一種QBC的改進方法,聯合測試方法(Co-Testing),透過分別在不同視角訓練的兩個分類器共同篩選樣本給專家標註,並將其與聯合期望最大化(Co-EM)演算法結合。Zhou等[46]嘗試將Co-Testing和Co-Training方法進行結合並在影像檢索任務中驗證了演算法的優勢。

此外,文獻[47,48,49]組合了不確定性策略和自學習方法(Self-Training)。上述方法將半監督學習和主動學習巧妙地結合,充分利用各自的優勢並彌補不足,取得了顯著的成績。然而,目前的半監督主動學習方法尚未對噪聲樣本進行有效地處理,因此仍會對模型造成不小的影響。

✎  結合生成對抗網路的主動學習方法

GANs對提升主動學習方法的樣本篩選效率具有重要的意義。

文獻[19,50]將主動學習策略結合生成器構建目標函式,透過解決最佳化問題使得生成器直接生成目標樣本,提升了篩選樣本的效率。Huijser等[20]首先使用GAN沿著與當前分類器決策邊界垂直的方向生成一批樣本。

緊接著,透過視覺化從生成的樣本中找出類別發生改變的位置,並將其加入待標註樣本集。

最後,透過大量的影像分類實驗驗證了該方法的有效性。此外,除了影像分類任務以外,主動學習方法與GAN的結合也廣泛應用到其他領域中,例如離群點檢測[21]。

✎  其他主流的主動學習方法

Huang等[51]提出一種針對深度神經網路的主動學習方法,能夠用更少的標記樣本將預訓練好的深度模型遷移到不同的任務上,從而降低深度神經網路的學習代價。

Huang等[52]提出一種結合主動學習和矩陣補全技術的方法,能夠在特徵缺失嚴重的情況下有效利用標記資訊,節省特徵提取代價。

Chu等[53]認為應用在不同資料集上的主動學習策略存在有效的經驗,並且這些經驗可以被遷移到其他資料集中進而提升模型或者策略的效能。作者嘗試將模型遷移到不同的資料集中,實驗部分證明了當前大多數策略不僅存在有效的經驗,而且經驗能夠被遷移到不同的資料集中,並提升特徵學習任務的效能。

✎  NAS + Active Learning

最後,值得一提的是,考慮到上述歸納的主動學習方法中,任務模型是根據先驗知識從現成的模型中篩選,即模型的網路結構是固定的。存在如下缺陷:

  • 很多領域沒有現成的模型可用,例如醫療影像領域;
  • 在前期的迭代過程中,標註樣本量較少,固定網路結構(通常會比較複雜一點)的模型可能會陷入過擬合。

如下圖所示,Geifman 等人首次嘗試將NAS應用到主動學習方法中,使得模型的網路結構能夠自適應新增的標註資料。實驗結果表明,加入NAS後的主動學習方法的效率顯著地優於固定網路結構的主動學習方法。

主動學習入門篇:如何能夠顯著地減少標註代價

主動學習實踐:牛刀小試

▐  主動學習如何減少標註樣本的簡單案例

如下圖所示,文獻《Active Learning Literature Survey》提供了一個基於 pool-based的主動學習案例。

其中,資料集(toy data)是從高斯分佈產生的400個樣本,任務是2分類問題(每個類有200個樣本),如(a)圖所示將這些資料對映在2D特徵空間上;圖(b)使用了邏輯迴歸模型,透過訓練隨機選擇的30個標註樣本,得到70%的驗證精度,藍色線表示決策邊界(decision boundary);圖(c)同樣使用邏輯迴歸模型,但訓練的30個標註樣本是透過主動學習策略(uncertain strategy)選擇而來,達到90%的驗證精度。

這個簡單的案例體現了引入主動學習策略所帶來的效果,使用30個標註樣本能夠提升20%的精度。值得注意的是,上述2分類的樣本分別200個,樣本資料非常平衡。但是在實際應用中,分類樣本資料比例往往不能達到1:1,相關領域的研究者正在嘗試解決這類問題。

主動學習入門篇:如何能夠顯著地減少標註代價

▐  影像分類資料集的實踐

如演算法2-1所示給出了“基於為標註樣本池的主動學習方法”,本文也在第一部分詳細地介紹了主動學習的基本流程,此處不再贅述。

主動學習入門篇:如何能夠顯著地減少標註代價

本文分享的實踐部分,按照演算法2-1分別對MNIST、Cifar-10和Dog-Cat三個資料集進行實驗(分類模型使用了AlexNet,深度學習框架使用了PyTorch)。

如下表所示,在MNIST資料集的實驗中(train_num=55000, val_num = 10000):

  • 使用全部5.5萬的訓練資料直接訓練模型,在1萬個驗證集得到的準確率為98.99%;
  • 使用主動學習的不確定性策略(Uncertainty Strategy),只需要5000張標註樣本,在相同的1萬個驗證集得到的準確率就達到99.14%。

此外,將訓練好的模型對剩餘的50000(55000-5000)張樣本進行預測,得到99.70% 的效果。由此可見,僅僅使用不確定性策略在MNIST資料集上,就能夠顯著地減少大量的標註成本。值得注意的是,表中所示的三組影像分類資料集acc_left_active_samples 的準確率都很高。這部分樣本表示未被主動學習策略篩選中的樣本,即當前模型已經具備識別這部分樣本的能力。

因此,模型在訓練資料集的準確率達到 99.4% 時,使用當前模型對 acc_left_active_samples 這部分樣本進行預測的精度也同樣在 99.378% 左右,甚至更高。

主動學習入門篇:如何能夠顯著地減少標註代價

問題1:主動學習為什麼有時還能提升分類模型的準確率?

楊文柱等人發表的“主動學習演算法研究進展”給出的解釋是:標註樣本可能存在低質量的樣本,會降低模型的魯棒性(模型過渡擬合噪聲點)。如何高效地篩選出具有高分類貢獻度的無類標樣例進行標註,並補充到已有訓練集中逐步提高分類器精度與魯棒性是主動學習亟待解決的關鍵問題。

問題2:不確定性策略具體怎麼實現?

重點關注每個樣本預測結果的最大機率值:p_pred_max。我們初步認為 p_pred_max>0.5 的情況表示當前模型對該樣本有個確定的分類結果(此處分類結果的正確與否不重要);反之,當前模型對該樣本的判斷結果模稜兩可,標記為hard sample;比如:模型進行第一次預測,得到10個機率值,取其最大的機率 p_pred_max;對P(real lable) < p_threshold(此處的10分類任務取p_threshold=0.5)的樣本進行排序,取前N個樣本加入集合train_samples中;

▐  淘系商品的二分類問題

背景:商品的單包裝和多包裝屬性影響著客戶對商品價格的認知。比如:有些多包裝屬性的標價較高,但實際單價可能已經很划算了,而客戶誤將多包裝的價格認為是單價,導致購買意向降低。因此區分出商品的包裝屬性對提高客戶購買意向和最佳化商品價格分佈具有較大的實際意義。對於此問題,有多種不同的解決方案。

其中,基於影像的分類方法能夠直接的區分出商品的單/多包裝屬性。然而,監督學習需要大量的標註樣本,眾多品類將產生大量的標註需求,如何能夠顯著地減少標註代價也同樣具有重大的意義。

因此,我們嘗試將主動學習方法應用影像分類中,解決單包裝和多包裝的二分類問題。如下圖所示,我們分別對比了隨機篩選策略和不確定策略。實驗結果表明,引入不確定性策略主動篩選樣本顯著地減少了標註成本。

主動學習入門篇:如何能夠顯著地減少標註代價

此外,我們嘗試了更加複雜的模型(DesNet121),提高模型學習能力的同時,也帶來了更多訓練時長的弊端。但總體的分類精度提升了3pt。同時,我們也分別在AlexNet和DenseNet121等模型上驗證了模型預訓練帶來的效率。

主動學習入門篇:如何能夠顯著地減少標註代價

參考文獻:

本文涉及的參考文獻較多,由於篇幅問題,參考文獻詳見:

  • https://blog.csdn.net/Houchaoqun_XMU/article/details/103094113
  • https://blog.csdn.net/Houchaoqun_XMU/article/details/96210160

相關文章