林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰

深度學習大講堂發表於2018-01-31

編者按:在工業界大量資源的投入下,大資料、大規模GPU叢集帶來了深度學習計算機視覺領域的全面產業落地,在很多競賽中甚至取得遠超學術界的成績。在AI領域的各個頂級會議上,越來越多的優秀工作也來自於Google、Facebook、BAT等巨頭或者一些新銳創業公司。

值得注意的是,工業界目前的主要進展和應用落地,很大程度上依賴於高成本的有監督深度學習。而在很多實際場景中,存在資料獲取成本過高、甚至無法獲取的問題。因此,在資料不足的情況下,如何使用弱監督、乃至無監督的方式進行學習,這既是學術界中大家廣泛關注的問題,其實也是工業介面臨的新挑戰。

商湯科技研發總監、中山大學教授林倞,將從產業落地以及學術創新兩種視角出發,帶領大家一起探索“後深度學習時代”的新挑戰。文末,大講堂特別提供文中提到所有文章的下載連結。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


關於本次報告中提到的所有演算法及部分原始碼,詳見中山大學人機物智慧融合實驗室網站: http://www.sysu-hcp.net


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


如果把AI系統比作為一架火箭,那麼大資料就是它的燃料,深度學習則是它的引擎。隨著大資料以及GPU算力的加持,深度學習在很多領域都取得了突破性的進展,例如視覺影像理解、屬性識別、物體檢測、自然語言處理、乃至自動駕駛。當然了,垂直化應用場景才是AI技術落地不可或缺的因素,這其實也是在工業界做研究的最大優勢——從真實的需求引導技術的發展,而學術界的科研往往基於一些不太實際的假設。

基於視覺的影像理解,是從有標註的資料學習出AI演算法,以實現相應的視覺識別任務,左上角展示了視覺影像理解中的物體檢測以及屬性識別應用。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


而值得注意的是,深度學習計算機視覺領域的成功應用,很大程度上依賴於有監督的資料,這意味著大量的完全標註的乾淨資料(例如人臉識別領域的資料)。然而,這樣的資料意味著非常高昂的成本。在真實的場景中,經常存在的是弱監督或者從網際網路上獲取的資料(例如網路社交媒體的資料),以及無標註或者標註有噪聲的資料(例如智慧城市以及自動駕駛等應用中採集到的資料)。

LeCun教授曾用右圖的蛋糕,來形容有監督學習、無監督學習、以及強化學習之間的區別,這裡借用來說明這三種資料的區別:完全標註的乾淨資料就像蛋糕上的金箔櫻桃,甜美卻昂貴;而弱標註或網際網路爬取的資料,就像蛋糕上的奶油,還算甜但也可獲取;而無標註的或者標註有噪聲的資料,不太甜但成本較低。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


在本次報告中,我將首先介紹深度學習如何應用於視覺理解,接下來會從三個方面介紹最新的深度學習正規化:

  1. 以豐富多源的弱監督資訊來輔助學習

  2. 演算法自驅動、具有高價效比(效能/監督資訊成本)的自主學習

  3. 無監督領域自適應學習


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


首先介紹一下深度學習的基本概念,深度學習被定義為最終以網路形式呈現的、涵蓋了多個步驟的、可微分的計算過程。而說起深度學習,就要從上世紀80年代的神經網路開始講起。神經網路其命名的初衷,是向人腦中的神經網路致敬。那麼人腦中是如何處理視覺訊號呢?

首先,視網膜輸入視覺訊號,經過LGN外膝體,到達視覺皮層V1—V5,其中V1對邊緣和角點敏感,V2捕捉運動資訊, V4對part物件敏感,例如人的眼睛、胳膊等,最後到達AIT,來處理高層資訊:臉、物體等。送到PFC決策層,最後由MC發出指令。所以人腦處理視覺訊號是一個從淺層到深層的過程,而在此過程中,並不是一個單一的處理,它還具備時序性,也就是說它在處理每個訊號時,都是利用了之前的時序資訊的。

深度神經網路的形式和計算過程與人腦有很大的不同,不過它的發明的確是受到了神經訊號處理的啟發,例如經典的感知機模型其實是對神經元最基本概念的模擬。右上展示了1980年發明的多層感知機。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


從1980年代的多層感知機到2010年的卷積神經網路,它經歷了一個層數由少至多、層級由淺至深的過程,通過解決網路梯度消失以及泛化不好的問題,以及資料及GPU的加持,它終於實現了一個一站式的端到端的網路。

自2010年起,深度學習方法取得了遠超傳統機器學習方法的成績,尤其隨著訓練資料集的不斷擴充套件,傳統方法迅速觸碰到精度天花板,相比之下,深度方法的預測精度則不斷提升。這裡總結了這一波深度學習技術革新的幾個關鍵點,包括新的網路優化方法,如ReLu,Batch Normally,Skip Connection等;從數學/知識驅動到資料驅動的研究思路的轉變;分治優化逐漸過渡到聯合端到端聯合優化;從避免過擬合學習到避免欠擬合學習;大量的開原始碼和初始化模型的湧現。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


傳統的模式識別任務,大致可總結為幾個獨立的步驟:包括資料採集、資料預處理、特徵提取、分類器訓練以及最終的分類。其中,資料前處理器和特徵提取器的設計都是以經驗為驅動的。而深度學習通過將預處理、特徵提取以及分類訓練任務融合,因此衍生出了一個,具有更強表示能力的端到端的特徵轉換網路。

在傳統模式識別方法到深度方法的演變過程中,我們越來越體會到學習的重要性,而特徵學習也已進化成一個端到端的學習系統,傳統方法中的預處理已不是必須手段,而被融入端到端的系統中。似乎特徵學習影響著一切模式識別任務的效能,然而,我們卻忽視了資料收集和評估的重要性。

接下來我們舉例說明傳統方法是如何演化為深度方法的。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


以跨領域視覺匹配任務(從領域2的資料中匹配到給定的領域1中的目標)為例,傳統的方法一般會包含以下兩個步驟:

  1. 首先,將來自於不同領域的樣本投影到一個公共的特徵空間 (特徵學習);

  2. 然後,採用相似性或距離度量學習的方式,學習到一種距離度量,來表徵這個公共空間上特徵之間的相似性 (相似性度量學習)。

那麼如何將這種相似性的度量整合到深度神經網路中,並進行端到端的學習呢?


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


如何把相似性度量融合到特徵提取中去?

以右上公式表示的相似性度量方法為例 (度量模型的提出和推導請參加相關論文),我們可以將該度量模型分解後融入到神經網路中——將原來的全連線網路表示成成若干個與度量模型相匹配的結構化網路。再通過誤差反向傳導,可以將度量模型與卷積特徵進行聯合學習、統一優化。詳細過程如下:

右上公式中, A矩陣為x樣本所在領域中樣本間的自相關矩陣,半正定; B矩陣表示y樣本所在領域中樣本間的自相關矩陣,半正定;C矩陣則是兩個領域樣本間的相關矩陣。

展開後我們可以發現,其組成成分除了網路從不同域提取到的特徵外,還包含6個不同的表達距離度量模型的變數(每個域包含2個矩陣和1個向量)。圖中左上部分顯示了我們將分解後的距離度量變數融入到神經網路中的過程——結構化的網路模型。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


由此看來,深度網路並不是完全的黑盒子,通過引入領域知識和結構化模型,是可以具備一定的巨集觀解釋性的。

以跨域視覺匹配演算法為例,其內部可歸納為三個部分:域獨有層、特徵共享層、以及相似度量。

整個端到端的網路如圖所示,其每個部分都具有可解釋性。

  1. 在域獨有層,該網路為不同域的資料提取該域的獨有特徵;

  2. 在特徵共享層,我們首先將不同域的特徵融合,再將融合後的特徵投影到共有空間下,再反向拆解出各自域在該共有空間下的特徵;

  3. 最終通過相似性度量得到不同域樣本間的匹配相似度。

相關的工作發表在T-PAMI 2016上,該模型在當時很多領域取得了state-of-the-arts的效果。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


我們的驗證基準包括的幾個主要任務:年齡人臉驗證、跨攝像頭的行人再識別、素描畫與照片間的匹配、以及靜態圖片與靜態視訊間的匹配。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


相比較之下,在公司做深度學習則充分發揮了海量計算資源和充足資料量的優勢,學術界精心設計的演算法優勢很容易被工程化的能力抵消。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


此外,區別於學術界只關注演算法本身的模式,在工業界做產品,則涉及到大量的環節,不同的場景會衍生出不同的問題,此時通過應用場景形成資料閉環成為關鍵。商湯投入了大量資源建設基礎平臺、工程化團隊,通過深入各個垂直領域、積攢行業資料、建立行業壁壘,目前正在從AI平臺公司逐漸向AI產品公司過渡。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


在工業界大量資源的投入下,大資料、大規模GPU叢集帶來了深度學習計算機視覺領域的全面產業落地,在很多競賽中甚至取得遠超學術界的成績。值得注意的是,工業界的這些進展的取得,是依賴於大量的全監督資料的,而在很多實際場景中,存在資料獲取成本過高、甚至無法獲取的問題。2012年以來,深度學習技術的高速發展並且在影像、語音等各個領域的取得了大量的成功應用,如果把這5年看成是一個新的技術時代, 那麼在“後深度學習”時代,我們更應該關注哪些方向呢?

我在這個報告中給出一些想法——介紹3個新的深度學習正規化:

  1. 以豐富多源的弱監督資訊來輔助學習

  2. 演算法自驅動、成本效益較高的自主學習

  3. 無監督領域自適應學習


Learning with Weak and Rich Supervisions



林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


首先來介紹如何以豐富多源的弱監督資訊來輔助學習。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


由於網頁形式的多樣化,從網際網路上獲取的資料時常具備多種型別的標籤,然而卻不能保證標籤的準確性, 往往存在標籤噪聲 。因此,這類資料可以看作具備豐富多源的弱監督資訊。那麼,我們考慮通過學習多個源的弱監督資訊,來對標籤進行更正。

將大量的資料連同帶有小量噪聲的標籤,一起送入深度卷積神經網路,檢測其中的標籤噪聲並進行更正。例如,右圖展示了,通過融合影像資料以及對應的文字描述,來輔助對標籤進行更正。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


在場景解析任務中,我們通過學習影像的描述來解析場景。如圖所示,利用物體定位來獲取場景中具有顯著性語義的物體,然後根據物體間的互動關係構建結構化場景配置。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


而影像的描述語句通常包含豐富的語法資訊,如果能將這些資訊融入深度學習模型,那麼可以將其看作一種輔助的監督手段。以對影像描述這一應用為例,如圖所示,我們用綠色框表示場景中出現的實體,紅色框表示實體之間的關係,而藍色框表示場景的全域性配置結構。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


基於上述所說,我們提出了一個端到端的,結合卷積神經網路和遞迴神經網路的,深度結構化場景解析框架。輸入的圖片經過卷積神經網路後,會為每個語義類別產生得分圖以及每個畫素的特徵表達,然後根據這些得分圖對每個畫素進行分類,並將同類別的畫素聚合到一起,最終獲取場景內v個目標的特徵表達。然後將這v個目標的特徵送入到遞迴神經網路中,並對映到某個語義空間,提取語義以預測物體間的互動關係。其訓練過程如下:


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


整個網路學習的目標包含兩個,一個是卷積神經網路部分中的場景語義標註資訊,另一個則是遞迴神經網路部分中的結構化解析結果。在訓練的過程中,由於影像資料缺乏對應的場景結構化資訊,我們需要對其進行估計,來訓練卷積神經網路和遞迴迴圈神經網路

簡單來說,本工作的重點在於得到以下兩個目標:(1)語義標註資訊,包括定位語義實體的位置和確定語義實體之間的互動關係,(2)得到語義實體中的繼承結構。

在本論文中採用的CNN-RNN聯合結構,與單一RNN方法不同之處在於模型預測了子節點和父節點之間的關係。其中,對於語義標註,我們採用CNN模型為每一個實體類生成特徵表達,並將臨近的畫素分組並對同類別使用同一標籤。利用CNN生成的特徵,我們設計RNN模型來生成影像理解樹來預測物體之間的關係和繼承結構,其中包括四個部分,語義對映(單層全連線層),融合(兩個子節點結合生成一個父節點),類別器(其中一個子網路,用於確定兩個節點之間的關係,並利用父節點的特徵作為輸入),打分器(另外一個子網路,衡量兩個節點的置信度)。

本方法在學習過程中有兩個輸入,一個是影像,另外一個影像對應的解析句子,將影像輸入CNN,得到影像的實體類特徵表達,同時利用語義解析生成樹方法將句子分解成語義樹,並將影像得到的實體類與語義生成樹一同輸入到RNN網路中,利用影像的語義標註與關聯結構樹進行訓練,從而得到預期的結果。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


語義分割和場景結構化解析在PSACAL VOC 2012 和 SYSU-Scene 評測集上的實驗結果展示如圖。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


這裡給出了使用不同的學習策略在PASCAL 2012資料集上的結果,可以看出上下文資訊被證明是一種有效的輔助手段。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


還可以擴充套件到影像語義分割領域。這一工作發表在CVPR2017,目前在PASCAL VOC資料集上做到了state-of-the-arts。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


此外,在面向任務的動作預測中, 同樣可以採用弱監督學習的方式來解決需要大量標註資訊的問題。這一工作獲得了The World’s First 10K Best Paper Diamond Award by ICME 2017.

這項工作首次提出了任務導向型的動作預測問題,即如何在特定場景下,自動地生成能完成指定任務的動作序列,並針對該問題進行了資料採集。在這篇論文中,作者提出使用長短期記憶神經網路(LSTM)進行動作預測,並提出了多階段的訓練方法。為了解決學習過程中標註樣本不足的問題,該工作在第一階段採取時域與或圖模型(And-Or Graph, AOG)自動地生成動作序列集合進行資料增強,在下一階段利用增強後的資料訓練動作預測網路。具體步驟如下。

1)為了對任務知識建模,該文引入時域與或圖(And-Or Graph, AOG)模型表達任務。AOG由四部分組成:表示任務的根節點,非終端節點集合,終端節點集合和權重分佈集合。非終端節點包括與節點和或節點。其中,與節點表示將該節點的動作分解為有時序關係的子動作,或節點則表示可以完成該節點動作的不同方式,並根據概率分佈P選擇其中一個子節點。終端節點包括跟該任務相關的原子動作。

2)由於AOG定義時存在的時序依賴關係,該論文利用深度優先遍歷的方法遍歷每個節點,同時利用與或圖長短期記憶模型(AOG-LSTM)預測該節點的支路選擇。

3)由於原子動作序列非常強的時序依賴關係,該論文同樣設計了一個LSTM(即Action-LSTM)時序地預測每個時刻的原子動作。具體地,原子動作Ai由一個原生動作以及一個相關物體組成,可表示為Ai=(ai, oi)。為了降低模型複雜性和預測空間的多變性,該論文假設原生動作和相關物體的預測是獨立的,並分別進行預測。


Progressive and Cost-effective Learning



林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


接著介紹一下自驅動、成本效益較高的學習方式。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


這類方法受到人類學習模式的一些啟發:一是在逐步整合學習到的知識中自我探索,二是在交流的過程中不斷擴充知識,以達到終生學習的目的。如上圖所示,在學習的初期,利用已有的標註資料進行初始化學習,然後在大量未標註的資料中不斷按照人機協同方式進行樣本挖掘,以增量地學習模型和適配未標註資料。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


在自我驅動、低成本高效益的學習方式中,課程學習和自步學習是一種有效的思路。

課程學習的基本思想,是由深度學習的開創者之一,Yoshua Bengio教授團隊於2009年的ICML會議上提出;而在2014年,由Lu  Jiang等人提出了自步學習的公理化構造條件,並說明了針對不同的應用,可根據該公理化準則延伸出各種實用的課程學習方案。這些方法首先從任務中的簡單方面學習,來獲取簡單可靠的知識;然後逐漸地增加難度,來過渡到學習更復雜、更專業的知識,以完成對複雜事物的認知。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


在目標檢測任務中,採用大量無標註、或者部分標註的資料進行訓練,儘管充滿挑戰,但仍然是實際視覺任務中成本效益較高的方式。對於這一挑戰,往往採用主動學習的方式來解決。而目前提出的主動學習方法,往往會利用最新的檢測器,根據一個信度閾值,來尋找檢測器難以區分的複雜樣例。通過對這些樣例進行主動標註,進而優化檢測器的效能。然而,這些主動學習的方法,卻忽視了餘下大量的簡單樣例。

那麼,如何既考慮到少量的複雜樣例,又充分利用到大量的簡單樣例呢?

我們提出了一種主動樣本挖掘(ASM)框架,如上圖所示。對於大量未標註的檢測資料,我們採用最新的檢測器進行檢測,並將檢測結果按照信度排序。對於信度高的檢測結果,我們直接將檢測結果作為其未標註資訊;而對於少量的信度低的檢測結果,我們採用主動學習的方式來進行標註。最後,利用這些資料來優化檢測器效能。

具體來說,我們採用兩套不同的樣本挖掘方案策略函式:一個用於高置信度樣本的自動偽標註階段,另一組用於低置信度樣本的人工標註階段。我們進一步地引入了動態選擇函式,以無縫地確定上述哪個階段用於更新未標註樣本的標籤。在這種方式下,我們的自監督過程和主動學習過程可以相互協作和無縫切換,進行樣本挖掘。此外,自監督的過程還考慮了主動學習過程的指導和反饋,使其更適合大規模下物體檢測的需要。具體來說,我們引進兩個課程:自監督學習課程 (Self-Supervised learning Curriculum, SSC) 和主動學習課程 (Active Learning Curriculum, ALC)。SSC 用於表示一組具有高預測置信度,能控制對無標籤樣本的自動偽標註,而 ALC 用於表示很具有代表性,適合約束需要人工標註的樣本。值得注意的是,在訓練階段,SSC 以逐漸從簡單到複雜的方式,選擇偽標籤樣本進行網路再訓練。相比之下,ALC 間歇地將人工標註的樣本,按照從複雜到簡單的方式,新增到訓練中。因此,我們認為 SSC 和 ALC 是對偶課程,彼此互補。通過主動學習過程來更新,這兩個對偶課程能夠有效地指導兩種完全不同的學習模式,來挖掘海量無標籤樣本。使得我們的模型在提高了分類器對噪聲樣本或離群點的魯棒性同時,也提高了檢測的精度。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


Interpretation:上面優化公式由(W,Y,V,U)組成,其中W指代模型引數(物體檢測器的引數,我們的文章裡面是Faster RCNN或者RFCN)。Y指代在自動標註下的物體檢測器產生的proposal的偽標註類別。V={v_i}^N_{i=1}指代自步學習過程(self-paced learning,在上式中為self-supervised process)下對每個proposal訓練例項的經驗損失權重,v_i取值為 [0,1)的一個連續值m維向量(m為類別數目)。U={u_i}^N_{i=1}指代主動學習下對每個訓練例項的經驗損失權重,u_i取值為一個{0,1}二值標量。

W是我們想要學習的引數,其餘Y,V,U都可以看成是為了學習W而要推斷的隱變數。後兩個為權重隱變數,基於選擇函式(selector)作用於每個樣本訓練損失。具體來說,W的優化基於經驗損失的加權和。因此,在每次優化W之前,我們必須要知道Y  (由於經驗損失為判別誤差,沒有自步學習過程下的給與的偽標註(Y),所有資料都只能利用AL的人工標註,整個方法退化為全監督學習) 。同時在優化W和Y之前,我們必須要知道U和V的值(知道每一個u_i和v_i的取值,才能決定哪些訓練例項的y值需要人工標註(自主學習AL),那些需要機器自動推斷 (自監督過程SS)。);同時,知道每一個u_i和v_i,才能基於選擇器(selector)推斷出經驗誤差的訓練權重)。給定樣本i基於u_i和v_i的值域以及選擇器可以看出,u_i=1>v_i^{j}對應樣本會被選擇為主動學習的人工標註物件,u_i=0<=v_i^{j}時對應樣本會得到自動標註。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


於是,問題落在如何推斷U和V這兩個權重隱變數集合身上。容易看出U和V要聯合推斷,而如何選擇U和V則由每個訓練例項的經驗損失以及其對於各自的控制函式(f_SS, f_AL)決定。f_SS的具體解釋可以參考自步課程學習(self-paced curriculum learning),簡單的理解就是優先選擇訓練損失較小的樣本進行學習,這表現為訓練損失越小賦予的權重越大。隨著lambda變大(優化過程中,lambda和gamma都會逐漸變大),訓練會開始接納具有更大訓練誤差的樣本。f_AL相反,主動學習一開始會從訓練誤差較大的樣本(樣本誤差比較小的會被置零,從而被選擇為自監督過程並且得到自動標註)中選擇並進行人工標註。隨著gamma增大,主動學習會開始接納更小的誤差的樣本。

模型函式 f_SS代表了一種貪心的自監督的策略。它大大地節省了人工標註量,但是對於累計預測誤差造成的語義惡化無能為力。並且,f_SS極大依賴於初始引數 W。由於模型函式 f_AL存在,我們可以有效地克服這些缺點。f_AL選擇樣本給使用者進行後處理,通過f_AL獲得的人工標註被認為是可靠的,這種過程應該持續到訓練結束。值得一提的是,通過 f_SS進行的偽標註只有在訓練迭代中是可靠的,並且應該被適當的調整來引導每個階段更魯棒的網路引數的學習。實際上,f_SS和f_AL是同時作用與每一個樣本的,這會等價於一個minimax的優化問題。

另一方面,U和V在推斷時需要考慮前一階段已經由主動學習中的人手工標記好的資訊。我們利用之前的人手工標記好的資訊,定義了兩個基於U和V的取值約束,稱為“對偶課程”(Dual Curricula)。該約束項將被自主學習選過的訓練樣本,如該樣本屬於m個類別之中的一類,我們將其為u和v值設定為1;如該樣本不在m個類別之中,我們將其u和v值設定為0。這意味著我們的訓練框架可以容納新類別的發掘,同時不會讓新類別影響檢測器的訓練。V^{\lambda}_{i}和U^^{\lambda}_{i}只基於之前AL選擇後的結果分別對u和v值進行約束。

形象來說,我們採用兩套不同的樣本挖掘方案策略函式:一個用於高置信度樣本的自動偽標註模式,另一組用於低置信度樣本的人工標註模式。我們進一步地引入了動態選擇函式,以無縫地確定上述哪個階段用於更新未標註樣本的標籤。在這種方式下,我們的自監督過程和主動學習過程可以相互協作和無縫切換,進行樣本挖掘。此外,自監督的過程還考慮了主動學習過程的指導和反饋,使其更適合大規模下物體檢測的需要。具體來說,我們引進兩個課程:自監督學習課程 (Self-Supervised learning Curriculum, SSC) 和主動學習課程 (Active Learning Curriculum, ALC)。SSC 用於表示一組具有高預測置信度,能控制對無標籤樣本的自動偽標註,而 ALC 用於表示很具有代表性,適合約束需要人工標註的樣本。值得注意的是,在訓練階段,SSC 以逐漸從簡單到複雜的方式,選擇偽標籤樣本進行網路再訓練。相比之下,ALC 間歇地將人工標註的樣本,按照從複雜到簡單的方式,新增到訓練中。因此,我們認為 SSC 和 ALC 是對偶課程,彼此互補。通過主動學習過程來更新,這兩個對偶課程能夠有效地指導兩種完全不同的學習模式,來挖掘海量無標籤樣本。使得我們的模型在提高了分類器對噪聲樣本或離群點的魯棒性同時,也提高了檢測的精度。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


基於u和v的聯合推斷構成了一個可基於訓練例項分解的minmax優化問題。對於每一個訓練例項u和v,我們證明了在滿足一定條件下,該推斷具有基於上式表達的閉式解 (具體考究這個有點複雜,可以參考我們的文章)。大概意思是,在考慮訓練例項i的類別經驗誤差和的時候,大於第一個閾值會u_i值會收斂為1 (大括號裡面第一種情況)。由於v^{j}_i<1,我們知道該例項會被選作人工標註。另一方面,在類別經驗誤差和小於另一個閾值(大括號第二行第一個不等式)時,u_i值會收斂為0。由於v^{j}_i>=0,我們知道該例項會被選作機器自動標註,同時根據誤差大小,相應賦予不同的權重。當誤差越大,自動標註越有可能出錯,於是自動賦予權重越小。在大於某一值域(大括號第二行第二個不等式)下,v和u都會同時為零,這意味著該樣本不參與本輪訓練。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


上圖展示了提出的框架(ASM)在目標檢測中的應用。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


在PASCAL VOC 2007/2012結果中,我們的方法僅僅利用大約30~40%左右的標註資料,就能達到state-of-the-arts的檢測效能。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


如何利用大量原始視訊學習

類似的策略可以應用在人體分割任務中,我們利用人體檢測器、和無監督的分割方法,從大量的原始視訊(來自YouTube)中生成人體掩膜。這些掩膜資訊可以作為分割網路的標註資訊。同時,結合分割網路輸出的信度圖,對人體檢測器提取的候選區域結果進行修正,以生成更好的人體掩膜。


Unsupervised Domain Adaptation



林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


為了適配不同領域資料間的分佈,解決目標任務缺乏資料標註的難題,我們將探索無監督領域自適應學習方法,包括單資料來源領域自適應、以及多資料來源領域自適應。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


 單資料來源領域自適應


在應用場景中,往往存在某一領域的可用資料過少,而其他類似領域的可用資料充足,因此,衍生出了一系列遷移學習的方式,以做到跨領域的自適應。例如,在圖示的任務中,源域的資料一般是帶有標註資訊的,而目標域的資料不僅與源域中的資料含有不同的分佈,往往還沒有標註資訊。因此,通過將學習到的知識從源域遷移到目標域,來提高演算法在目標域資料上的效能。

因此,需要聯合有標註的源域資料和無標註的目標域資料,來學習一個與域無關的特徵,來進行最終在目標域上的預測。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


多資料來源領域自適應


而對於從多資料來源向目標域遷移學習的情況,將更加複雜,需要考慮:1. 多種源域資料本身之間具有偏差  2. 多種源域資料間類別存在偏差。

因此我們提出了一種名為“雞尾酒”的網路,以解決將知識從多種源域的資料向目標域的資料中遷移的問題。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


“雞尾酒”網路


雞尾酒網路用於學習基於多源域(我們的圖示僅簡化地展示了j,k兩個源域)下的域不變特徵(domain invariant feature)。在具體資料流中,我們利用共享特徵網路對所有源域以及目標域進行特徵建模,然後利用多路對抗域適應技術(基於單路對抗域適應(adversarial domain adaptation)下的擴充套件,對抗域適應的共享特徵網路對應於生成對抗學習(GAN)裡面的生成器),每個源域分別與目標域進行兩兩組合對抗學習域不變特徵。同時每個源域也分別進行監督學習,訓練基於不同源類別下的多個softmax分類器。注意到,基於對抗學習的建模,我們在得到共享特徵網路的同時,也可以得到多個源分別和目標域對抗的判別器。這些判別器在對於每一個目標域的資料,都可以給出該資料分別與每一個源域之間的混淆度(perplexity score)。因此,對於每一個來自目標域的資料,我們首先利用不同源下的softmax分類器給出其多個分類結果。然後,基於每一個類別,我們找到包含該類別的所有源域softmax分類概率,再基於這些源域與目標域的混淆度,對分類概率取加權平均得到每個類別的分數。簡而言之就是,越跟目標域相識的源域混淆度會更高,意味著其分類結果更可信從而具有更高的加權權值。

需要注意的是,我們並沒有直接作用於所有softmax分類器上反而是基於每個類別分別進行加權平均處理。這是因為在我們的假設下,每個源的類別不一定共享,從而softmax結果不能簡單相加。當然,我們的方法也適用於所有源共享類別的情況,這樣我們的公式會等價於直接將softmax分類結果進行加權相加。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


其中,L_adv 是對抗損失,當訓練判別器時用傳統的GAN loss,當訓練feature extractor時用confusion loss。L_cls是多源域(multiple source domains)分類損失,C為多源域softmax分類器。N是source的數目,s_j 代表第j個source,C_{s_j}代表第j個source的softmax 分類器 (用C來表示全部source的分類輸出),D_{s_j}代表第j個source跟target對抗的判別器 (用D來表示全部的對抗結果),F為feature extractor。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


我們分別在Office-31、ImageCLEF-DA、Digit-five資料集上進行了測評,我們的方法取得了很好的結果。


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


林倞:Beyond Supervised Deep Learning--後深度學習時代的挑戰


文中林老師提到的文章下載連結為: 

https://pan.baidu.com/s/1smZSNUH


相關文章