【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

產業智慧官發表於2018-02-23
文章內容索引:
  • 什麼是遷移學習?

  • 為什麼現在需要遷移學習?

  • 遷移學習的定義

  • 遷移學習的應用場景

  • 遷移學習的應用

    • 從模擬模擬中學習

    • 適應新的領域場景

    • 跨語言轉化知識

  • 遷移學習方法

    • 使用預先訓練的CNN得到的特徵

    • 學習域不變的表示

    • 使表示更相似

    • 令人困惑的域

  • 相關研究領域

    • 半監督學習

    • 更有效地使用可用的資料

    • 提高模型的泛化能力

    • 使模型更健壯

    • 多工學習

    • 持續學習

    • 零資料學習

  • 結論


近年來,我們在訓練深度神經網路從大量的標記資料(圖片、句子、標籤預測等)中獲取非常精確的輸入輸出對映關係上取得了巨大的進展。

但是,我們的模型還欠缺著對與訓練過程中遇到的不同的情況的歸納能力。當你將你在特定構造的資料集下訓練得到的模型放到真實世界中測試時就會發現這一點的重要性。真實世界與單調的資料集不同,充斥著無數資料集中沒有覆蓋的場景,而你不可能把所有的場景都提供給模型訓練之後再讓模型進行預測。而將從有限資料集中學習到的知識轉移到這種沒有覆蓋到的場景中的能力就成為遷移學習,本文的討論也將圍繞它展開。

在本文中,首先將會拿遷移學習與機器學習中應用最廣泛、成功的範例——監督學習進行對比。然後分析為什麼遷移學習值得我們關注,提出遷移學習的更技術性的定義和遷移學習不同的具體應用場景。在提供具體的應用例項之後,我們會深入討論可以應用與遷移學習的實用方法。最後,我會對相關的研究領域進行簡要介紹並做未來展望。



1
什麼是遷移學習?


在機器學習經典的監督學習場景中,如果我們需要在域A中訓練一個模型去完成某些任務,我們會假設我們已經擁有了與這個域以及任務相對應的標記資料集。就像下圖展示的一樣,模型A的測試資料以及訓練資料對應的域以及任務都是相同的。(後面我們會對任務以及域做出具體的定義)現在,我們可以先做一個簡單地假設:任務就是我們的模型要達到的目的,比方說從圖片中識別出物體;而域就是我們資料來源的地方,比方說我們的照片是來自於舊金山的咖啡店。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

ML中傳統監督學習的設定



註解:Traditional ML:傳統機器學習,Task/Domain: 任務/域, Model: 模型,Training and evaluation on the same task or domain: 在同一任務或域下訓練和驗證模型。

現在我們可以訓練一個模型A,並且要求他在這個域和任務中對於訓練集中未出現的資料也可以保持很好的泛化能力。現在假想另一個場景,我們需要在域B中訓練一個模型去完成一些其他的任務,那麼我們像之前一樣需要同樣與之對應的標記資料集來訓練在B域具有良好泛化能力的模型B。

然而,並不是什麼時候我們都有著對應特定域的足夠標記資料的,這時像上圖一樣的傳統監督學習正規化就不適用了。

舉一個具體的例子:如果我們想基於夜間的影像訓練一個模型去檢測行人,我們希望利用一些相似域下訓練得到的模型。(比方說在日間影像基礎上訓練好的模型)然而在實踐中,由於在特定資料集下訓練的模型已經習慣於訓練集中的資料偏置,在面對來自新域中的輸入資料時,模型的歸納能力會明顯下降甚至崩潰。

上面的例子還是相對簡單的,因為輸入資料的不同還只是體現在輸入引數的不同上,而如果再麻煩一點,比如說我們只想檢測出騎著自行車的人,那我們之前訓練得到的日間檢測行人的模型甚至都沒有了重用的可能性,因為原資料集上的標籤都需要變動。

遷移學習是我們能夠利用相關任務或域的資料來解決當前場景下的問題。我們可以將從設定的源域中獲取的知識應用於我們感興趣的目標域。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

遷移學習的設定



註解:Transfer Learning: 遷移學習,Storing knowledge gained ... problem: 把從解決一個任務中獲得的知識儲存下來並且遷移到另一個與之相關但又有所區別的問題上

在實踐當中,我們會嘗試將盡可能多的知識從源域轉化至目標任務或域。根據資料的不同,我們採取的知識形式也是不同的:可以涉及物件的組成,這可以使新的物件的識別變得更加容易;也可以是人們用於表達觀點的一般資料,等等。




2
為什麼現在需要遷移學習?



史丹佛大學教授Andrew Ng在他廣受歡迎的NIPS 2016教程中表示,遷移學習將會繼監督學習之後成為機器學習商業成功的下一個推動力。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

Andrew Ng在NIPS 2016上關於遷移學習的觀點



註解: “遷移學習會成為機器學習成功的下一個驅動力” Andrew Ng,NIPS教程 2016

特別是,他在白板上畫出了一張圖表,我儘可能忠實地複製後得到了下面的圖(對於未標記的座標軸感到抱歉)。按Andrew Ng的話說,轉移學習將成為機器學習在行業中取得成功的關鍵因素。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

Andrew Ng提出的驅動機器學習在工業成功的因素



註解:表標題:機器學習在行業成功中的驅動力,Supervised learning: 監督學習,Transfer learning: 遷移學習,Unsupervised learning: 無監督學習,Reinforcement learning: 強化學習,橫軸:時間,縱軸:經濟效應

毫無疑問,迄今為止,機器學習在工業界的使用和成功主要是由監督學習推動的。在深度學習、功能更強大的計算工具和大量標記資料集的推動下,監督學習再次提起了人們對AI的興趣,掀起了融資和收購的浪潮,尤其是近幾年機器學習的應用越來越廣,逐漸成為了我們生活的一部分。如果我們忽視反對者和質疑者提出的下一次AI寒冬的到來而是相信Andrew Ng的預測,也許機器學習的成功將會繼續延續下去。

但是事實並不明朗,事實上遷移學習的概念已經存在了幾十年但是在工業中的應用屈指可數,是否會如Andrew Ng所說,它會在未來出現爆炸式的增長呢?相對於機器學習的其他領域(無監督學習、強化學習),遷移學習的關注度要更低一些。而無監督學習和強化學習的歡迎度在逐漸上升:無監督學習——Yann LeCun提到的尋求通用AI的關鍵因素可以看出人們對監督學習興趣的增長,尤其是生成敵對網路;Google DeepMindze則利用強化學習大大提升了遊戲AI的水平,AlphaGo的成功印證了這一點,除了遊戲之外,這一成功也應用在了Google的資料中心冷卻技術上,節省下了40%的費用,不過雖然這兩個領域有希望,但是在短期並不能產生很大的商業影響,仍然還停留在尖端的研究報告中,有著很多挑戰需要解決。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

Yann LeCun的蛋糕問題顯然與遷移學習沒有關係



註解:從上至下機器需要多少資訊來進行預測?

單純的增強學習(櫻桃)——一些樣本中的一些Bit;監督學習(刨冰)——每個樣本10-10000Bit;無監督學習(蛋糕)——每個樣本百萬Bit

是什麼使遷移學習與眾不同?接下來,我們分析一下(從我們的角度)是什麼因素促使 Ng 做出了這樣的預測以及我們現在需要關注遷移學習的原因。

我們可以從兩個方面來審視一下當前機器學習在行業中的應用現狀:

一方面,在過去的幾年中,我們訓練得到的模型越來越精確。我們現在需要用它去完成各種各樣的任務,最先進的模型的效能已經達到了使用者幾乎感覺不到它的細微提升的程度。這是什麼概念呢?ImageNet上最新的殘差網路[1]在識別物體的能力上已經超越了人類;Google的智慧回覆[2]可以自動處理所有回覆中的10%;語音識別的錯誤率逐漸下降,低於人類打字的錯誤率[3];我們可以藉助機器學習來像皮膚科醫生一樣診斷皮膚癌;Google的神經機器翻譯系統[4]已經應用在十種以上的語種之上;百度可以實時生成像人類一樣生動的演講;機器學習能做的事情在變得越來越多,這些模型已經足夠成熟,可以大規模部署來服務數百萬的使用者。

另一方面,這些模型的精確程度極度依賴於資料,模型效能的提升需要大量的標記資料。在一些任務和域中,這些資料時可用的並且已經經過了多年的精心整理。在少數的情況下這些資料資料時公開的,比如說ImageNet[5],但是更多的標記資料是專有或者昂貴的,因為這些資料一定程度上也代表了行業中的競爭力。

與此同時,在機器學習模型真正應用於真實世界中時面臨的是無數之前沒有遇到過的情況並不知道怎樣去處理這些情況;每個客戶端和每個使用者都有著他們各自的效能指標,擁有或者產生著與訓練資料集中不同的資料;每個模型在應用中都需要處理這些與訓練過程中相似但又不是完全相同的任務。在所有的情況下,即使是在訓練集上有著接近或者超越人類水平的模型在效能上也會有著明顯的下降甚至在某些場景下會變得完全不可用。

而遷移學習可以幫助我們處理這些新的情況,這在機器學習應用於那些標記資料並不是很豐富的域時尤為重要。到目前為止,我們已經將模型應用於了那些具有豐富資料積澱的任務和域,這並不困難。但是為了服務於長尾部分(長尾效應,二八法則),我們需要將模型已經獲得的知識遷移至新的任務與域當中。

為了做到這一點,我們要了解遷移學習設計的概念。下面的部分中我們會為此給出更技術性的定義。



3
遷移學習的定義



對於遷移學習的定義,我們將以 Pan and Yang (2010)[6] 對二進位制文字分類的優秀研究為例來進行講解。

遷移學習涉及到了域和任務的概念。域D由一個特徵空間X和特徵空間上的邊緣概率分佈P(X)組成,X = x\_1, ... , x\_n \in \chi。以文字分類為例來說,\chi是所有文字代表的特徵空間,x\_i是對應文字中的第i項的向量,X是訓練時使用的文字樣本。

給定一個域,D = {\chi, P(X)},任務\mathcal{T}由標籤空間\mathcal{Y}和從包含x\_i \in X和y\_i \in \mathcal{Y}組合的訓練資料中獲得的條件概率分佈P(Y|X)組成。在文字分類的例子中,\mathcal{Y}是所有標籤組成的集合,由於y\_i只能是True或False,所以\mathcal{Y} = {True, False}

此時,之前遷移學習要解決的問題就可以表述為:給定一個對應於源任務\mathcal{T}\_S的源域\mathcal{D}\_S以及目標域\mathcal{D}\_T和目標任務\mathcal{T}\_T(\mathcal{D}\_S \neq \mathcal{D}\_T, \mathcal{T}\_S \neq \mathcal{T}\_T),要從源任務\mathcal{T}\_S和源域\mathcal{D}\_S中提供的資訊中學習得到目標域\mathcal{D}\_T中的概率分佈P(Y\_T|X\_T)。在遷移學習的大多數場景下,可用的目標域的標記樣本遠遠小於源域。

域\mathcal{D}和任務\mathcal{T}均被定義為元組,而源域和目標域中它們的不等價就產生了4種機器學習場景,下面我們對這四種情景進行討論




4
遷移學習情景



給定源域\mathcal{D}\_S和目標域\mathcal{D}\_S(\mathcal{D} = {\mathcal{X},P(X)})以及源任務\mathcal{T}\_S和目標任務\mathcal{T}\_T(\mathcal{T} = {\mathcal{Y}, P(Y|X)}),源和域滿足的條件可以有四種,下面我們還是以文字分類為例來說明:

  1. \mathcal{X}\_S \neq \mathcal{X}\_T。源域和目標域的特徵空間是不同的,比如說文字是用兩種不同的語言編寫的。在自然語言處理中,這通常被稱為跨語言適應。

  2. P(X\_S) \neq P(X\_T)。源域和目標域的邊緣概率分佈是不同的,即源域和目標域的文字討論的是不同的主題。這種情況被稱為域適應。

  3. \mathcal{Y}\_S \neq \mathcal{Y}\_T。兩個任務之間的標籤空間是不同的,即同一個文字需要在目標任務中被分配以不同的標籤。在實踐中,通常發生的是場景4,因為兩個不同的任務具有不同的標籤空間,但具有完全相同的條件概率分佈的情況是十分罕見的。

  4. P(Y\_S|X\_S) \neq P(Y\_T|X\_T)。源和目標任務的條件概率分佈是不同的,即原始檔和目標檔案在類別方面是不平衡(某些類別的樣本數量極多,而有些類別的樣本數量極少)的。這種情況在實踐中相當普遍,過取樣,欠取樣或SMOTE過取樣[7]演算法這些被廣泛使用的方法都是為了解決這一問題。

現在,我們已經明白了遷移學習的概念和遷移學習應用的場景,下面我們來看一下遷移學習的不同應用以及遷移學習的潛力所在。




5
遷移學習的應用



從模擬中學習這是一個讓我感到很振奮的遷移學習的應用並且我猜想在未來會有越來越多的模型是從模擬中學習得來。因為對於很多依賴於實物或者硬體進行互動的機器學習應用來說,在真實世界中收集資料和訓練模型不是很昂貴、耗時就是存在危險。所以就需要一些風險成本較小的收集資料方式。


而模擬就是這方面應用的首選,實際上它也應用在了很多先進的機器學習系統上。將從模擬中習得的知識遷移到真實世界中時,源域和目標域的特徵空間是一致的(通常都依賴與獲得影像中的畫素單元的狀態),但是源域和目標域的邊緣概率分佈是不同的。(雖然是模擬,但是源域和目標域的物還是有著差異的,而且物理引擎並不能模擬真實世界中的所有複雜互動),這種場景對應的就是上面提到的遷移學習場景中的第2種。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

Google自駕車

(來源:Google Research部落格)

在模擬中學習的一大好處是可以更加方面地收集資料,在保證快速學習的前提下還可以輕鬆地新增或者分析模擬中的物體,也使模型在不同例項下的並行訓練成為了可能。由此,模擬是大型機器學習專案在真實世界中進行測試的先決條件,自動駕駛汽車就是一個很好的例子。Google自動駕駛汽車的技術負責人 Zhaoyin Jia 就說過:“如果你想真的坐一輛可以自動駕駛的汽車,那麼模擬是必不可少的”。優達學城已經開源了模擬器,它用於無人駕駛工程師的奈米學位教學(圖7),OpenAI's Universe未來可能會允許使用GTA 5或者其他視訊遊戲來訓練自動駕駛汽車。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

Udacity自動駕駛汽車的模擬器

(來源:TechCrunch)

模擬以關鍵角色出現的另一個應用是機器人技術:用真正的機器人去訓練模型不僅慢,而且訓練成本也很昂貴。而從模擬中學習之後在將習得的知識遷移到真實世界中一定程度上緩解了這一問題,這也使得它在近期得到了更多的關注[8]。下圖分別展示了機器人在真實世界和模擬中完成操作任務的影像。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

真實世界中的機器人和模擬影像(Rusu等,2016)


最後一提,模擬也是實現通用AI道路上不可或缺的一部分。直接在真實世界中訓練得到通用AI的成本太高,而且上來就會受到真實世界中一些並不是很關鍵的因素影響而提升問題的複雜度。相反地,如果基於模擬環境(像下圖展示的CommonAI-env)[9]開始訓練則更容易取得成功。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿


Facebook的 CommAI-env(Mikolov等,2015)


適應新的域


雖然從模擬中學習已經是域適應中的一個具體的例項了,但是我們還是值得概括一些其他域適應的例子。


在機器視覺中,域適應是一個常見要求,因為帶有標註的資料集很容易取得,但是獲得的資料集和我們最終應用的資料集來源的域往往是不同的,就像下圖展示的一樣。雖然訓練資料和測試資料看起來差別並不大,但是訓練集中包含的人類難以察覺到的偏差將會影響到模型的訓練[10]。


【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿


不同的視覺域(Sun et al., 2016)



另一個常見的域適應的場景是適應不同的文字型別:標準的NLP工具(詞性標註器或解析器)通常在華爾街日報等新聞資料(曾經被用於評估這些模型)上進行訓練。然而,在新聞資料上訓練得到的模型在面對來自像Twitter一樣的社交媒體中新的文字型別時就顯得力不從心了。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿


不同的文字型別




即使是在產品評論這樣一個領域中人們也會用不同的詞語來表達相同的意見。因此,在一種評價上訓練得到的模型應當能夠識別人們通常使用的和特定域使用的表達意見的詞彙,以免被域的切換所迷惑。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿


不同的主題




雖然上述挑戰已經設計了一般的文字或影像型別,但是如果我們考慮到與個人或使用者群體相關的域,這個問題還會被進一步放大:自動語音識別(ASR)。語音有望成為下一個大平臺,據研究進度推測,在2020年將會有50%的搜尋是通過語音進行。大多數ASR系統還是在Switchboard語料庫上進行檢驗,這意味著有口音的人也是可以被識別出的,然而移民、有著非標準口音或者有語言障礙的人則很難識別。現在,為了確保每個人的聲音都可以被識別,我們急需一個可以適應個人使用者或少數群體的語音系統。

最後,雖然上述挑戰涉及一般的文字或影像型別,但如果我們考慮與個人或使用者群體有關的域,則問題會被放大:考慮自動語音識別(ASR)的情況。語音有望成為下一個大平臺,預計到2020年,我們所有搜尋中的50%預計將通過語音進行。大多數ASR系統在傳統上由交換板資料集評估,該資料集由500個揚聲器組成。大多數有口音的人是幸運的,而移民,非標準人士,有言語障礙的人或孩子則難以理解。現在我們比以往任何時候都需要能夠適應個人使用者和少數群體的系統,以確保每個人的聲音都能被聽到。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

Google Assistant和亞馬遜的Echo可以處理不同的口音



跨語言傳輸知識



最後,我認為將我們從一種語言學習中獲得的知識遷移到另一種語言上將成為遷移學習的另一個殺手級應用.可靠的跨語言適應方法可以讓我們充分利用當前擁有的大量帶有標註的英文資料並將之應用於任何語言,特別是一些缺少語料庫和常規方案難以奏效的語言,但是從當前的最新研究進展來看,這個方案仍然是烏托邦式的,不過之前的一些進展,如零資料翻譯[11],已經在這個領域有了飛速的發展。

到目前為止,我們已經考慮了轉移學習的具體應用和麵臨的挑戰,現在我們來看看文獻中用於解決一些之前提出的挑戰的實際方法和方向。




6
遷移學習方法



遷移學習有著悠久的研究歷史,有著處理上述四種遷移學習場景的技術。同時深度學習的出現帶來了一系列新的學習方法,其中一些我們將在下面進行介紹。如果對早期方法感興趣,請參閱文獻索引6。


使用預先訓練的CNN得到的特徵



為了理解目前最常用的轉移學習方式的來源,我們必須首先了解在ImageNet上大型卷積神經網路取得巨大成功的原因[12]。


理解卷積神經網路



雖然這些模型很多細節的工作原理還是一個謎,但是我們現在意識到較低的卷積層可以捕獲一些低階的影像特徵,如邊緣(見下圖),高階的卷積層可以捕捉更復雜的細節,如身體部分,面部和其他組成特徵。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

由AlexNet學習的卷積核示例(Krizhevsky et al. ,2012)



而最終的全連線層通常假設用於捕獲與解決任務相關的資訊,以AlexNet為例,它的全連線層指出了將影像分類到某一具體類別下與哪些特徵相關。

然而,雖然在識別動物為一隻貓的過程中知道貓有鬍鬚、爪子、毛皮等特徵是必要的,但是這並不能幫助我們識別新的物體或者說解決一些常見的機器視覺場景,比如細粒度識別,屬性檢測和影像檢索等任務。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿


真正對我們有幫助的不是上一段提到的高階特徵,而是能夠幫助我們捕獲影像構成的一般特徵以及影像中的邊緣和形狀組合的表示層。關於這些低階特徵,上面已經提到過,這些資訊一般被包含在一個最終的卷積層或者在像ImageNet這樣大型的網路中的早期完全連線層中。

對於一個新的任務,我們可以直接使用ImageNet上預先訓練得到的CNN的現成特徵,並且基於這些提取的特徵來訓練新的模型。在實踐中我們會保持預先訓練好的引數不變或者保持較低的學習率來避免模型遺忘之前獲得的知識。這個簡單的方法已經在一系列的機器視覺任務和一些依賴視覺輸入的任務(視訊字幕)上取得了驚人的成果[13]。在ImageNet上訓練得到的模型似乎捕捉到了處理動物和影像時通常相關的結構和組成細節,因此ImageNet任務成為了一般的機器視覺問題的很好的代理(agent),因為它所需的知識與其他很多機器視覺任務也是相關的。


學習影像的底層結構



一個類似的假設被用於生成模型:當訓練生成模型時,我們假設生成逼真的影像依賴於對影像底層結構的瞭解,反過來這一假設也可以用於其他任務。這一假設本省依賴於所有的影像是位於低維流形上的即我們可以通過模型提取影像的底層結構。最近利用生成對抗網路[14]產生逼真影像的最新進展表明這樣的底層結構可能真是存在,由模型的顯示在下圖中的臥室影像空間中的點之間的現實過渡能力證明了這一點。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

臥室影像合集


在機器視覺以外的領域,預訓練得到的特徵是否依舊有效?

在機器視覺領域,訓練得到的現成的CNN特徵取得了空前的效果,但是要將這一成功在其他領域(如語言)中復刻仍然有著很多問題需要解決。目前來說,現成的特徵並不能使自然語言處理達到與機器視覺一樣的效果。這是為什麼呢?這樣的特徵是否存在?為什麼這種形式的遷移學習更容易在視覺上而不是自然語言處理上取得成功?

在自然語言處理中,低階別的任務輸出(如詞性標註、分塊)可以看做現成的特徵,但是這些特徵並不能捕捉到超越語法以外的更細粒度的語言使用規則,對於所有的任務的整體來說並沒有幫助。正如我們之前看到的,一般化的現成特徵是與一個任務交織在一起的,而這個特殊的任務就是該域很多工的原型。在機器視覺中,物體識別佔據了這樣一個角色,在自然語言處理中,最接近的可能是語言建模:給定一個單詞序列,為了預測下一個單詞或句子,模型需要掌握語言結構相關的知識,需要了解那些單詞與之前的序列相關並可能出現在後面,這需要長期依賴(Long-Term Dependencies)的建立。

雖然最先進的語言模型越來越接近人的水平[15],但是它們的特徵都是區域性適用的。不過語言建模的進步仍然為其他任務產生了積極的效應:使用語言模型作為目標來作為目標預訓練模型可以提升效能[16]。除此之外,用近似語言建模在大型無標記語料庫上預先訓練的詞嵌入已經變得非常普遍了[17]。即使不像視覺中現成的特徵那樣有效,這種方式仍然提供了很大的收益[18],可以看做是從大的未標記語料庫中獲得的一般域知識的簡單形式遷移。

一般任務的代理(agent)任務在自然語言處理中仍然是未知的,但是它的輔助任務可以採取本地代理(agent)的方式。無論是多工目標[19]還是合成任務目標[20,21],都可以被用於將額外的相關知識注入到模型當中。

使用預先訓練的特徵是當前遷移學習中最直接和常用的方法,但我們應當清楚這並不是唯一的方法。


學習域不變的表示



利用預訓練的特徵通常適用於我們要適應新任務的場景3。對於其他情況,深度學習為我們提供了另一種遷移學習的方式:學習域不變的表示。這種方法與我們之前提取預訓練的CNN特徵在概念上是十分相似的,他們都將域中的一般知識做了編碼處理。不過,建立域不變的表示對於非視覺任務來說要比生成對所有任務有用的表示來說成本更低,可行性更高。ImageNet花費了數年,數千小時來建立對所有任務有用的表示,而我們通常只需要每個域的未標記資料來建立域不變的表示。這些表示通常通過去噪的多層自編碼器來實現並且已經在自然語言處理[22,23]和機器視覺[24]上取得了巨大的成功。


使表示更相似



為了提高從源域到目標域習得的表示的可遷移性,我們希望兩個域之間的表示儘可能相似,這樣域中特有的特徵就不再阻礙遷移學習了,我們只需要考慮域之間的共性即可。

由此,我們不僅僅希望自編碼器學習一些表示,更希望它在兩個域中習得的表示[25,26]具有更多的共性。我們可以將自編碼器作為預處理步驟,訓練得到的新的表示可以用於接下來的訓練,與之類似的我們也可以讓模型中域的表示具有更多的共性[27,28]。


混淆域



最近越來越流行的保證兩個域表示相似性的的方式是新增一個新的目標到現有的模型當中,鼓勵模型混淆這兩個域[29,30]。這兩個域的混淆損失即一個正則化的分類損失,對應於模型對輸入例項所屬域的預測損失函式。它與正則化損失的區別在於由損失函式傳遞到網路其他部分的的梯度是相反的,如下圖所示:

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

具有梯度反轉層的混淆域(Ganin和Lempitsky,2015)


Feature extractor: 特徵提取,feature: 特徵,label predictor: 標籤推測,class label: 類標籤,domain classifier: 域分類器,gradient reversal layer: 梯度反轉層,forwardprop:前饋,backprop: 反饋,loss: 損失

與最小化分類誤差相反,梯度反轉層將導致最大化的模型分類誤差。在實踐中意味著模型習得的表示將最小化原來的目標,使模型不能區分這兩個域從而有利於知識的遷移。在下圖中展示了一個只用正則化目標來進行訓練的模型,在混淆之前可以根據其各自學習的特徵來分離域,但是混淆之後的模型做不到這一點。

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

正則化和域混淆模型的域分類器得分(Tzeng等,2015)


註解: Domain classifier score: 域分類器得分




7
相關研究領域



雖然這篇文章是關於遷移學習的,但是遷移學習並不是機器學習的唯一研究領域。遷移學習試圖利用有限的資料和已經習得的知識來進行新的嘗試以使模型更好地推廣到新的環境。接下來,我們將介紹與遷移學習相關或互補的其他方向。


半監督學習



遷移學習的目標是利用目標任務或域中的未標記資料達到最大的效應。這也是半監督學習的目標,半監督學習雖然和經典的機器學習設定相同,但它假設用於訓練的標記樣本是很有限的。迄今為止,半監督的域適應本質上是在域轉換下的半監督學習。因此半監督學習中很多的經驗與見解在遷移學習中也同樣適用,關於半監督學習,可以參見參考文獻中的31。


更有效地使用可用資料



與轉移學習和半監督學習有關的另一個方向是使模型能夠在有限的資料量下更好地工作。

這可以通過幾種方式來實現:可以通過無監督學習或者半監督學習從未標記的資料中提取資訊從而減少對標記樣本的依賴;可以使模型訪問資料中固有的其他特徵而不是通過正則化來減輕過擬合的趨勢;最後,可以利用被訓練中忽略的資料或看起來並不起眼的資料來增強模型。

這種偶然的資料[32]可以視為使用者生成內容時被建立的副產物,例如可以用來說明命名實體的超連結和詞性標註符;它也可以是註釋的副產物,就像不同的註解可以可能會提升標註或解釋的質量;還可以從使用者行為(眼動追蹤或使用者的鍵盤行為)中獲得資訊提供給NLP(自然語言處理)任務。雖然這些資料只能以有限的方式利用,但是這樣的例子鼓勵我們在一些之前沒有留意的地方查詢資料,發現新的資料檢索方式。


提高模型的泛化能力



為了使模型具有更好的泛化能力,我們首先要理解大型神經網路的行為和複雜性,並研究他們如何實現歸納和泛化以及為什麼要這樣做。最近的研究在這一方面已經取得了很大進展[33],但是仍然還有很多問題亟待解答。


使模型更健壯



雖然提高模型的泛化能力還有很長的路要走,但是我們已經可以很好地概括相似的例項,但是一些意料之外的輸入帶來的結果可能是災難性的。因此,一個關鍵的補充目標是讓我們的模型更加健壯。這個方向近來由於對抗學習的進展而引起了越來越多的興趣,最近研究已經發現了很多種方法來保證模型在不同的設定下對最壞情況或對抗性情況的健壯性[34,35]。


多工學習



在遷移學習中,我們主要希望在目標任務或域有好的效能。與之不同,在多工學習中,我們希望所有的任務上都可以有好的效能。換言之,我們可以藉助相關任務中習得的知識來在目標任務上達到很好的效能。更為關鍵的一點是,與遷移學習不同,標記資料被假設提供給所有的任務,模型也是在源和目標任務資料上共同訓練,這種情況是沒有出現在遷移學習當中的。這種場景下,即使訓練過程中目標資料是不可用的,多工學習中對任務的見解對遷移學習的決策也是有益的。


對於多工學習更徹底的概述(特別是在深層神經網路中的應用),可以參見作者的部落格。


持續學習



雖然多工學習可以在不對源任務造成效能損失的前提下讓我們在多項任務中保留知識,但是隻有所有任務同時訓練時才可以達到這一效果,這意味著每當出現一個新的任務我們需要重新訓練我們模型相關的所有任務。


在現實世界中我們並不希望這樣做,我們希望代理(agent)可以利用過去的經驗來處理日漸複雜的任務。為此,我們需要讓模型可以持續學習而不會忘記之前的經驗。這個機器學習領域被稱為(Learning to learn)[36]讓機器學會學習,元學習,終身學習或持續學習。從增強學習[37,38,39]最近的發展可以看出它的發展,尤其是Google DeepMind在尋求一般學習代理方面的研究,已經應用在了序列到序列(sequence-to-sequence)的模型上[40]。

零資料學習(Zero-shot learning)



最後,我們想象遷移學習的極限情況,每一類例項中我們只有幾個、一個甚至零個例項以供學習,我們分別稱之 為few-shot learning, one-shot learning(單次學習)和 zero-shot learning。機器學習中最困難的問題就是使模型一次性學習達到效果或者不經過學習就達到目標。但對於人類來說這是很常見的事情,小孩子在得知某個物體是狗的時候他(她)馬上就可以識別出其他的狗,成年人可以通過閱讀相關的書籍來建立對一個完全沒有看到過的物體的認知。


在單次學習方面的最新進展利用了一下認知:在單次訓練中,模型需要被明確地訓練,這樣在測試時才可以達到很好的效能[41,42]。而零資料學習中在測試資料前訓練的類的設定也被研究人員所關注[43]。




8
結論



總而言之,遷移學習提供了很多令人興奮的研究方向,尤其是很多需要模型將知識遷移到新的任務或域的應用。希望我的文章可以讓你能夠大致瞭解遷移學習這一概念並能激起你的興趣。


注意:這篇部落格文章中的一些陳述是故意有些爭議的。如果你對一些說法有不同的見解或者發現了一些錯誤請在評論中指出。


參考文獻

  1. Szegedy, C., Ioffe, S., Vanhoucke, V., & Alemi, A. (2016). Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. arXiv preprint arXiv:1602.07261.

  2. Kannan, A., Kurach, K., Ravi, S., Kaufmann, T., Tomkins, A., Miklos, B., … Ramavajjala, V. (2016). Smart Reply: Automated Response Suggestion for Email. In KDD 2016. http://doi.org/10.475/123

  3. Ruan, S., Wobbrock, J. O., Liou, K., Ng, A., & Landay, J. (2016). Speech Is 3x Faster than Typing for English and Mandarin Text Entry on Mobile Devices. arXiv preprint arXiv:1608.07323.

  4. Wu, Y., Schuster, M., Chen, Z., Le, Q. V, Norouzi, M., Macherey, W., … Dean, J. (2016). Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv preprint arXiv:1609.08144.

  5. Deng, J., Dong, W., Socher, R., Li, L., Li, K., & Fei-fei, L. (2009). ImageNet : A Large-Scale Hierarchical Image Database. In IEEE Conference on Computer Vision and Pattern Recognition.

  6. Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

  7. Chawla, N. V, Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE : Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321–357.

  8. Rusu, A. A., Vecerik, M., Rothörl, T., Heess, N., Pascanu, R., & Hadsell, R. (2016). Sim-to-Real Robot Learning from Pixels with Progressive Nets. arXiv Preprint arXiv:1610.04286. Retrieved from http://arxiv.org/abs/1610.04286

  9. Mikolov, T., Joulin, A., & Baroni, M. (2015). A Roadmap towards Machine Intelligence. arXiv Preprint arXiv:1511.08130. Retrieved from http://arxiv.org/abs/1511.08130

  10. Torralba, A., & Efros, A. A. (2011). Unbiased Look at Dataset Bias. In 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

  11. Johnson, M., Schuster, M., Le, Q. V, Krikun, M., Wu, Y., Chen, Z., … Dean, J. (2016). Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation. arXiv Preprint arXiv:1611.0455.

  12. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances In Neural Information Processing Systems, 1–9.

  13. Razavian, A. S., Azizpour, H., Sullivan, J., & Carlsson, S. (2014). CNN features off-the-shelf: An astounding baseline for recognition. IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, 512–519.

  14. Radford, A., Metz, L., & Chintala, S. (2016). Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. ICLR. Retrieved from http://arxiv.org/abs/1511.06434

  15. ozefowicz, R., Vinyals, O., Schuster, M., Shazeer, N., & Wu, Y. (2016). Exploring the Limits of Language Modeling. arXiv Preprint arXiv:1602.02410. Retrieved from http://arxiv.org/abs/1602.02410

  16. Ramachandran, P., Liu, P. J., & Le, Q. V. (2016). Unsupervised Pretrainig for Sequence to Sequence Learning. arXiv Preprint arXiv:1611.02683.

  17. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. NIPS.

  18. Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1746–1751. Retrieved from http://arxiv.org/abs/1408.5882

  19. Bingel, J., & Søgaard, A. (2017). Identifying beneficial task relations for multi-task learning in deep neural networks. In EACL. Retrieved from http://arxiv.org/abs/1702.08303

  20. Plank, B., Søgaard, A., & Goldberg, Y. (2016). Multilingual Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Models and Auxiliary Loss. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.

  21. Yu, J., & Jiang, J. (2016). Learning Sentence Embeddings with Auxiliary Tasks for Cross-Domain Sentiment Classification. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP2016), 236–246. Retrieved from http://www.aclweb.org/anthology/D/D16/D16-1023.pdf

  22. Glorot, X., Bordes, A., & Bengio, Y. (2011). Domain Adaptation for Large-Scale Sentiment Classification: A Deep Learning Approach. Proceedings of the 28th International Conference on Machine Learning, 513–520. Retrieved from http://www.icml-2011.org/papers/342_icmlpaper.pdf

  23. Chen, M., Xu, Z., Weinberger, K. Q., & Sha, F. (2012). Marginalized Denoising Autoencoders for Domain Adaptation. Proceedings of the 29th International Conference on Machine Learning (ICML-12), 767--774. http://doi.org/10.1007/s11222-007-9033-z

  24. Zhuang, F., Cheng, X., Luo, P., Pan, S. J., & He, Q. (2015). Supervised Representation Learning: Transfer Learning with Deep Autoencoders. IJCAI International Joint Conference on Artificial Intelligence, 4119–4125.

  25. Daumé III, H. (2007). Frustratingly Easy Domain Adaptation. Association for Computational Linguistic (ACL), (June), 256–263. http://doi.org/10.1.1.110.2062

  26. Sun, B., Feng, J., & Saenko, K. (2016). Return of Frustratingly Easy Domain Adaptation. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16). Retrieved from http://arxiv.org/abs/1511.05547

  27. Bousmalis, K., Trigeorgis, G., Silberman, N., Krishnan, D., & Erhan, D. (2016). Domain Separation Networks. NIPS.

  28. Tzeng, E., Hoffman, J., Zhang, N., Saenko, K., & Darrell, T. (2014). Deep Domain Confusion: Maximizing for Domain Invariance. CoRR. Retrieved from https://arxiv.org/pdf/1412.3474.pdf

  29. Ganin, Y., & Lempitsky, V. (2015). Unsupervised Domain Adaptation by Backpropagation. In Proceedings of the 32nd International Conference on Machine Learning. (Vol. 37).

  30. Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., … Lempitsky, V. (2016). Domain-Adversarial Training of Neural Networks. Journal of Machine Learning Research, 17, 1–35. http://www.jmlr.org/papers/volume17/15-239/source/15-239.pdf

  31. Zhu, X. (2005). Semi-Supervised Learning Literature Survey.

  32. Plank, B. (2016). What to do about non-standard (or non-canonical) language in NLP. KONVENS 2016. Retrieved from https://arxiv.org/pdf/1608.07836.pdf

  33. Zhang, C., Bengio, S., Hardt, M., Recht, B., & Vinyals, O. (2017). Understanding deep learning requires rethinking generalization. ICLR 2017.

  34. Kurakin, A., Goodfellow, I., & Bengio, S. (2017). Adversarial examples in the physical world. In ICLR 2017. Retrieved from http://arxiv.org/abs/1607.02533

  35. Huang, S., Papernot, N., Goodfellow, I., Duan, Y., & Abbeel, P. (2017). Adversarial Attacks on Neural Network Policies. In Workshop Track - ICLR 2017.

  36. Thrun, S., & Pratt, L. (1998). Learning to learn. Springer Science & Business Media.

  37. Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A. A., … Hadsell, R. (2017). Overcoming catastrophic forgetting in neural networks. PNAS.

  38. Rusu, A. A., Rabinowitz, N. C., Desjardins, G., Soyer, H., Kirkpatrick, J., Kavukcuoglu, K., ... Deepmind, G. (2016). Progressive Neural Networks. arXiv preprint arXiv:1606.04671.

  39. Fernando, C., Banarse, D., Blundell, C., Zwols, Y., Ha, D., Rusu, A. A., ... Wierstra, D. (2017). PathNet: Evolution Channels Gradient Descent in Super Neural Networks. In arXiv preprint arXiv:1701.08734.

  40. Kaiser, Ł., Nachum, O., Roy, A., & Bengio, S. (2017). Learning to Remember Rare Events. In ICLR 2017.

  41. Vinyals, O., Blundell, C., Lillicrap, T., Kavukcuoglu, K., & Wierstra, D. (2016). Matching Networks for One Shot Learning. NIPS 2016. Retrieved from http://arxiv.org/abs/1606.04080

  42. Ravi, S., & Larochelle, H. (2017). Optimization as a Model for Few-Shot Learning. In ICLR 2017.

  43. Xian, Y., Schiele, B., Akata, Z., Campus, S. I., & Machine, A. (2017). Zero-Shot Learning - The Good, the Bad and the Ugly. In CVPR 2017.

  44. Tzeng, E., Hoffman, J., Saenko, K., & Darrell, T. (2017). Adversarial Discriminative Domain Adaptation.

翻譯人:ArrayZoneYour,

原文連結:http://ruder.io/transfer-learning/index.html

原文作者:anonymous

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿


人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。


AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。


領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間


給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。


如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!


新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。



產業智慧官  AI-CPS


用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

【遷移學習】大資料時代下的遷移學習--- 機器學習的下一個前沿

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:


新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、智慧金融”、“智慧零售”、“智慧駕駛”、智慧城市新模式:“財富空間“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”


官方網站:AI-CPS.NET



本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!



版權宣告產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com





相關文章