吳恩達說“將引領下一波機器學習技術”的遷移學習到底好在哪？

https://blog.csdn.net/weixin_42137700/article/details/83500750

【導讀】兩年前，吳恩達在 NIPS 2016 的 Tutorial 上曾說“在監督學習之後，遷移學習將引領下一波機器學習技術商業化浪潮。”現實中不斷有新場景的出現，遷移學習可以幫助我們更好地處理遇到的新場景。遷移學習到底有哪些優點，能夠成為現在機器學習演算法的新焦點？本文將通過與深度學習進行對比，讓大家在應用層面瞭解遷移學習的原理及其優勢。

前言

深度學習在許多很難用其它方法解決的問題上取得了長足的進步。深度學習的成功歸功於它與傳統的機器學習的幾個關鍵不同點，這使得它在處理非結構化資料的時候能夠大放異彩。如今，深度學習模型可以玩遊戲，檢測癌症，與人類交談，以及駕駛汽車。

但是，使深度學習強大的這幾個不同點同時也使得其成本巨大。你可能聽說過深度學習的成功需要龐大的資料量，昂貴的硬體設施，甚至更加昂貴的精英工程人才。現在，一些公司開始對那些可以減少成本的創新想法和技術特別興奮。比如多工學習（Multi-task learning），這是一種可以讓機器學習模型一次性從多個任務中進行學習的方法。這種方法的其中一種好處就是，可以減少對訓練資料量的需求。

在這篇文章中，我們將會介紹遷移學習（transfer learning），一種可以讓知識從一個任務遷移到另一個任務中的機器學習方法。遷移學習不需要為你的問題重新開發一個完全定製的解決方案，而是允許你從相關問題中遷移知識，以幫助你更輕鬆地解決您的自定義問題。通過遷移知識，你可以利用用於獲取這些知識所需的昂貴資源，包括訓練資料，硬體裝置，研究人員，而這些成本並不需要你來承擔。下面讓我們看看遷移學習何時以及是怎樣起作用的。

深度學習與傳統機器學習的不同點

遷移學習並不是一項新技術，它也不是專門為深度學習服務的，但是鑑於最近在深度學習方面取得的進展，它很令人興奮。所以首先，我們需要闡明深度學習究竟和傳統的機器學習在哪些方面有所不同。

▌深度學習進行底層抽象

機器學習是機器自動學習把預測值或者標籤分配給數值型輸入（即資料）的一種方式。這裡的難點是，如何確切地確定這個函式，使得其對於給定輸入可以生成輸出。不對函式新增任何限制條件的話，其可能性（複雜性）是無窮無盡的。為了簡化這個任務，根據我們正在解決的問題的型別，相關領域的專業知識，或者簡單的試錯方法，我們通常會在函式上強加某種型別的結構。一種結構定義了某一型別的機器學習模型。

理論上，有無限種可能的結構可供選擇，但在實踐中，大多數機器學習用例可以通過應用少數幾種結構中的其中一種來解決：線性模型，樹的組合分類器，和支援向量機是其中的核心。資料科學家的工作就是從這一小組可能的結構中選擇正確的結構。這些模型作為黑盒物件，可以從許多成熟的機器學習庫中獲得，並且只需幾行程式碼即可訓練。舉個例子，你可以用 Python 的 scikit-learn 庫像以下這樣訓練一個隨機森林模型：

或者用 R 來訓練一個線性迴歸模型：

與此不同的是，深度學習在更加底層執行。深度學習不是從一小組的模型結構中進行選擇，而是允許開發人員組成任意結構。構建塊是一些模組或者層，可以將其想象成基本的基礎資料轉換。這意味著當我們應用深度學習時，我們需要開啟黑盒子瞭解資料轉換，而不是把它當做被演算法固定的一堆引數。

這種做法使得我們可以構建更加強大的模型，但是同時它也給整個模型構建過程新增了一種全新的挑戰。儘管深度學習社群已經發表了大量研究，到處都有實用的深度學習指南，或者一些經驗之談，如何有效地組合這些資料轉換依然是一個很困難的過程。

下面我們考慮一個極其簡單的卷積神經網路影像分類器，這裡是用一個流行的深度學習庫 PyTorch 來進行定義的。

因為我們使用的是底層的構建塊，我們可以輕鬆改變模型的某個單一部件（例如，將F.relu變為F.sigmoid）。這樣做可以得到一個全新的模型架構，它可能會產生截然不同的結果，而且它的可能性，毫不誇張地說，是無止境的。

▌深度學習還沒有被充分地理解

即使給定了一個固定的神經網路架構，訓練它也是眾所周知的極其困難。首先，深度學習的損失函式通常不是凸函式，這意味著訓練並不一定產生最優的可能解。第二，深度學習現在還是非常新的技術，它的許多組成部分仍未被充分理解。舉個例子，批標準化（Batch Normalization）最近備受關注，因為似乎將其包含在某些模型中是取得良好結果的關鍵，但是專家無法就其原因達成一致。研究人員 Ali Rahimi 最近在一場機器學習會議上甚至把深度學習與鍊金術相提並論，引發了一場論戰。

▌自動特徵工程

深度學習的複雜性促進了一門叫表示學習（representation learning）的技術的發展，這也是為什麼經常有人說神經網路做的是“自動特徵工程”。簡單來說就是，我們不是讓人類來手動從資料集中提取有效特徵，而是構建一個模型，讓模型可以自己學習對於當前任務來說哪些是需要的和有用的特徵。把特徵工程的任務交給模型來處理非常有效，但是代價是模型需要龐大的資料量，也因此需要龐大的計算能力。

▌你可以做什麼？

和其他機器學習方法相比，深度學習太過於複雜，看上去似乎無法將其整合到你的業務中。對於那些資源有限的組織機構來說，這種感覺更加強烈。

對於那些需要走在前沿的組織機構來說，可能的確需要聘請專家和購買專業的硬體設施。但是很多情況下這不是必需的。有方法可以讓你不需要進行大量的投資就可以有效地應用深度學習技術。這裡就是遷移學習可以大展拳腳的地方了。

遷移學習可以讓知識從一個機器學習模型遷移到另一個模型上。這些模型可能是對模型結構進行了長年研究、用相當多資料集對模型進行訓練、用數以年計的計算時間對模型進行優化而得到的結果。利用遷移學習，你不需要承擔上面說的任何成本就能獲得這項工作的大部分好處！

什麼是遷移學習

大多數機器學習任務始於零知識，意思是它的結構和模型的引數是從隨機猜測開始的。當我們說模型是從頭開始學習的時候，意思也是如此。

隨機猜測開始訓練的一個貓檢測模型。通過它見過的許多不同的貓，該模型從中整合出相同的模式，逐漸學習到貓是什麼。

在這種情況下，該模型學習到的所有內容都來自於你展示給它的資料。但是，這是解決問題的唯一方法嗎？在某些情況下，看上去的確如此。

貓檢測模型在不相關的應用中，例如欺詐檢測，很有可能沒有什麼用處。它只知道如何應付貓的圖片，而不是信用卡交易。

但是在某些情況下，我們似乎可以在不同任務之間共享資訊。

貓檢測模型在相關任務中作用很大，例如貓的臉部定位。該檢測器已經知道怎麼檢測貓鬍子，鼻子，以及眼睛，所有這些對於定位貓的臉部都很有用處。

這就是遷移學習的本質：採用一種模型，學習如何很好地完成某項任務，將其部分或者所有知識遷移到一個相關的任務。

想想我們自己的學習經驗，就會發現這其實很有道理：我們經常遷移以往習得的技能，這樣可以更快地學習新的技能。舉個例子，學過投擲棒球的人不需要重新學習拋東西的機制就能很好地學習到怎麼扔一個足球。這些任務本質上是相通的，能夠處理其中一件任務的話自然而然可以把學習到的能力遷移到另一項任務。

在機器學習領域，可能過去 5 年最好的例子就是計算機視覺領域。現在幾乎沒人會從頭開始訓練一個影像模型。相反，我們會從一個預訓練好的模型開始，這個模型已經知道怎麼區分一些簡單的物件，例如貓，狗，還有雨傘。學習區分影像的模型首先學習如何檢測一些通用影像特徵，例如邊緣，形狀，文字，以及臉部。預訓練模型具有以上這些的基本技能（還有更加具體的技能，例如區分狗和貓的能力）。

此時，預訓練的分類模型可以通過新增層或者在一個新的資料集上重新訓練，來繼承那些花費巨大而獲得的基本技能，然後將其延伸到新的任務。這就是遷移學習。

這種方法的好處很明顯。

▌遷移學習訓練資料量需求量更小

當你在一個與貓相關的新任務中重複使用你最喜愛的貓檢測模型時，你的模型已經擁有了“一百萬只貓的智慧”，這意味著你不需要再使用那麼多的貓圖片來訓練新任務了。減少訓練資料量可以讓你在只有很少資料，或者要獲得更多資料的成本過高或者不可能獲得更多資料的情況下也能訓練，同時可以讓你在比較廉價的硬體設施上更快地訓練模型。

▌遷移學習訓練模型泛化能力更強

遷移學習可以改進模型的泛化能力，或者說增強其在非訓練資料上分類良好的能力。這是因為在訓練預訓練模型時，是有目的性地讓模型可以學習到對相關任務都很有用的通用特徵。當模型遷移到一個新任務時，它將很難過擬合新的訓練資料，因為它將僅從一個很一般的知識庫中繼續學習而已。構建一個泛化能力強的模型是機器學習中最難以及最重要的部分之一。

▌遷移學習訓練過程更加魯棒

從一個預訓練的模型開始，也可以避免訓練一個帶有數百萬引數的複雜模型，這個過程非常令人沮喪，非常不穩定，而且令人困惑。遷移學習可以將可訓練引數的數量減少多達 100%，使得訓練更穩定，而且更容易除錯。

▌遷移學習降低深度學習的入門門檻

最後，遷移學習降低深度學習的門檻，因為你不需要成為專家就能獲得專家級的結果。舉例來說，流行的影像分類模型 Resnet-50，這個特定的結構是怎麼選擇的呢？這是許多深度學習專家的多年研究和實驗的結果。這個複雜的結構中包含有 2500 萬個權重，如果沒有對這個模型中各個部件的深入瞭解，從頭優化這些權重可以說是幾乎不可能的任務。幸運的是，有了遷移學習，你可以重用這個複雜的結構，以及這些優化過的權重，因此顯著降低了深度學習的入門門檻。

多工學習又是什麼？

遷移學習是用於訓練機器學習模型的知識共享技術的其中一種，已被證明是非常有效的。目前，知識共享技術中最有趣的兩種就是遷移學習和多工學習。在遷移學習中，模型首先在單個任務中進行訓練，然後可以用於相關任務的起始點。在學習相關任務時，原始的被遷移模型會學習如何專門處理新的任務，而不需要擔心會不會影響其在原來任務上的效果。而在多工學習中，單個模型一次性學習處理多個任務，對模型的效能評估則取決於它學習之後能夠多好地完成這些任務。後續我們也會分析討論更過有關多工學習的好處以及其何時能起作用。

結論

遷移學習是一項知識共享技術，其可以減少構建深度學習模型時對訓練資料量，計算能力，以及工程人才的依賴。由於深度學習可以提供與傳統機器學習相比的顯著改進，遷移學習成為一項必不可少的工具。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/29829936/viewspace-2217827/，如需轉載，請註明出處，否則將追究法律責任。

吳恩達說“將引領下一波機器學習技術”的遷移學習到底好在哪？

相關文章