本論文提出了 L2T 框架,即一種學習遷移什麼及如何遷移的演算法。這種新型遷移學習演算法從以前的遷移學習經驗中學習遷移學習技能,然後應用這些技能去推斷遷移什麼及如何在以後的源域和目標域之間遷移。機器之心對該論文進行了簡要介紹。
這 20 年當中我們積累了大量的知識,並且有很多種遷移學習的演算法,但現在我們常常遇到一個新的機器學習問題卻不知道到底該用哪個演算法。其實,既然有了這麼多的演算法和文章,那麼我們可以把這些經驗總結起來訓練一個新的演算法。而這個演算法的老師就是所有這些機器學習演算法、文章、經歷和資料。所以,這種學習如何遷移,就好像我們常說的學習如何學習,這個才是學習的最高境界,也就是學習方法的獲取。
論文地址:https://arxiv.org/abs/1708.05629
遷移學習從源域學習知識,並利用這些知識促進目標域中的學習。遷移學習中需要解決的兩個主要問題是遷移什麼及如何遷移。對於源域和目標域,採用不同的遷移學習演算法會產生不同的知識遷移。為了研究能最大化目標域學習效果的最優遷移學習演算法,研究者必須全面探索所有現存的遷移學習演算法,這種演算法在計算上是十分困難的。作為一種權衡,我們選擇了一種次優的演算法,它以特定的方式要求大量的專業知識。同時,教育心理學普遍認為人類是通過元認知(meta-cognitive)反思歸納性遷移學習實踐而提高遷移學習的能力並決定什麼該遷移。受此啟發,我們提出了一種新型遷移學習框架——Learning to Transfer(L2T)。L2T 能利用前面的遷移學習經驗自動地判定遷移什麼及如何遷移。我們從兩個階段建立起 L2T 框架:1)我們首先學習一個反射函式(reflection function)從經驗中加密(encrypting)遷移學習技能。2)然後我們通過優化反射函式以推斷遷移什麼及如何遷移到一個新的目標域中。廣泛的實驗表明 L2T 與幾個頂尖遷移學習演算法相比有優越的效能,並且它在開發更多可遷移知識上十分高效。
3 學習如何遷移(Learning to Transfer)
這一章節首先介紹提出的 L2T 框架。然後再詳細地推導該框架包含的兩個階段,即從以前的遷移學習經驗中學習遷移學習技能,然後應用這些技能去推斷遷移什麼及如何在以後的源域和目標域之間遷移。
3.1 L2T 框架
若一個 L2T 智慧體前面引導過幾次遷移學習,並且 N_e 記錄了遷移學習經驗(如圖 1 第(1)步所示)。我們可以定義每個每個遷移學習經驗為其中分別表示一個源域和目標域。
代表特徵矩陣,其中每一個域在 m 維特徵空間都有個樣本,上標*可以是 s 或 t 分別代表源域和目標域。
表示標籤向量,且該向量的長度為。目標域的標註樣本要遠遠少於源域的標註樣本。即
。對於每一對領域,有。a_e∈A = {a_1, · · · , a_Na } 表示從包含 Na 個基本演算法的集合 A 中隨機選擇一個遷移學習演算法。假定優演算法 a_e 推斷出來的遷移可以引數化為 W_e。最後,每一個遷移學習經驗通過效能提升提升率
而打上標記。其中是在 T_e 中沒有使用遷移的測試集學習效能(如分類準確度),而 是在 T_e 中使用了 S_e 遷移的知識的測試集學習效能。
圖 1:L2T 框架的圖示
通過將前面所有的遷移學習經驗作為輸入,L2T 智慧體旨在學習一個函式 f,因此
函式可以如第(2)步那樣逼近 l_e。我們稱 f 為反射函式(reflection function),該函式加密了元認知遷移學習技能,即遷移什麼和如何遷移能最大化給定一對源域和目標域的提升率。當有一對新的源域和目標域時,L2T 智慧體能識別遷移到新域中的最優知識,即最大化 f 而得到的知識如圖 1 第(3)步所示)。
圖 2:500 個源域和目標域測試對的平均效能提升率對比。
圖 3:在 6 個源域和目標域對之間的分類準確度。
表 1:用於生成遷移學習經驗的不同方法及它們帶來的效能提升率。
圖 4:遷移學習經驗和目標域標註樣本數量的變化趨勢。
圖 5:f 函式組成成分的變化。
圖 6:反射函式 f 中不同數量的核和目標域標註樣本數量的變化趨勢。