1.導言
現在多工學習根據實現方法可以粗略地被分為兩種,一個是基於神經網路的多工學習[1][2][3][4],這種多工學習在CV和NLP取得了大量的應用。
基於神經網路的多工學習
然而我們最根溯源,其實多工學習最開始並不是基於神經網路的,而是另一種經典的方法——基於正則表示的多工學習,我們這篇文章也主要介紹後者。為什麼在深度學習稱為主流的今天,我們還需要了解過去的傳統方法呢?
首先,經典的多工學習和基於神經網路的多工學習方法本質上都是基於知識共享的思想,而這種思想其他領域,比如聯邦學習中得到了大量的應用(參見我的文章《分散式多工學習及聯邦學習個性化》)。而經典的基於正則表示的多工學習更容易分散式化,因此大多數聯邦多工學習的論文靈感其實都來源於經典方法。我的研究領域主要是聯邦學習,故我們下面主要介紹經典多工學習。
2、多工學習簡介
2.1 多工學習:遷移學習和知識表示的延伸
多工學習(Multi-task Learning, MTL)近年來在CV、NLP、推薦系統等領域都得到了廣泛的應用。類似於遷移學習,多工學習也運用了知識遷移的思想,即在不同任務間泛化知識。但二者的區別在於:
- 遷移學習可能有多個源域;而多工學習沒有源域而只有多個目標域。
- 遷移學習注重提升目標任務效能,並不關心源任務的效能(知識由源任務 → 目標任務;而多工學習旨在提高所有任務的效能(知識在所有任務間相互傳遞)。
下圖從知識遷移流的角度來說明遷移學習和多工學習之間的區別所示:
遷移學習和多工學習
不嚴格地說,多工學習的目標為利用多個彼此相關的學習任務中的有用資訊來共同對這些任務進行學習。
2.2 多工學習目前的兩大主要實現方式
現在多工學習根據資料的收集方式可以粗略地被分為兩種,一個是集中化的計算方法,一種是分散式的計算方法,可以參見我的文章《多工學習分散式化及聯邦學習》。
3、基於正則化的多工學習
3.1 基於正則化的多工學習的形式表述
形式化地說,給定 𝑡 個學習任務(我們這裡只討論監督學習) {𝑇𝑡}𝑡=1𝑇 ,每個任務各有一個訓練集 𝐷𝑡={(𝑥𝑡𝑖,𝑦𝑡𝑖)𝑖=1𝑚𝑡} ,其中 𝑥𝑡𝑖∈𝑅𝑑 , 𝑦𝑡𝑖∈𝑅 。多工學習的目標是根據 𝑇 個任務的訓練集學習 𝑇 個函式 {𝑓𝑡(𝑥)}𝑡=1𝑇 ,使得 𝑓𝑡(𝑥𝑡𝑖) 可以很好的近似 𝑦𝑡𝑖 。學習完成後, 𝑓𝑡(⋅) 將用於對第 𝑡 個任務中的新資料樣本的標籤進行預測。
接下來我們描述多工學習的目標函式,若第 𝑡 個任務的經驗風險形式為 𝐸(𝑥𝑡𝑖,𝑦𝑡𝑖)∼𝐷𝑡[𝐿(𝑦𝑡𝑖,𝑓(𝑥𝑡𝑖;𝑤𝑡))] (設 𝑤𝑡 為第 𝑡 個模型的引數),則一般多工學習的目標函式形式為
(1)minW∑𝑡=1𝑇𝐸(𝑥𝑡𝑖,𝑦𝑡𝑖)∼𝐷𝑡[𝐿(𝑦𝑡𝑖,𝑓(𝑥𝑡𝑖;𝑤𝑡))]=∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,𝑓(𝑥𝑡𝑖;𝑤𝑡))]
(此處 W=(𝑤1,𝑤2,...,𝑤𝑇) 為所有任務引數構成的矩陣)
不過,如果我們直接對各任務的損失函式和 ∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,𝑓(𝑥𝑡𝑖))] 進行最佳化,我們發現不同任務的損失函式是解耦(decoupled)的,無法完成我們的多工學習任務。在多工學習中一種典型的方法為增加一個正則項[5][6][7]:
(2)minW∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,𝑓(𝑥𝑡𝑖;𝑤𝑡))]+𝜆𝑔(W)=𝑓(W)+𝜆𝑔(W)
這裡 𝑔(W) 編碼了任務的相關性(多工學習的假定)並結合了 𝑇 個任務; 𝜆 是一個正則化引數,用於控制有多少知識在任務間共享。在許多論文中,都假設了損失函式 𝑓(W) 是凸的,且是 𝐿-Lipschitz 可導的(對 𝐿>0 雖然常常不滿足凸性(比如採用矩陣的核範數),但是我們認為其實接近凸的,可以採用近端梯度演算法(proximal gradient methods)[8]來求解。
3.2 基於正則化的多工學習分類
基於正則化的多工學習依靠正則化來找到任務之間的相關性,大致可以分為基於特徵和基於模型的這兩種。
3.2.1 基於特徵的多工學習
a. 特徵變換
即透過線性/非線性變換由原始特徵構建共享特徵表示。這種思想最早可追溯到多工學習的開山論文——使用多層前饋網路(Caruana, 1997)[9],如下圖所示:
多層前饋網路完成共享特徵表示該示例中,假設所有任務的輸入相同,將多層前饋網路的隱藏層輸出視為所有任務共享的特徵表示,將輸出層的輸出視為對 𝑇 個任務的預測結果。
如果採用我們採用正則化框架,多工特徵學習(Multi-Task Feature Learning, MTFL)方法[10][11](Argyrious等人,2006、2008)和多工稀疏編碼(Multi-Task Sparse Coding, MTSC)[12]方法(Maurer等, 2013)都透過酉變換 𝑥^𝑡𝑖=U𝑇𝑥𝑡𝑖 來為每個任務先構造共享特徵表示, 再在此基礎上為每個任務學習線性函式 𝑓𝑡(𝑥𝑡𝑖)=⟨𝑎𝑡,𝑥^𝑡𝑖⟩ 。設每個 𝑓𝑡(𝑥𝑡𝑖) 的引數為 𝑎𝑡 ,設線性函式的引數矩陣為 A=(𝑎1,...,𝑎𝑇) 。 該方法定義的最佳化問題表示如下:
(3)minA,𝑈,𝑏∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,⟨𝑎𝑡,𝑈𝑇𝑥𝑡𝑖⟩+𝑏𝑡)]+𝜆||A||2,12s. t. 𝑈𝑈𝑇=𝐼
這裡 𝑈∈𝑅𝑑×𝑑 是酉(正交)矩陣。
與MTFL不同, MTSC方法的目標函式定義為
,表示第列(4)minA,𝑈,𝑏∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,⟨𝑎𝑡,𝑈𝑇𝑥𝑡𝑖⟩+𝑏𝑡)]s. t. ||𝑎𝑖||1⩽𝜆,𝑖=1,2,..,𝑚||𝑢𝑗||2⩽1,𝑗=1,2,..,𝑑′,表示第𝑗列
此時 𝑈𝑇∈𝑅𝑑′×𝑑(𝑑′<𝑑) ,除了學習共享特徵表示之外,還會起到降維的作用, 𝑑′ 為降維後的新特徵維度,此外我們透過 𝑙1 約束使 𝐴 是稀疏的。
b. 聯合特徵學習(joint feature learning)
透過特徵選擇得到原始特徵的共享子集(shared feature subset),以做為共享的特徵表示。我們常採用的方法是將引數矩陣 W=(𝑤1,...,𝑤𝑇) 正則化使其稱為行稀疏矩陣,從而去除特定特徵對於線性模型預測的影響,只有對所有任務都有用的特徵被保留。
所有正則化方法中,最廣泛使用的是 𝑙𝑝,𝑞 正則化(即採用 𝑙𝑝,𝑞 範數做為正則項),其目標函式為:
(5)minW,𝑏∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,⟨𝑤𝑡,𝑥𝑡𝑖⟩+𝑏𝑡)]+𝜆||W||𝑝,𝑞
𝑙𝑝,𝑞 正則化的特例是 𝑙2,1 [13][14](Obozinski等人,2006、2010)和 𝑙∞ 無窮正則化[15](Liu等人,2009b)。 𝑙2,1 正則化中採用 𝑙2,1 範數 ||W||2,1=∑𝑖=1𝑑||𝑤𝑖||2 (此處 𝑑 為特徵維度, 𝑤𝑖 為 W 第 𝑖 行), 𝑙∞,1 正則化採用 𝑙∞,1 範數 ||𝑊||∞,1=∑𝑖=1𝑑||𝑤𝑖||∞=∑𝑖=1𝑑max1⩽𝑡⩽𝑇|𝑤𝑗𝑡| ,即先對每一行方向求絕對值最大,然後再沿著行方向求和(注意區分這個和矩陣的 ∞ 範數,求和與求最大的順序是不一樣的!這裡相當於求向量的無窮範數之和))。為了獲得對所有特徵都有用的更緊湊的子集,Gong等人[16](2013)提出了上限 𝑙𝑝,1 懲罰項 ∑𝑖=1𝑑min(||𝑤𝑖||𝑝,𝜃) ,當 𝜃 足夠大時它將退化為 𝑙𝑝,1 正則化。
3.2.2 基於模型的多工監督學習
a. 共享子空間學習(shared subspace learning)
該方法的假設引數矩陣 W 為低秩矩陣,以使相似的任務擁有相似的引數向量(即 W 的 𝑇 個列向量儘量線性相關),以使 𝑇 個任務的模型引數 𝑤𝑡 都來自一個共享低秩子空間。Ando和Zhang(2005)[17]提出了一個對 𝑤𝑡 的引數化方式,即 𝑤𝑡=𝑝𝑡+𝛩𝑇𝑞𝑡 ,其中線性變換 𝛩𝑇∈𝑅𝑑′×𝑑(𝑑′<𝑑) 由於構建任務的共享子空間, 𝑝𝑡 是任務特定的引數向量。在正則項設計方面,我們在 𝛩 上使用正交約束 𝛩Θ𝑇=𝐼 來消除冗餘,此時相應的目標函式為:
(6)minP,𝑄,𝛩,𝑏∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,⟨𝑝𝑡+𝛩𝑇𝑞𝑡,𝑥𝑡𝑖⟩+𝑏𝑡]+𝜆||P||𝐹2s. t. 𝛩𝛩𝑇=𝐼
Chen等人(2009)[18]透過為 𝑊 增加平方Frobenius正則化推廣了這一模型(Frobenius範數表示式為 ||𝐴||𝐹=(tr(𝐴𝑇𝐴))1/2=(∑𝑖=1𝑚∑𝑗=1𝑛𝐴𝑖𝑗2)1/2=(∑𝑖=1min(𝑑,𝑇)𝜎𝑖(𝐴)2)1/2 ),並採用鬆弛技術將問題轉換為了凸最佳化問題。
除此之外,根據最佳化理論,使用矩陣的核範數(nuclear norm, 有時也稱跡範數(trace norm)) ||𝑊||∗=tr((𝐴𝑇𝐴)1/2)=∑𝑖=1min(𝑑,𝑇)𝜎𝑖(𝑊) 來進行正則化會產生低秩矩陣,所以核範數正則化(pong等人)也在多工學習中應用廣泛,此時目標函式通常為:
(7)minW,𝑏∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,⟨𝑤𝑡,𝑥𝑡𝑖⟩+𝑏𝑡]+𝜆||W||∗
核範數是一rank function[19](Fazel等人, 2001)的緊的凸鬆弛,可以用近端梯度下降法求解。
b. 聚類方法
該方法受聚類方法的啟發,基本思想為:將任務分為若個個簇,每個簇內部的任務在模型引數上更相似。
Thrun等人(1996)[20]提出了第一個任務聚類演算法,它包含兩個階段。在第一階段,該方法根據在單任務下單獨學習得到的模型來聚類任務,確定不同的任務簇。在第二階段,聚合同一個任務簇中的所有訓練資料,以學習這些任務的模型。這種方法把任務聚類和模型引數學習分為了兩個階段,可能得不到最優解,因此後續工作都採用了同時學習任務聚類和模型引數的方法。
Bakker等人(2003)[21]提出了一個多工貝葉斯神經網路(multi-task Bayesian neural network),其結構與我們前面所展現的多層神經網路相同,其亮點在於基於連線隱藏層和輸出層的權重採用高斯混合模型(Gaussian mixture model)對任務進行分組。若給定資料集 𝐷={𝐷𝑡},𝑡=1,...,𝑇 ,設隱藏層維度為 ℎ ,輸出層維度為 𝑇 , 𝑊∈𝑅𝑇×(ℎ+1) 代表隱藏層到輸出層的權重矩陣(結合了偏置)。我們假定每個任務對應的權重向量 𝑤𝑡 ( 𝑊 的第 𝑡 列)關於給定超引數獨立同分布,我們假定第 𝑡 個任務先驗分佈如下:
(8)𝑤𝑡∼𝑁(𝑤𝑡|𝑢,𝛴)
這是一個高斯分佈,均值為 𝑢∈𝑅ℎ+1 ,協方差矩陣 𝛴∈𝑅(ℎ+1)×(ℎ+1) 。
我們上面的定義其實假定了所有任務屬於一個簇,接下來我們假定我們有不同的簇(每個簇由相似的任務組成)。我們設有 𝐶 個簇(cluster),則任務 𝑡 的權重 𝑤𝑡 為 𝐶 個高斯分佈的混合分佈:
(9)𝑤𝑡∼∑𝑐=1𝐶𝛼𝑐𝑁(𝑤𝑡|𝑢𝑐,𝛴𝑐)
其中,每個高斯分佈可以被認為是描述一個任務簇。式 (9) 中的 𝛼𝑐 代表了任務 𝑡 被分為簇 𝑐 的先驗機率,其中task clustering(如下面左圖所示)模型中所有任務對簇 𝑐 的加權 𝛼𝑐 都相同;而task-depenent模型(如下面右圖所示)中各任務對簇 𝑐 的加權 𝛼𝑡𝑐 不同,且依賴於各任務特定的向量 𝑓𝑡 。
多工貝葉斯神經網路
Xue等人(2007)[22]根據模型引數應用Dirichlet過程(一種廣泛用於資料聚類的貝葉斯模型)對任務進行分組。
除了依賴貝葉斯模型的方法,還有一些正則化方法也被用於分組任務。如Jocob等人(2008)[23]提出了一個正則化項,將任務簇內部和之間的差異都考慮在內,以幫助學習任務簇,目標函式為:
(10)minW,𝑏,𝛴∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,⟨𝑤𝑡,𝑥𝑡𝑖⟩+𝑏𝑡)]+𝜆1tr(WUW𝑇)+tr(W𝛱𝛴−1𝛱𝑊𝑇)s.t.𝛼𝐼≼𝛴≼𝛽𝐼,tr(𝛴)=𝛾
其中第一個正則項度量所有任務任務平均權重的大小,第二個正則項表示任務簇內部的差異和簇之間的差異。 𝛱∈𝑅𝑇×𝑇 表示中心化矩陣, 𝐴≼𝐵 表示 𝐵−𝐴 一定是半正定(Positive Semi-Definite, PSD)矩陣。 𝛼 、 𝛽 、 𝛾 是三個超引數。注意在問題 (10) 中, 𝛴 學習到了任務簇的結構,因此在解決最佳化問題 (10) 之後,可以基於最優 𝛴 來確定任務簇結構。
Kang等人(2011)[24]將式 (3) 所示的MTFL方法擴充套件到多個任務簇的情況下,其中每個任務簇中任務的學習模型是MTFL方法,其目標函式為:
且(11)minW,𝑏,{𝑄𝑐}∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,⟨𝑤𝑡,𝑥𝑡𝑖⟩+𝑏𝑡)]+𝜆∑𝑐=1𝐶||𝑊𝑄𝑐||∗2s.t.𝑞𝑐𝑡∈{0,1}且∑𝑐=1𝐶𝑄𝑐=𝐼, 𝑐=1,2,..,𝐶
這裡 ||⋅||∗ 是矩陣的跡範數。 𝑞𝑐𝑡∈{0,1} 是一個二值變數,表示任務 𝑡 是否被分入第 𝑐 個簇。矩陣 𝑄∈𝑅𝐶×𝑇 以 𝑞𝑐𝑡 作為其元素,表示任務的劃分情況。 𝑄𝑐∈𝑅𝑇×𝑇 為第 𝑐 個簇對應的對角矩陣,其對角元素為 𝑞𝑐𝑡 ,故對角矩陣 𝑄𝑐 可用於識別第 𝑐 個聚類的情況。
為了自動確定聚類的數量,Han和Zhang(2015a)[25]提出了先將任務劃分為多個層次,然後再分別將各個層次的任務劃分為簇。我們假定有 𝐻 個任務層次( 𝐻 為使用者定義的超引數),我們將權重矩陣分解為:
(12)𝑊=∑ℎ=1𝐻𝑊ℎ
𝑊ℎ 用於學習第 ℎ 層次的任務簇。 𝑊ℎ=(𝑤ℎ,1,...,𝑤ℎ,𝑇)∈𝑅𝑑×𝑇 ,其中 𝑤ℎ,𝑡 是在 ℎ 層次中任務 𝑡 的引數。該論文將最終的正則化的目標函式(論文稱之為MeTaG方法)寫為
(13)minW∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,⟨∑ℎ=1𝐻𝑤ℎ,𝑡,𝑥𝑡𝑖⟩+𝑏𝑡)]+∑ℎ=1𝐻𝜆ℎ∑𝑖<𝑗𝑇||𝑤ℎ,𝑖−𝑤ℎ,𝑗||2
這裡 𝜆ℎ 是正的正則化引數,正則項用 𝑙2 範數度量了 𝑊ℎ 不同列向量之間的兩兩差異,促使 𝑊ℎ 中的每對列向量 𝑤ℎ,𝑖 和 𝑤ℎ,𝑗 相等(即強制融合每對任務的模型引數),這樣在第 ℎ 層的第 𝑖 個和第 𝑗 個任務就同屬一個任務簇。 𝜆ℎ 控制了第 ℎ 層的任務任務聚類的強度, 𝜆ℎ 越大則意味著在第 ℎ 層的任務簇更少。當 𝜆ℎ→∞ , 𝑊ℎ 所有列將趨於相同,即只有一個任務簇。在求解問題 (13) 之後,透過比較 𝑊ℎ 矩陣的列就可以識別任務簇的結構並確定任務簇的數量。
Kumar和Daume(2012)[26]以及Barizilai和Crammer(2015)[27]都提出了 𝑊=𝐿𝑆(𝑊∈𝑅𝑑×𝑇,𝐿∈𝑅𝑑×𝐶,𝑆∈𝑅𝐶×𝑇) 的分解形式,其中 L 的列 𝑙𝑐 對應任務簇 𝑐 的隱(latent)引數, S 的列 𝑠𝑡 對應一組線性組合係數( 𝑤𝑡=𝐿𝑠𝑡 ,相當於 𝑠𝑡 對 𝐿 中各列進行線性組合,以得到 𝑤𝑡 )。這兩種方法的目標函式可以統一為
(14)minW∑𝑡=1𝑇[1𝑚𝑡∑𝑖=1𝑚𝑡𝐿(𝑦𝑡𝑖,⟨L𝑠𝑡,𝑥𝑡𝑖⟩+𝑏𝑡)]+𝜆1ℎ(𝑆)+𝜆2||𝐿||𝐹2
其中 𝐿 由Frobenius範數來進行正則化,但在這兩種方法中, 𝑆 由不同的 ℎ(⋅) 函式懲罰。我們想讓 𝑆 更稀疏,即讓一個任務屬於儘量少的任務簇(在本模型每個任務屬於多個任務簇是合法的),因此Kumar和Daume(2012)定義了 ℎ(𝑆)=||𝑆||1 ( Lasso )來完成稀疏化,而Barzilai和Crammer(2015)的定義方法更為嚴格
其他(15)ℎ(𝑆)={0𝑆∈{0,1}𝐶×𝑇,||𝑠𝑡||2=1+∞其他
該正則函式試圖為每個任務只指定單一的任務簇,這裡 𝐶 代表叢集的數量, 𝑆 是一個 𝐶×𝑇 的0-1矩陣, 𝑠𝑡 代表 𝑆 的第 𝑡 列。
綜上所述,聚類⽅法的思想可以總結為:將不同任務分為不同的獨⽴簇,每個簇存在於⼀個低維空間,每個簇的任務共⽤同⼀個模型。我們可以透過交替迭代學習不同簇的分配權重和每個簇的模型權重。就這種方法而言,任務之間有強的關聯性,並行化難度非常大,後面我們在提到如何將基於聚類的方法並行化時再細講。
我們對基於正則化的多工學習方法介紹就到此為止,後面我們會介紹如何採用不同的手段對這類方法進行分散式並行。
引用
- [1] Long M, Cao Z, Wang J, et al. Learning multiple tasks with multilinear relationship networks[J]. arXiv preprint arXiv:1506.02117, 2015.
- [2] Misra I, Shrivastava A, Gupta A, et al. Cross-stitch networks for multi-task learning[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 3994-4003.
- [3] Hashimoto K, Xiong C, Tsuruoka Y, et al. A joint many-task model: Growing a neural network for multiple nlp tasks[J]. arXiv preprint arXiv:1611.01587, 2016.
- [4] Kendall A, Gal Y, Cipolla R. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7482-7491.
- [5] Evgeniou T, Pontil M. Regularized multi--task learning[C]//Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004: 109-117.
- [6] Zhou J, Chen J, Ye J. Malsar: Multi-task learning via structural regularization[J]. Arizona State University, 2011, 21.
- [7] Zhou J, Chen J, Ye J. Clustered multi-task learning via alternating structure optimization[J]. Advances in neural information processing systems, 2011, 2011: 702.
- [8] Ji S, Ye J. An accelerated gradient method for trace norm minimization[C]//Proceedings of the 26th annual international conference on machine learning. 2009: 457-464.
- [9] Caruana R. Multitask learning[J]. Machine learning, 1997, 28(1): 41-75
- [10] Evgeniou A, Pontil M. Multi-task feature learning[J]. Advances in neural information processing systems, 2007, 19: 41.
- [11] Argyriou A, Evgeniou T, Pontil M. Convex multi-task feature learning[J]. Machine learning, 2008, 73(3): 243-272.
- [12] Maurer A, Pontil M, Romera-Paredes B. Sparse coding for multitask and transfer learning[C]//International conference on machine learning. PMLR, 2013: 343-351.
- [13] Obozinski G, Taskar B, Jordan M. Multi-task feature selection[J]. Statistics Department, UC Berkeley, Tech. Rep, 2006, 2(2.2): 2.
- [14] Obozinski G, Taskar B, Jordan M I. Joint covariate selection and joint subspace selection for multiple classification problems[J]. Statistics and Computing, 2010, 20(2): 231-252.
- [15] Liu H, Palatucci M, Zhang J. Blockwise coordinate descent procedures for the multi-task lasso, with applications to neural semantic basis discovery[C]//Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 649-656.
- [16] Gong P, Ye J, Zhang C. Multi-stage multi-task feature learning[J]. arXiv preprint arXiv:1210.5806, 2012.
- [17] Ando R K, Zhang T, Bartlett P. A framework for learning predictive structures from multiple tasks and unlabeled data[J]. Journal of Machine Learning Research, 2005, 6(11).
- [18] Chen J, Tang L, Liu J, et al. A convex formulation for learning shared structures from multiple tasks[C]//Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 137-144.
- [19] Fazel M, Hindi H, Boyd S P. A rank minimization heuristic with application to minimum order system approximation[C]//Proceedings of the 2001 American Control Conference.(Cat. No. 01CH37148). IEEE, 2001, 6: 4734-4739.
- [20] Thrun S, O'Sullivan J. Discovering structure in multiple learning tasks: The TC algorithm[C]//ICML. 1996, 96: 489-497.
- [21] Bakker B J, Heskes T M. Task clustering and gating for bayesian multitask learning[J]. 2003.
- [22] Xue Y, Liao X, Carin L, et al. Multi-task learning for classification with dirichlet process priors[J]. Journal of Machine Learning Research, 2007, 8(1).
- [23] Zhou J, Chen J, Ye J. Clustered multi-task learning via alternating structure optimization[J]. Advances in neural information processing systems, 2011, 2011: 702.
- [24] Kang Z, Grauman K, Sha F. Learning with whom to share in multi-task feature learning[C]//ICML. 2011.
- [25] Han L, Zhang Y. Learning multi-level task groups in multi-task learning[C]//Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.
- [26] Kumar A, Daume III H. Learning task grouping and overlap in multi-task learning[J]. arXiv preprint arXiv:1206.6417, 2012.
- [27] Barzilai A, Crammer K. Convex multi-task learning by clustering[C]//Artificial Intelligence and Statistics. PMLR, 2015: 65-73.
- [28] 楊強等. 遷移學習[M].機械工業出版社, 2020.