多工學習中的資料分佈問題(一)

orion發表於2021-11-29

原文網址 : https://www.cnblogs.com/orion-orion/p/15621953.html

今天這個專題源於我在做分散式多工學習實驗時在選取資料集的時候的疑惑，以下我們討論多工學習中(尤其是在分散式的環境下)如何選擇資料集和定義任務。

多工學習最初的定義是："多工學習是一種歸納遷移機制，基本目標是提高泛化效能。多工學習通過相關任務訓練訊號中的領域特定資訊來提高泛化能力，利用共享表示採用並行訓練的方法學習多個任務"。然而其具體實現手段卻有許多（如基於神經網路的和不基於神經網路的，這也是容易讓人糊塗的地方），但是不管如何，其關鍵點——共享表示是核心。

1.經典（非神經網路的）多工學習

經典（非神經網路的）多工學習我們已經在博文《分散式多工學習論文閱讀（一）：多工學習速覽》中詳細討論，此處不再贅述。在這種模式中給定\(t\)個學習任務\(\{\mathcal{T}_t\}_{t=1}^T\)，每個任務各對應一個資料集\(\mathcal{D}_t = {\{(\bm{x}_{ti}, y_{ti})}_{i=1}^{m_t}\}\)（其中\(\bm{x_{ti}} \in \mathbb{R}^{d}\)，\(y_{ti} \in \mathbb{R}\)），然後根據根據\(T\)個任務的訓練集學習\(T\)個函式\(\{f_t(\bm{x})\}_{t=1}^{T}\)。在這種模式下，每個任務的模型假設(比如都是線性函式)都常常是相同，導致每個任務的模型（權重）不同的原因歸根結底在於每個任務的資料集不同（每個任務的損失函式預設相同，但其實可同可不同）。此模式優化的目標函式可以寫作：

\[\begin{aligned} \underset{\textbf{W}}{\min} & \sum_{t=1}^{T}\mathbb{E}_{(\bm{x_{ti}, y_{ti})\sim \mathcal{D}_t}}[L(y_{ti}, f(\bm{x}_{ti}; \bm{w}_t))]+ \lambda g(\textbf{W})\\ =& \sum_{t=1}^{T} [\frac{1}{m_t}\sum_{i=1}^{m_t}L(y_{ti}, f(\bm{x}_{ti}; \bm{w}_t))]+\lambda g(\textbf{W})\\ \end{aligned} \tag{2} \]

（此處\(\textbf{W}=(\bm{w}_1,\bm{w}_2,...,\bm{w}_T)\)為所有任務引數構成的矩陣，\(g(\textbf{W})\)編碼了任務的相關性）

我們下列所討論的分散式多工學習，採用的資料分佈假設也大多來自這種情況。

2. 聯邦學習和經典多工學習中的資料分佈對比

論文^[1][2]在聯邦學習的情景下引入了多工學習，從這篇兩篇論文我們可以看到聯邦學習和多工學習的關聯和差異。
在標準的聯邦學習中，我們需要實現訓練一個“元模型”，然後再分發在各任務節點上微調。每個節點任務不共享資料，但是可以共享引數，以此聯合訓練出各一個全域性的模型。也就是說，聯邦學習下每個節點的任務是一樣的，但是由於資料不獨立同分布，每個模型訓練出的區域性模型差異會很大，就會使得構建一個全域性的、通用的模型難度很大。比如同樣一個下一個單詞預測的任務，同樣給定"I love eating,"，但對於下一個單詞每個client會給出不同的答案。

^[1][2]論文都提出一個思想，如果我們不求訓練出一個全域性的模型，使每個節點訓練各不相同的模型這樣一種訓練方式，這被冠名為聯邦多工學習了。論文^[1][2]都保持了經典多工學習的假設，不過有些許區別。論文^[1]中每個任務的訓練資料分佈和損失函式都不同。但是論文^[2]中假定每個任務不同之處只有訓練資料的分佈。

3.基於神經網路的多工學習中的資料分佈

基於神經網路的多工學習（也就是大多數在CV、NLP）中使用的那種，分類和定義其實非常會亂,下面我們來看其中的一些常見方式。

3.1 同樣的輸入資料，不同的loss

大多數基於神經網路的多工學習採用的方式是各任務基於同樣的輸入資料（或者可以看做將不同任務的資料混在一起使用），用不同的loss定義不同任務的。

如CV中使用的深度關係多工學習模型:

NLP中的Joint learning：

推薦系統中的使用者序列多工模型：

3.1 不同的輸入資料，不同的loss

我們也可以保持共享表示層這一關鍵特性不變，但是每個任務有不同的輸入資料和不同的loss，如下圖所示：
NLP多工學習
在這種架構中，Input x表示不同任務的輸入資料，綠色部分表示不同任務之間共享的層，紫色表示每個任務特定的層，Task x表示不同任務對應的損失函式層。在多工深度網路中，低層次語義資訊的共享有助於減少計算量，同時共享表示層可以使得幾個有共性的任務更好的結合相關性資訊，任務特定層則可以單獨建模任務特定的資訊，實現共享資訊和任務特定資訊的統一。

（注意，在深度網路中，多工的語義資訊還可以從不同的層次輸出，例如GoogLeNet中的兩個輔助損失層。另外一個例子比如衣服影像檢索系統，顏色這類的資訊可以從較淺層的時候就進行輸出判斷，而衣服的樣式風格這類的資訊，更接近高層語義，需要從更高的層次進行輸出，這裡的輸出指的是每個任務對應的損失層的前一層。）

3.2 不同的輸入資料，相同的loss

我們想一下，每個任務對應不同的輸入資料，相同的loss的情況。比如我們同一個影像分類網路和交叉熵損失，但一個任務的資料集是男人和女人，一個任務資料集是人和狗，我們將這兩個資料集進行聯合學習，這是否算是多工學習？如果是，是否能同時提升人-人分類器的精度和人-狗分類器的精度？（如下圖所示）
NLP多工學習

第一個問題，按照經典多工學習的分類，這種應該是算的，因為每個任務的資料集不同，直接導致了學得的模型不同，又由於有共享表示這一關鍵特性，也可以算是多工學習。至於第二個問題，我覺得是可以的，因為這兩個任務雖然資料集不同，但是是互相關聯的，比如人的話可能會檢測頭髮，狗的話可能會檢測耳朵，但是都有一個檢測區域性特徵的相似性在裡面。

參考文獻

[1] Smith V, Chiang C K, Sanjabi M, et al. Federated multi-task learning[J]. Advances in Neural Information Processing Systems, 2017.
[2] Marfoq O, Neglia G, Bellet A, et al. Federated multi-task learning under a mixture of distributions[J]. Advances in Neural Information Processing Systems, 2021, 34.

多工學習中的資料分佈問題(二)
2021-12-01
解析機器學習中的資料漂移問題
2023-02-06
機器學習
MyBatis 查詢資料時屬性中多對一的問題（多條資料對應一條資料）
2021-01-18
MyBatis
sqlhelper整合dynamic多資料來源的分頁問題(非教學向)
2020-10-24
SQL
並行多工學習論文閱讀（一）：多工學習速覽
2021-10-29
並行
loadrunner學習中遇到的問題
2019-04-11
java學習中不懂的問題
2019-01-20
Java
weex學習中遇到的問題
2018-04-25
二進位制函式JSON資料分類問題——機器學習
2020-12-04
函式JSON機器學習
【學習】分享幾個學習中的小問題
2019-09-19
分散式儲存中的資料分佈策略
2018-11-22
分散式
python中多程式處理資料庫連線的問題
2020-12-18
Python資料庫
遷移學習中的BN問題
2020-11-03
遷移學習
架構學習-多工
2024-04-13
架構
Python大資料分析學習.路徑問題
2019-03-25
Python大資料
資料科學和機器學習面試問題
2019-02-28
資料科學機器學習面試
優化GAN的分佈的梯度問題，WGAN
2020-12-22
優化梯度
「分散式技術專題」資料分佈（原理、資料分片）
2023-02-14
分散式
深度學習（一）之MNIST資料集分類
2022-03-18
深度學習
Python大資料分析學習.Pandas 資料匯入問題 (1)
2018-05-19
Python大資料
（資料科學學習手札99）掌握pandas中的時序資料分組運算
2020-12-08
資料科學
當前NLP遷移學習中的一些問題
2019-12-12
遷移學習
通俗講明白機器學習中的學習問題 - svpino
2021-03-02
機器學習
Java中解決多執行緒資料安全問題
2021-08-16
Java執行緒
學習Java中遇到的繼承問題
2019-02-08
Java繼承
學習vue過程中遇到的問題
2021-08-13
Vue
資料庫系列：巨量資料表的分頁效能問題
2024-07-24
資料庫
十分鐘學習泊松分佈
2019-03-06
淺談HBase的資料分佈
2018-07-31
OAuth2學習中的一些高頻問題的QA
2022-06-10
OAuth
學習方向的問題
2018-09-01
資料視覺化Seaborn從零開始學習教程（三）資料分佈視覺化篇
2019-03-01
視覺化
多工學習分散式化及聯邦學習
2022-03-01
分散式聯邦學習
[譯] 瞭解“多型”JSON 資料的效能問題
2019-03-26
多型JSON
求資料流中的中位數問題
2022-07-14
深度學習之電影二分類的情感問題
2021-04-13
深度學習
從 Quora 的 187 個問題中學習機器學習和 NLP
2018-04-12
機器學習
數學一|概統|三、多維隨機變數及其分佈
2024-06-23
隨機變數