並行多工學習論文閱讀（四）：去偏lasso實現高效通訊

lonelyprince7發表於2021-11-10

原文網址 : https://www.cnblogs.com/lonelyprince7/p/15535613.html

1.難點-如何實現高效的通訊

我們考慮下列的多工優化問題：

\[ \underset{\textbf{W}}{\min} \sum_{t=1}^{T} [\frac{1}{m_t}\sum_{i=1}^{m_t}L(y_{ti}, \langle \bm{w}_t, \bm{x}_{ti} \rangle)]+\lambda \text{pen}(\textbf{W}) \tag{1} \]

這裡\(\text{pen}(\mathbf{W})\)是一個用於增強group sparse的正則項。比如。group lasso penalty^[1] 使用 \(\text{pen}(\mathbf{W}) = [\sum_{t=1}^T \left(\sum_{j=1}^d{w}_{jt}\right)^2 ]^{1/2}\)（這裡\(d\)為特徵維度，\(T\)為任務數）; \(\text{iCAP}\)使用\(\text{pen}(\mathbf{W}) = \underset{1\leqslant t \leqslant T}{\text{max}}\sum_{j=1}^d|w_{jt}|\) ^[2][3](類似矩陣的\(\infin\)範數，但把行和列換了一下)。
在分散式的環境中，我們可以按照文章《並行多工學習論文閱讀（二）同步和非同步優化演算法》(連結：https://www.cnblogs.com/lonelyprince7/p/15487700.html)提到的基於近端梯度的同步/非同步優化演算法來優化問題\((1)\)，但是正如我們在該篇部落格中所說的，這種方法需要多輪的通訊，時間開銷較大。這樣，如何實現機器間的有效通訊是我們必須要想辦法解決該問題。
有學者就在思考，我們可以不可以直接每個任務各自優化各的，直接求解下列的local lasso問題：

\[ \hat{\textbf{w}}_t = \underset{\textbf{w}_t}{\text{argmin}}\frac{1}{m_t}\sum_{i=1}^{m_t}L(y_{ti}, \langle \textbf{w}_t, \textbf{x}_{ti} \rangle)+\lambda_t \text{pen}(\textbf{w}_t) \]

很遺憾，這種方法雖然做到了不同任務優化的解耦，但本質上變成了單任務學習，沒有充分利用好多工之間的聯絡（須依靠group sparse正則項\(\text{pen}(\textbf{W})\)來實現）。那麼，有沒有即能夠減少通訊次數，又能夠儲存group regularization的基本作用呢？

2. 基於去偏lasso模型的分散式演算法

論文《distributed multitask learning》^[4]提出的演算法介於傳統的近端梯度優化演算法和local lasso之間，其計算只需要一輪通訊，但仍然保證了使用group regularization所帶來的統計學效益。該論文提出的演算法描述如下：

這裡我們特別說明一下第\(12\)行的操作，這個在master節點的操作充分利用了不同任務引數之間的共享稀疏性。其中，在\((12)\)主節點將接收到的估計量拼接成矩陣\(\hat{\textbf{W}}^u=(\hat{\bm{w}}_1^u, \hat{\bm{w}}_2^u,..., \hat{\bm{w}}_T^u)\)。然後master節點執行hard thresholding以過得\(\mathbf{S}\)的估計量：

\[\hat{S}(\Lambda)=\{j \text{ }| \text{ } ||\hat{\textbf{W}}_j^u||_2 > \Lambda \} \]

參考文獻

[1] Yuan M, Lin Y. Model selection and estimation in regression with grouped variables[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2006, 68(1): 49-67.
[2] Zhao P, Rocha G, Yu B. The composite absolute penalties family for grouped and hierarchical variable selection[J]. The Annals of Statistics, 2009, 37(6A): 3468-3497.
[3] Liu H, Palatucci M, Zhang J. Blockwise coordinate descent procedures for the multi-task lasso, with applications to neural semantic basis discovery[C]//Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 649-656.
[4] Wang J, Kolar M, Srerbo N. Distributed multi-task learning[C]//Artificial intelligence and statistics. PMLR, 2016: 751-760.
[5] 楊強等. 遷移學習[M].機械工業出版社, 2020.

分散式多工學習論文閱讀（四）：去偏lasso實現高效通訊
2021-11-10
分散式
並行多工學習論文閱讀（五）：論文閱讀總結
2021-11-12
並行
並行多工學習論文閱讀（一）：多工學習速覽
2021-10-29
並行
並行多工學習論文閱讀（三）：運用代理損失進行任務分解
2021-11-05
並行
並行多工學習論文閱讀（二）同步和非同步優化演算法
2021-10-30
並行非同步優化演算法
分散式多工學習論文閱讀（三）：運用代理損失進行任務分解
2021-11-05
分散式
深度學習論文閱讀路線圖
2018-08-06
深度學習
論文閱讀：SiameseFC
2018-04-09
論文閱讀20241117
2024-11-22
GeoChat論文閱讀
2024-10-29
推薦系統公平性論文閱讀(四)
2021-10-08
阿里DMR論文閱讀
2024-04-29
阿里
[論文閱讀] Hector Mapping
2020-12-16
APP
LLM並行訓練4-megascale論文學習
2024-06-29
並行
多模態學習之論文閱讀：《Multi-modal Learning with Missing Modality in Predicting Axillary Lymph Node Metastasis 》
2024-08-09
AST
XGBoost論文閱讀及其原理
2018-05-13
Q-REG論文閱讀
2023-10-04
MapReduce 論文閱讀筆記
2020-06-24
筆記
「DNN for YouTube Recommendations」- 論文閱讀
2020-02-19
DNN
G-FRNet論文閱讀
2020-10-11
AutoEmbedding論文閱讀筆記
2023-03-29
筆記
論文閱讀——Deformable Convolutional Networks
2020-12-25
ORM
【2020論文閱讀】11月
2020-11-27
《learn to count everything》論文閱讀、實驗記錄
2024-05-01
Java多執行緒學習——執行緒通訊
2019-01-19
Java執行緒
論文閱讀筆記（四）：AS-MLP AN AXIAL SHIFTED MLP ARCHITECTUREFOR VISION
2023-03-02
筆記
【論文閱讀筆記】多模態大語言模型必讀 —— LLaVA
2024-11-20
筆記模型
史丹佛大學教授是如何閱讀論文的？
2019-10-23
論文閱讀狀態壓縮
2019-02-05
【論文閱讀】增量學習近期進展及未來趨勢預測
2020-05-12
深度學習筆記：CNN經典論文研讀之AlexNet及其Tensorflow實現
2018-07-28
深度學習筆記CNN
「推薦系統的廣泛和深度學習」- 論文閱讀和翻譯
2020-02-03
深度學習
Zero-shot Learning零樣本學習論文閱讀（四）——Zero-Shot Recognition using Dual Visual-Semantic Mapping Paths
2020-12-31
APP
論文閱讀2-思維鏈
2024-03-14
CornerNet-Lite論文閱讀筆記
2020-10-31
筆記
Visual Instruction Tuning論文閱讀筆記
2024-06-07
Struct筆記
論文閱讀：《Learning by abstraction: The neural state machine》
2022-04-10
Mac
閱讀論文：《Compositional Attention Networks for Machine Reasoning》
2022-04-10
Mac

並行多工學習論文閱讀（四）：去偏lasso實現高效通訊

1.難點-如何實現高效的通訊

2. 基於去偏lasso模型的分散式演算法

參考文獻

相關文章