1.難點-如何實現高效的通訊
我們考慮下列的多工優化問題:
這裡\(\text{pen}(\mathbf{W})\)是一個用於增強group sparse的正則項。比如。group lasso penalty[1] 使用 \(\text{pen}(\mathbf{W}) = [\sum_{t=1}^T \left(\sum_{j=1}^d{w}_{jt}\right)^2 ]^{1/2}\)(這裡\(d\)為特徵維度,\(T\)為任務數); \(\text{iCAP}\)使用\(\text{pen}(\mathbf{W}) = \underset{1\leqslant t \leqslant T}{\text{max}}\sum_{j=1}^d|w_{jt}|\) [2][3](類似矩陣的\(\infin\)範數,但把行和列換了一下)。
在分散式的環境中,我們可以按照文章《並行多工學習論文閱讀(二)同步和非同步優化演算法》(連結:https://www.cnblogs.com/lonelyprince7/p/15487700.html)提到的基於近端梯度的同步/非同步優化演算法來優化問題\((1)\),但是正如我們在該篇部落格中所說的,這種方法需要多輪的通訊,時間開銷較大。這樣,如何實現機器間的有效通訊是我們必須要想辦法解決該問題。
有學者就在思考,我們可以不可以直接每個任務各自優化各的,直接求解下列的local lasso問題:
很遺憾,這種方法雖然做到了不同任務優化的解耦,但本質上變成了單任務學習,沒有充分利用好多工之間的聯絡(須依靠group sparse正則項\(\text{pen}(\textbf{W})\)來實現)。那麼,有沒有即能夠減少通訊次數,又能夠儲存group regularization的基本作用呢?
2. 基於去偏lasso模型的分散式演算法
論文《distributed multitask learning》[4]提出的演算法介於傳統的近端梯度優化演算法和local lasso之間,其計算只需要一輪通訊,但仍然保證了使用group regularization所帶來的統計學效益。 該論文提出的演算法描述如下:
這裡我們特別說明一下第\(12\)行的操作,這個在master節點的操作充分利用了不同任務引數之間的共享稀疏性。其中,在\((12)\)主節點將接收到的估計量拼接成矩陣\(\hat{\textbf{W}}^u=(\hat{\bm{w}}_1^u, \hat{\bm{w}}_2^u,..., \hat{\bm{w}}_T^u)\)。然後master節點執行hard thresholding以過得\(\mathbf{S}\)的估計量:
參考文獻
- [1] Yuan M, Lin Y. Model selection and estimation in regression with grouped variables[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2006, 68(1): 49-67.
- [2] Zhao P, Rocha G, Yu B. The composite absolute penalties family for grouped and hierarchical variable selection[J]. The Annals of Statistics, 2009, 37(6A): 3468-3497.
- [3] Liu H, Palatucci M, Zhang J. Blockwise coordinate descent procedures for the multi-task lasso, with applications to neural semantic basis discovery[C]//Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 649-656.
- [4] Wang J, Kolar M, Srerbo N. Distributed multi-task learning[C]//Artificial intelligence and statistics. PMLR, 2016: 751-760.
- [5] 楊強等. 遷移學習[M].機械工業出版社, 2020.