MLSys提前看：機器學習的分散式最佳化方法

wujiy發表於2020-02-21

原文網址 : https://www.jiqizhixin.com/articles/2020-02-21-2

隨著機器學習演算法和模型的不斷髮展，傳統的軟硬體平臺、部署環境等無法支撐機器學習的應用，這也成為了目前機器學習方法落地及大規模推廣應用的主要困難之一。目前，有關於 MLSys 的研究方向包括硬體領域、軟體領域和對機器學習演算法的改進三個方面，以 MLSys 2020 為例，本屆大會的議題包括：Distributed and parallel learning algorithms（5 篇論文）、Efficient model training（8 篇論文）、Efficient inference and model serving（8 篇論文）、Model/Data Quality and Privacy（4 篇論文）、ML programming models and abstractions & ML applied to systems（5 篇論文）以及 Quantization of deep neural networks（4 篇論文）。整個會議一共錄用 34 篇論文。

在本篇提前看中，我們選擇了三篇文章進行詳細分析，以瞭解機器學習與系統（Machine Learning and Systems）領域最新的研究成果。其中，前兩篇文章屬於經典的機器學習分散式最佳化方法（通訊方式、記憶體分配方法），第三篇文章則是關於一種新的用於機器學習的具有高度系統性和裝置（統計、資料）異質性的分散式方法--聯邦學習。

Blink: Fast and Generic Collectives for Distributed ML

Efficient model training topic

https://arxiv.org/pdf/1910.04940.pdf

隨著高質量資料庫、大規模資料集的不斷髮展，深度學習模型不斷改進，在影像分類、目標檢測、機器翻譯、語音處理等領域都獲得了很好的效果。與之同時，漫長的訓練時間卻成為了另一個讓人頭疼的問題。在處理一些影像分類任務時，在單個 GPU 中的訓練時間甚至需要幾天！基於多個 GPU 的資料並行訓練（Data-Parallel Training）的引入，大大緩解了大規模深度學習模型訓練耗時長的問題。在資料並行訓練中，每個 GPU 都有一個完整的模型引數副本，同時也會與其他參與訓練的 GPU 交換引數。這篇文章介紹的是 MLSys 領域中基於 GPU 的模型引數同步問題。

跨 GPU 的引數同步在大規模訓練時產生了較大開銷，對於常見 ML 模型，通訊開銷可以從 50% 到 90% 不等。解決這一問題的手段主要有兩種：硬體手段—先進的多 GPU 伺服器，例如 NVIDIA』s DGX-1、DGX-2 等；軟體手段，利用了 Wait-free 反向傳播技術的現代通訊原語，例如 NVIDIA『s Collective Communications Library (NCCL)、百度的 Ring AllReduce 等。本文研究的是軟體手段，提出了 Blink—一個透過包裝生成樹動態生成最佳通訊原語的集合通訊庫。為了處理硬體生成中的拓撲異質性問題或叢集排程程式中的分配問題，Blink 能夠動態生成給定拓撲的最佳通訊原語。

【目前的問題】

即使在 NVIDIA DGX-1 這樣的快速多 GPU 伺服器上執行資料並行訓練時，深度學習工作負載也會帶來很高的通訊開銷。更重要的是，作者發現，即使在像 DGX-1 這樣的高效能伺服器內，現有通訊原語如 NCCL 或 Horovod 也會放大通訊開銷，作者認為，這主要是因為它們無法處理拓撲異質性問題。DGX-1 中既有諸如 NVLink（20-25GB/s）的 GPU 點對點（P2P）互連，也有諸如 PCIe（8-12GB/s）的共享互連。PCIe 透過 PCIe 交換機層次結構將多個 GPU 相互連線到一臺計算機內，並連線到 CPU 和 I/O 裝置。NCCL、Horovod 等通訊原語基於環的模式（Ring-based Protocols）進行資料傳輸，然而，基於環的協議有結構上的限制：對於每個環，每個節點只能有一個輸入和一個輸出。基於環的模式將所有的通訊節點透過首尾連線形成一個單向環，資料在環上依次傳輸。假設有 3 個 GPU，GPU0 為資訊的傳送者，將資訊傳送給剩下的 GPU，基於環的通訊原語按照環的方式將資訊傳輸，即 GPU0-->GPU1-->GPU2。這種限制使得環無法適應由於排程程式分配而導致的不規則拓撲，如圖 1 所示。環的吞吐量受到頻寬最低的鏈路的限制，因此這些協議要麼將自己限制在高頻寬、同質鏈路上，要麼將吞吐量限制在環中頻寬最低的鏈路上。以 NCCL 為例，對於一臺機器內的多 GPU 通訊，NCCL 將優先使用 NVLink，而當在 NVLink 環中時，PCIe 將成為瓶頸。

MLSys提前看：機器學習的分散式最佳化方法

圖 1. 群集上每個 8-GPU 伺服器中分配給 Cloud-X 上 40000 個多 GPU 作業的 GPU 數

此外，這些限制還會導致連結使用不足，如圖 2 所示。

MLSys提前看：機器學習的分散式最佳化方法

圖 2. DGX-1P 中 NCCL 與本文提出的 Blink 在 6-GPUs 上的廣播比較

透過將 GPU 之間的連結建模為圖，前期的研究結果表明，包裝生成樹 (Packing Spanning Trees) 能夠生成從有選擇的根頂點到有向圖中的所有其他頂點的最大流。基於此研究，作者認為一對多協議（如使用根節點的生成樹進行廣播）是克服鏈路利用率不足的一個潛在有效選擇。當然，除了像廣播這樣只轉發資料的操作之外，還需要實現像 AllReduce 這樣的通訊原語，即可以被建模為在一個方向上減少並前進（面向根的方向），然後在另一個方向廣播。

MLSys提前看：機器學習的分散式優化方法
2020-02-21
機器學習分散式優化
MLSys 2020提前看：多面瞭解機器學習系統標準、加速方法和應用場景
2020-03-30
機器學習
OpML 2019提前看：模型表現預測與分散式機器學習
2019-05-20
模型分散式機器學習
AAAI 2019 提前看：機器人和認知學習
2019-01-30
AI機器人
分散式機器學習中的模型聚合
2021-12-02
分散式機器學習模型
分散式機器學習中的模型架構
2021-12-05
分散式機器學習模型架構
分散式機器學習常用資料集
2021-11-28
分散式機器學習
大資料的分散式機器學習的策略與原則
2022-05-10
大資料分散式機器學習
分散式機器學習、聯邦學習、多智慧體的區別和聯絡
2021-12-11
分散式機器學習聯邦學習智慧體
NeurIPS 2018提前看：生物學與學習演算法
2018-12-02
演算法
CVPR 2019提前看：少樣本學習專題
2019-06-14
機器學習--起手式
2023-01-05
機器學習
人工智慧 (02) 機器學習 - 監督式學習分類方法
2019-12-18
人工智慧機器學習
人工智慧 (03) 機器學習 - 監督式學習迴歸方法
2019-12-18
人工智慧機器學習
人工智慧 (05) 機器學習 - 無監督式學習群集方法
2019-12-19
人工智慧機器學習
分散式機器學習：如何快速從Python棧過渡到Scala棧
2020-10-20
分散式機器學習Python
分散式機器學習：非同步SGD和Hogwild!演算法（Pytorch）
2023-02-13
分散式機器學習非同步HOG演算法PyTorch
機器學習之迭代方法
2020-06-12
機器學習
分散式機器學習框架與高維實時推薦系統
2020-07-20
分散式機器學習框架
分散式學習記錄
2019-04-17
分散式
分散式理論學習
2024-03-14
分散式
學習etcd分散式鎖
2021-11-15
分散式
機器學習的文字摘要方法概述 - kdnuggets
2020-11-12
機器學習
機器學習判別式與生成式
2019-02-14
機器學習
RecSys提前看 | 深度學習在推薦系統中的最新應用
2019-09-12
深度學習
機器學習/深度學習書單推薦及學習方法
2018-04-12
機器學習深度學習
[原始碼解析] 快手八卦 --- 機器學習分散式訓練新思路(3)
2022-01-06
原始碼機器學習分散式
[原始碼解析] 快手八卦 --- 機器學習分散式訓練新思路(2)
2022-01-05
原始碼機器學習分散式
[原始碼解析] 快手八卦 --- 機器學習分散式訓練新思路(1)
2022-01-04
原始碼機器學習分散式
機器學習之支援向量機（線性模型）的最佳化問題
2020-07-04
機器學習模型
NeurIPS提前看 | 四篇論文，一窺元學習的最新研究進展
2019-12-09
TensorFlow學習指南四、分散式
2018-10-04
分散式
【機器學習】李宏毅——自監督式學習
2022-12-19
機器學習
機器學習基本函式介紹
2020-12-05
機器學習函式
機器學習如何看世界對抗機器學習詮釋人工智慧和人類思維的不同
2020-07-27
機器學習人工智慧
機器學習問題方法總結
2018-10-11
機器學習
機器學習方法（一）——梯度下降法
2018-10-12
機器學習梯度
機器學習拜占庭容錯方法: Bulyan
2022-12-02
機器學習

MLSys提前看：機器學習的分散式最佳化方法

相關文章