阿里雲機器學習平臺PAI與香港大學合作論文入選INFOCOM 2022
近日,阿里雲機器學習平臺PAI與香港大學吳川教授團隊合作的論文”Efficient Pipeline Planning for Expedited Distributed DNN Training”入選INFOCOM(IEEE International Conference on Computer Communications) 2022,論文提出了一個支援任意網路拓撲的同步流水線並行訓練演算法,有效減少大規模神經網路的訓練時間。
作為分散式機器學習的一種主流訓練方式,流水線並行透過同時進行神經網路計算與中間資料通訊,減少訓練時間。一個典型的同步流水線並行方案包含模型切分裝置部署與微批次(micro-batch)執行排程兩個部分。
以下的兩個圖給出了一個6層神經網路模型在4塊GPU上進行同步流水線並行訓練的示例。由圖表1所示,模型被切分成三個片段,其中第二個片段由於其計算量較大,被複制到兩個GPU上透過資料並行的方式訓練。圖表2表示模型的三個微批次的具體訓練過程,其中,由於第二個片段以資料並行方法在GPU2和GPU3上訓練,在全部微批次訓練完成後透過AllReduce運算元同步模型片段引數。
圖表1模型切分裝置部署
圖表2微批次執行排程
然而,設計高效的流水線並行演算法方案仍然存在諸多挑戰,例如深度學習模型各異,每層的訓練時間也不相同,因此難以找到最優的模型切分部署方案;當前的流水線並行演算法侷限於同質化的GPU間網路拓撲,而現實機器學習叢集具有複雜的混合GPU間網路拓撲(例如,單個機器上的GPU可以透過PCIe或者NVLink連線,跨機通訊可以基於TCP或者RDMA),導致現有方案無法使用等,以上問題導致實際訓練中的GPU使用效率低。
針對以上難點,團隊提出了一個近似最優的同步流水線並行訓練演算法。演算法由三個主要模組構成:
1) 一個基於遞迴最小割的GPU排序演算法,透過分析GPU間網路拓撲確定GPU的模型部署順序,保證最大化利用GPU間頻寬;
2) 一個基於動態規劃的模型切分部署演算法,高效率找到最優的模型分割與部署方案,平衡模型在每個GPU上的運算時間與模型切片間的通訊時間;
3) 一個近似最優的列表排序演算法,決策每個微批次在各個GPU上的執行順序,最小化模型的訓練時間。
從理論上對演算法做出詳盡分析,給出了演算法的最壞情況保證。同時,在測試叢集中實驗證明團隊的演算法相對PipeDream,可以取得最高157%的訓練加速比。
INFOCOM是計算機網路三大頂級國際會議之一,涉及計算機網路領域的各個方面,在國際上享有盛譽且有廣泛的學術影響力。此次入選意味著阿里雲機器學習平臺PAI在分散式深度學習模型訓練最佳化領域的工作獲得國際學界的廣泛認可,進一步彰顯了中國在分散式機器學習系統領域有著核心競爭力。
阿里雲機器學習PAI是面向企業及開發者,提供輕量化、高價效比的雲原生機器學習平臺,一站式的機器學習解決方案,全面提升機器學習工程效率。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004426/viewspace-2890805/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 阿里雲機器學習平臺PAI與華東師範大學論文入選SIGIR 2022阿里機器學習AI
- 阿里雲人工智慧平臺PAI多篇論文入選EMNLP 2023阿里人工智慧AI
- AI推理服務平臺升級,阿里雲機器學習PAI推出新規格AI阿里機器學習
- 機器學習PAI快速入門機器學習AI
- 機器學習PAI快速入門與業務實戰機器學習AI
- Endeavour的機器學習平臺機器學習
- 學習日記——阿里雲物聯網平臺阿里
- 阿里雲機器學習PAI開源中文NLP演算法框架EasyNLP,助力NLP大模型落地阿里機器學習AI演算法框架大模型
- 阿里雲機器學習 AutoML 引擎介紹與應用阿里機器學習TOML
- 網易雲音樂機器學習平臺實踐機器學習
- MLFlow機器學習管理平臺入門教程一覽機器學習
- 快速玩轉 Mixtral 8x7B MOE大模型!阿里雲機器學習 PAI 推出實踐大模型阿里機器學習AI
- 阿里雲大資料認證——機器學習PAI實現精細化營銷-課堂筆記阿里大資料機器學習AI筆記
- 機器學習緒論機器學習
- 論文學習
- NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題AI強化學習機器學習
- 滴滴機器學習平臺架構演進機器學習架構
- 揭秘FACEBOOK未來的機器學習平臺機器學習
- 2018自然語言處理與機器學習論文發表統計自然語言處理機器學習
- 輕量化AI服務再添兩將!阿里雲機器學習PAI DSW 2.0 & Alink商業版重磅釋出AI阿里機器學習
- 零門檻 領阿里雲定製T 《快速玩轉機器學習PAI DSW》10月14日正式開始阿里機器學習AI
- 機器學習-學習筆記(二) --> 模型評估與選擇機器學習筆記模型
- 決策樹在機器學習的理論學習與實踐機器學習
- 解讀NeurIPS2019最好的機器學習論文機器學習
- 機器學習入門(二) — 迴歸模型 (理論)機器學習模型
- ZGC論文學習GC
- 頭歌實踐教學平臺-機器學習 --- PCA-答案機器學習PCA
- 一文帶你入門圖機器學習機器學習
- 滴滴機器學習平臺架構演進之路機器學習架構
- 揭祕FACEBOOK未來的機器學習平臺機器學習
- tensorflow機器學習模型的跨平臺上線機器學習模型
- 阿里機器學習七面面經阿里機器學習
- 緒論 初識機器學習機器學習
- 當博弈論遇上機器學習:一文讀懂相關理論機器學習
- 【機器學習PAI實戰】—— 玩轉人工智慧之綜述機器學習AI人工智慧
- vivo網際網路機器學習平臺的建設與實踐機器學習
- 一站式機器學習平臺Deepthought的建設與初探機器學習
- 創歷屆最好成績 阿里雲6篇論文入選全球網路頂會SIGCOMM2022阿里GC