iGear 用了這個小魔法，模型訓練速度提升 300%

JuiceFS發表於2022-01-28

原文網址 : https://www.cnblogs.com/JuiceData/p/15852077.html

一個高精度AI模型離不開大量的優質資料集，這些資料集往往由標註結果檔案和海量的圖片組成。在資料量比較大的情況下，模型訓練週期也會相應加長。那麼有什麼加快訓練速度的好方法呢？

壕氣的老闆第一時間想到的通常是提升算力，增加資源。

如果足夠有錢的話，基本不需要再繼續看其他解決方案了。

但大多數情況下，面對昂貴的算力資源，我們不可能無限增加的。那在花了大價錢買到了有限資源的情況下，我們還可以通過什麼方式加快模型訓練，提高資源利用率呢？

本文將為大家介紹的就是 iGear 高效能快取加速方案，我們先看一張簡單的AI工作全流程服務示意圖。

採集的資料通過 iGear 資料中臺的篩選預處理、iGear 標註平臺的標註後會形成優質訓練資料集，這些資料集會流轉到 iGear 訓練平臺來訓練演算法模型。
iGear 訓練平臺基於 Kubernetes 叢集完成異構計算資源排程。在這個架構體系中計算和儲存是分離的，資料集會放在遠端的物件儲存叢集中，當執行模型訓練任務時就需要訪問遠端儲存來獲取資料集，帶來較高的網路 I/O 開銷，也會造成資料集管理不便的問題。

本文提出的 iGear 高效能快取加速方案要做的就是：

1.如何降低 I/O 開銷，提高訓練效率和 GPU 利用率？

2.如何管理資料集，提高使用者易用性和便利性？

快取方案概述

前文已經提及，資料集是儲存在遠端的物件儲存叢集中的。
為了提高資料集的易用性，常用方案是用 fuse 方式掛載給到訓練任務，方便使用者以普通檔案目錄的方式識別並使用資料集。
這種方式雖然滿足了易用性，但高 I/O 的開銷使得使用者必須手動或者用指令碼的方式將資料集提前同步到計算節點，這會增加使用者在訓練過程中的心智負擔。
針對上述問題，我們對訓練資料集做了優化，當使用者開始準備訓練時，通過 JuiceFS 實現資料集快取引擎，為使用者提供資料集快取和預熱功能，這既可以降低對遠端物件儲存的訪問，又可以減少使用者操作。充分利用計算叢集本地儲存來快取資料集，通過兩級快取（訓練節點的系統快取+訓練節點的磁碟快取），加速模型訓練速度，一定程度上也能提高 GPU 的利用率。

JuiceFS 是一款開源的面向雲環境設計的高效能共享檔案系統，在資料組織管理和訪問效能上進行了大量針對性的優化，社群版本也有非常好的文件支撐，這裡就不贅述了。

快取方案測試

測試方案

我們之前使用的方案是使用 fuse 的方式直接掛載物件儲存系統，將 S3 的 bucket 通過掛載的方式掛載到本地，提供訪問遠端物件儲存資料的能力。優化後的高效能快取加速方案，後端也是基於物件儲存，只是在此基礎之上提供了快取、預熱等功能，優化了儲存的效能。
基於此我們做了以下兩組對比實驗，兩組實驗都是基於同一套物件儲存，且其它條件保持一致。

開啟或關閉高效能快取加速的效能對比

使用高效能快取加速方案和使用 fuse 掛載的效能對比

測試方式

在伺服器物理機環境下，我們使用 PyTorch /examples 倉庫中提供的 ResNet50 v1.5 進行模型訓練，對其進行單機單卡、單機多卡的結果復現，同時對比執行過程花費的時長。

測試環境

硬體：Tesla V100-SXM2-32GB
驅動：Nvidia 450.80.02
作業系統：Ubuntu 20.04.1 LTS
測試工具：PyTorch ResNet50 v1.5提供的指令碼
資料集：ImageNet

實驗一：開啟高效能快取加速 VS 關閉高效能快取加速

ResNet50 v1.5 batch_size = 128, worker=8

從上圖可以看出，在沒有快取的情況下，訓練任務處理的圖片數並沒有隨著算力的增加而明顯變化，說明已經到了 I/O 瓶頸階段。而使用快取後，隨著算力的增加，處理的圖片數也相應增加。
這證明使用快取加速後，大大降低了 I/O 開銷，同等算力情況下，訓練速度也有了很大提升，其中單機 1 卡的訓練速度提升了 22.3%，單機 4 卡的速度提升了 218%，單機8卡的速度提升了 **230% **。

從模型訓練時間角度來看，訓練時間從未使用快取加速的 1381 min 降低到 565 min，只用了原來 1/3 的時間就完成了模型訓練。

第一組實驗對比了資料集快取前後的效能差異，驗證了使用高效能快取方案來加速 iGear 訓練任務的必要性。

實驗二：高效能快取加速 VS fuse掛載

當前較為通用的方案是採用 fuse 的方式來掛載遠端的物件儲存到本地，提供使用者對資料集的訪問請求。為了對比目前普通 fuse 掛載的方案和高效能快取加速的優化方案，我們設計了第二組實驗：

ResNet50 v1.5 batch_size = 128, worker=8

從模型訓練時間角度來看，fuse 掛載方案訓練時間為 1448 min，高效能快取加速優化方案可將訓練時間減少到 565 min，將近 fuse 掛載方案的 1/3。

因此，相比於傳統直接使用物件儲存，我們的高效能儲存在訓練速度上和訓練時間上都有大幅度的提升。

第二組實驗對比了不同方案下的模型訓練時間，驗證了使用高效能快取方案來加速 iGear 訓練任務的重要性。

結論

面對昂貴且有限的算力資源，我們可以通過高效能快取加速方案去大幅加速 iGear 平臺上訓練任務的速度，極大地縮短模型訓練時間，同時提高了 GPU 資源的利用率。如果算力進一步提升，收益也不僅僅止步於當前的測試環境。

如有幫助的話歡迎關注我們專案 Juicedata/JuiceFS 喲！ (0ᴗ0✿)

【雲原生AI】Fluid + JindoFS 助力微博海量小檔案模型訓練速度提升 18 倍
2021-06-05
AIUI模型
大模型如何提升訓練效率
2024-07-08
大模型
【ICDE 2022】稀疏模型訓練框架HybridBackend，單位成本下訓練吞吐提升至5倍
2022-05-09
模型框架
用免費TPU訓練Keras模型，速度還能提高20倍！
2019-04-05
Keras模型
讓PyTorch訓練速度更快，你需要掌握這17種方法
2021-01-17
PyTorch
【LLM訓練】從零訓練一個大模型有哪幾個核心步驟？
2024-11-24
大模型
訓練一個目標檢測模型
2023-12-13
模型
ICLR 2024 | 無需訓練，Fast-DetectGPT讓文字檢測速度提升340倍
2024-03-18
ICLRASTGPT
19_03_26校內訓練[魔法卡片]
2019-03-26
提升WordPress網站載入速度的8個小技巧
2024-05-22
網站
加入Transformer-XL，這個PyTorch包能呼叫各種NLP預訓練模型
2019-02-13
ORMPyTorch模型
美國「返利網」開源sk-dist框架將sklearn訓練速度提升數倍
2019-10-04
框架
怎麼訓練出一個NB的Prophet模型
2020-07-21
模型
監控大模型訓練
2024-03-13
大模型
PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
fasttext訓練模型程式碼
2020-12-23
AST模型
你的Mac有了專用版TensorFlow，GPU可用於訓練，速度最高提升7倍
2020-11-19
MacGPU
如何從資料、模型和訓練角度提升閱讀理解系統效能？
2018-10-29
模型
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
「NLP」GPT：第一個引入Transformer的預訓練模型
2019-08-27
GPTORM模型
孟子小樣本和檢索式預訓練模型進展
2023-04-21
模型
DeepMind丟掉了歸一化，讓影像識別訓練速度提升了8.7倍 | 已開源
2021-02-18
PyTorch 模型訓練實⽤教程（程式碼訓練步驟講解）
2020-09-25
PyTorch模型
預訓練模型 & Fine-tuning
2020-10-18
模型
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
讓數百萬臺手機訓練同一個模型？Google把這套框架開源了
2019-03-09
模型Go框架
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
XLNet預訓練模型，看這篇就夠了！(程式碼實現)
2019-09-30
模型
用 Java 訓練深度學習模型，原來可以這麼簡單！
2020-11-02
Java深度學習模型
豆包大模型團隊開源RLHF框架，訓練吞吐量最高提升20倍
2024-11-01
大模型框架
tensorflow：一個簡單的python訓練儲存模型，java還原模型方法
2018-04-24
Python模型Java
DeepSparse: 透過剪枝和稀疏預訓練，在不損失精度的情況下減少70%的模型大小，提升三倍速度
2024-05-19
模型
Yolov8訓練識別模型
2024-03-29
YOLO模型
AI打遊戲-肆（模型訓練）
2023-09-22
AI遊戲模型
訓練PaddleOCR文字方向分類模型
2024-08-27
模型
6-3使用GPU訓練模型
2024-08-04
GPU模型
隱私計算 FATE - 模型訓練
2022-07-12
模型
Question | 標註下資料、訓練個模型，商用的智慧鑑黃有這麼簡單嗎？
2019-09-27
模型