在 NVIDIA DGX Cloud 上使用 H100 GPU 輕鬆訓練模型

HuggingFace發表於2024-03-21

原文網址 : https://www.cnblogs.com/huggingface/p/18086745

在 NVIDIA DGX Cloud上使用 H100 GPU 輕鬆訓練模型

今天，我們正式宣佈推出 DGX 雲端訓練 (Train on DGX Cloud) 服務，這是 Hugging Face Hub 上針對企業 Hub 組織的全新服務。

透過在 DGX 雲端訓練，你可以輕鬆藉助 NVIDIA DGX Cloud的高速計算基礎設施來使用開放的模型。這項服務旨在讓企業 Hub 的使用者能夠透過幾次點選，就在 Hugging Face Hub 中輕鬆訪問最新的 NVIDIA H100 Tensor Core GPU，並微調如 Llama、Mistral 和 Stable Diffusion 這樣的流行生成式 AI (Generative AI) 模型。

GPU 不再是稀缺資源

這一新體驗基於我們去年宣佈的戰略合作，旨在簡化 NVIDIA 加速計算平臺上開放生成式 AI 模型的訓練和部署。開發者和機構面臨的主要挑戰之一是 GPU 資源稀缺，以及編寫、測試和除錯 AI 模型訓練指令碼的工作繁瑣。在 DGX 雲上訓練為這些挑戰提供了簡便的解決方案，提供了對 NVIDIA GPUs 的即時訪問，從 NVIDIA DGX Cloud上的 H100 開始。此外，該服務還提供了一個簡潔的無程式碼訓練任務建立體驗，由 Hugging Face AutoTrain 和 Hugging Face Spaces 驅動。

透過企業版的 HF Hub，組織能夠為其團隊提供強大 NVIDIA GPU 的即時訪問許可權，只需按照訓練任務所用的計算例項分鐘數付費。

在 DGX 雲端訓練是目前訓練生成式 AI 模型最簡單、最快速、最便捷的方式，它結合了強大 GPU 的即時訪問、按需付費和無程式碼訓練，這對全球的資料科學家來說將是一次變革性的進步！

—— Abhishek Thakur, Hugging Face AutoTrain 團隊創始人

今天釋出的 Hugging Face Autotrain，得益於 DGX 雲的支援，標誌著簡化 AI 模型訓練過程向前邁出了重要一步，透過將 NVIDIA 的雲端 AI 超級計算機與 Hugging Face 的友好介面結合起來，我們正在幫助各個組織加速他們的 AI 創新步伐。

—— Alexis Bjorlin, NVIDIA DGX Cloud 副總裁

操作指南

在 NVIDIA DGX Cloud 上訓練 Hugging Face 模型變得非常簡單。以下是針對如何微調 Mistral 7B 的分步教程。

注意：你需要訪問一個擁有企業版的 HF Hub 訂閱的組織賬戶，才能使用在 DGX 雲端訓練的服務

你可以在支援的生成式 AI 模型的模型頁面上找到在 DGX 雲端訓練的選項。目前，它支援以下模型架構：Llama、Falcon、Mistral、Mixtral、T5、Gemma、Stable Diffusion 和 Stable Diffusion XL。

點選“訓練 (Train)”選單，並選擇“NVIDIA DGX Cloud”選項，這將開啟一個頁面，讓你可以選擇你的企業組織。

接下來，點選“Create new Space”。當你首次使用在 DGX 雲端訓練時，系統將在你的組織內建立一個新的 Hugging Face 空間，使你可以利用 AutoTrain 建立將在 NVIDIA DGX Cloud上執行的訓練任務。當你日後需要建立更多訓練任務時，系統將自動將你重定向到已存在的 AutoTrain Space 應用。

進入 AutoTrain Space 應用後，你可以透過配置硬體、基礎模型、任務和訓練引數來設定你的訓練任務。

在硬體選擇方面，你可以選擇 NVIDIA H100 GPUs，提供 1x、2x、4x 和 8x 例項，或即將推出的 L40S GPUs。訓練資料集需要直接上傳至“上傳訓練檔案”區域，目前支援 CSV 和 JSON 檔案格式。請確保根據以下示例正確設定列對映。對於訓練引數，你可以直接在右側的 JSON 配置中進行編輯，例如，將訓練週期數從 3 調整為 2。

一切設定完成後，點選“開始訓練”即可啟動你的訓練任務。AutoTrain 將驗證你的資料集，並請求你確認開始訓練。

你可以透過檢視這個 Space 應用的“Logs 日誌”來檢視訓練進度。

訓練完成後，你微調後的模型將上傳到 Hugging Face Hub 上你所選擇的名稱空間內的一個新的私有倉庫中。

從今天起，所有企業 Hub 組織都可以使用在 DGX 雲端訓練的服務了！歡迎嘗試並分享你的反饋！

DGX 雲端訓練的定價

使用在 DGX 雲端訓練服務，將根據你訓練任務期間使用的 GPU 例項分鐘數來計費。當前的訓練作業價格為：H100 例項每 GPU 小時 8.25 美元，L40S 例項每 GPU 小時 2.75 美元。作業完成後，費用將累加到你企業 Hub 組織當前的月度賬單中。你可以隨時檢視企業 Hub 組織的計費設定中的當前和歷史使用情況。

例如，微調 1500 個樣本的 Mistral 7B 在一臺 NVIDIA L40S 上大約需要 10 分鐘，成本約為 0.45 美元。

我們的旅程剛剛開始

我們很高興能與 NVIDIA 合作，推動加速機器學習在開放科學、開源和雲服務領域的普惠化。

透過 BigCode 專案的合作，我們訓練了 StarCoder 2 15B，這是一個基於超過 600 種程式語言訓練的全開放、最先進的程式碼大語言模型（LLM）。

我們在開源方面的合作推動了新的 optimum-nvidia 庫的開發，加速了最新 NVIDIA GPUs 上大語言模型的推理，已經達到了 Llama 2 每秒 1200 Tokens 的推理速度。

我們在雲服務方面的合作促成了今天的在 DGX 雲端訓練服務。我們還在與 NVIDIA 合作最佳化推理過程，並使加速計算對 Hugging Face 社群更容易受益。此外，Hugging Face 上一些最受歡迎的開放模型將出現在今天 GTC 上宣佈的 NVIDIA NIM 微服務上。

本週參加 GTC 的朋友們，請不要錯過週三 3/20 下午 3 點 PT 的會議 S63149，Jeff 將帶你深入瞭解在 DGX 雲端訓練等更多內容。另外，不要錯過下一期 Hugging Cast，在那裡我們將現場演示在 DGX 雲端訓練，並且你可以直接向 Abhishek 和 Rafael 提問，時間是週四 3/21 上午 9 點 PT / 中午 12 點 ET / 17h CET - 請在此註冊。

怎樣在 10k 個 H100 GPU 上訓練模型？
2024-10-28
GPU模型
在 Google Cloud 上輕鬆部署開放大語言模型
2024-04-12
GoCloud模型
6-3使用GPU訓練模型
2024-08-04
GPU模型
從VGG到ResNet，你想要的MXNet預訓練模型輕鬆學
2018-05-20
模型
一文講透預訓練模型的改進訓練演算法，輕鬆達到State of the Art
2020-04-03
模型演算法
在 Fedora 上使用 GIMP 輕鬆編輯影像
2022-11-27
在 Fedora 上使用 GIMP 輕鬆編輯影象
2019-12-01
pytorch指定GPU訓練
2020-10-16
PyTorchGPU
MinkowskiEngine多GPU訓練
2021-01-04
GPU
輕量化模型訓練加速的思考（Pytorch實現）
2020-09-01
模型PyTorch
docker配置Nvidia環境，使用GPU
2024-04-25
DockerGPU
使用 Eloquent 輕鬆搜尋多個模型
2021-10-04
模型
從 PyTorch DDP 到 Accelerate 到 Trainer，輕鬆掌握分散式訓練
2023-02-16
PyTorchAI分散式
GitHub新專案：輕鬆使用多種預訓練卷積網路抽取影像特徵
2018-04-16
Github卷積特徵
GitHub新專案：輕鬆使用多種預訓練卷積網路抽取影象特徵
2018-04-16
Github卷積特徵
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
DeepLab 使用 Cityscapes 資料集訓練模型
2019-04-10
模型
TensorFlow2.0教程-使用keras訓練模型
2020-02-17
Keras模型
輕鬆在 Go 中使用 Dot 解析域名
2021-12-04
Go
如何輕鬆利用GPU加速機器學習？
2018-12-13
GPU機器學習
試用阿里雲GPU伺服器進行深度學習模型訓練
2024-04-17
阿里GPU伺服器深度學習模型
在ECS上輕鬆搭建RDS的從例項
2018-06-26
在雲上輕鬆部署達夢資料庫
2024-12-09
資料庫
【預訓練語言模型】使用Transformers庫進行GPT2預訓練
2024-03-13
模型ORMGPT
一步一步教你線上免費訓練機器學習模型（啟用GPU和TPU）
2018-10-20
機器學習模型GPU
使用PaddleFluid和TensorFlow訓練序列標註模型
2018-07-11
UI模型
使用AutoDL伺服器進行模型訓練
2024-05-06
伺服器模型
GPU捉襟見肘還想訓練大批次模型？誰說不可以
2018-10-17
GPU模型
如何使用MindStudio輕鬆搞定大模型全流程開發
2024-01-18
大模型
單GPU訓練一天，Transformer在100位數字加法上就達能到99%準確率
2024-06-03
GPUORM
在iPhone / iPad上輕鬆模擬GPS位置：AnyGo for Mac
2023-12-26
iPhoneiPadGoMac
AnyGo for Mac(在iPhone / iPad上輕鬆模擬GPS位置)
2023-11-03
GoMaciPhoneiPad
GPU捉襟見肘還想訓練大批量模型？誰說不可以
2018-10-17
GPU模型
AMD、蘋果、高通GPU存在漏洞，可致AI模型訓練資料洩露
2024-01-19
蘋果GPUAI模型
監控大模型訓練
2024-03-13
大模型
PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
fasttext訓練模型程式碼
2020-12-23
AST模型
keras中VGG19預訓練模型的使用
2018-07-24
Keras模型