在 NVIDIA DGX Cloud 上使用 H100 GPU 輕鬆訓練模型

HuggingFace發表於2024-03-21

在 NVIDIA DGX Cloud上使用 H100 GPU 輕鬆訓練模型

今天,我們正式宣佈推出 DGX 雲端訓練 (Train on DGX Cloud) 服務,這是 Hugging Face Hub 上針對企業 Hub 組織的全新服務。

透過在 DGX 雲端訓練,你可以輕鬆藉助 NVIDIA DGX Cloud的高速計算基礎設施來使用開放的模型。這項服務旨在讓企業 Hub 的使用者能夠透過幾次點選,就在 Hugging Face Hub 中輕鬆訪問最新的 NVIDIA H100 Tensor Core GPU,並微調如 Llama、Mistral 和 Stable Diffusion 這樣的流行生成式 AI (Generative AI) 模型。

GPU 不再是稀缺資源

這一新體驗基於我們去年宣佈的戰略合作,旨在簡化 NVIDIA 加速計算平臺上開放生成式 AI 模型的訓練和部署。開發者和機構面臨的主要挑戰之一是 GPU 資源稀缺,以及編寫、測試和除錯 AI 模型訓練指令碼的工作繁瑣。在 DGX 雲上訓練為這些挑戰提供了簡便的解決方案,提供了對 NVIDIA GPUs 的即時訪問,從 NVIDIA DGX Cloud上的 H100 開始。此外,該服務還提供了一個簡潔的無程式碼訓練任務建立體驗,由 Hugging Face AutoTrain 和 Hugging Face Spaces 驅動。

透過 企業版的 HF Hub,組織能夠為其團隊提供強大 NVIDIA GPU 的即時訪問許可權,只需按照訓練任務所用的計算例項分鐘數付費。

在 DGX 雲端訓練是目前訓練生成式 AI 模型最簡單、最快速、最便捷的方式,它結合了強大 GPU 的即時訪問、按需付費和無程式碼訓練,這對全球的資料科學家來說將是一次變革性的進步!

—— Abhishek Thakur, Hugging Face AutoTrain 團隊創始人

今天釋出的 Hugging Face Autotrain,得益於 DGX 雲的支援,標誌著簡化 AI 模型訓練過程向前邁出了重要一步,透過將 NVIDIA 的雲端 AI 超級計算機與 Hugging Face 的友好介面結合起來,我們正在幫助各個組織加速他們的 AI 創新步伐。

—— Alexis Bjorlin, NVIDIA DGX Cloud 副總裁

操作指南

在 NVIDIA DGX Cloud 上訓練 Hugging Face 模型變得非常簡單。以下是針對如何微調 Mistral 7B 的分步教程。

注意:你需要訪問一個擁有 企業版的 HF Hub 訂閱的組織賬戶,才能使用在 DGX 雲端訓練的服務

你可以在支援的生成式 AI 模型的模型頁面上找到在 DGX 雲端訓練的選項。目前,它支援以下模型架構:Llama、Falcon、Mistral、Mixtral、T5、Gemma、Stable Diffusion 和 Stable Diffusion XL。

點選“訓練 (Train)”選單,並選擇“NVIDIA DGX Cloud”選項,這將開啟一個頁面,讓你可以選擇你的企業組織。

接下來,點選“Create new Space”。當你首次使用在 DGX 雲端訓練時,系統將在你的組織內建立一個新的 Hugging Face 空間,使你可以利用 AutoTrain 建立將在 NVIDIA DGX Cloud上執行的訓練任務。當你日後需要建立更多訓練任務時,系統將自動將你重定向到已存在的 AutoTrain Space 應用。

進入 AutoTrain Space 應用後,你可以透過配置硬體、基礎模型、任務和訓練引數來設定你的訓練任務。

在硬體選擇方面,你可以選擇 NVIDIA H100 GPUs,提供 1x、2x、4x 和 8x 例項,或即將推出的 L40S GPUs。訓練資料集需要直接上傳至“上傳訓練檔案”區域,目前支援 CSV 和 JSON 檔案格式。請確保根據以下示例正確設定列對映。對於訓練引數,你可以直接在右側的 JSON 配置中進行編輯,例如,將訓練週期數從 3 調整為 2。

一切設定完成後,點選“開始訓練”即可啟動你的訓練任務。AutoTrain 將驗證你的資料集,並請求你確認開始訓練。

你可以透過檢視這個 Space 應用的“Logs 日誌”來檢視訓練進度。

訓練完成後,你微調後的模型將上傳到 Hugging Face Hub 上你所選擇的名稱空間內的一個新的私有倉庫中。

從今天起,所有企業 Hub 組織都可以使用在 DGX 雲端訓練的服務了!歡迎嘗試並分享你的反饋!

DGX 雲端訓練的定價

使用在 DGX 雲端訓練服務,將根據你訓練任務期間使用的 GPU 例項分鐘數來計費。當前的訓練作業價格為:H100 例項每 GPU 小時 8.25 美元,L40S 例項每 GPU 小時 2.75 美元。作業完成後,費用將累加到你企業 Hub 組織當前的月度賬單中。你可以隨時檢視企業 Hub 組織的計費設定中的當前和歷史使用情況。

例如,微調 1500 個樣本的 Mistral 7B 在一臺 NVIDIA L40S 上大約需要 10 分鐘,成本約為 0.45 美元。

我們的旅程剛剛開始

我們很高興能與 NVIDIA 合作,推動加速機器學習在開放科學、開源和雲服務領域的普惠化。

透過 BigCode 專案的合作,我們訓練了 StarCoder 2 15B,這是一個基於超過 600 種程式語言訓練的全開放、最先進的程式碼大語言模型(LLM)。

我們在開源方面的合作推動了新的 optimum-nvidia 庫的開發,加速了最新 NVIDIA GPUs 上大語言模型的推理,已經達到了 Llama 2 每秒 1200 Tokens 的推理速度。

我們在雲服務方面的合作促成了今天的在 DGX 雲端訓練服務。我們還在與 NVIDIA 合作最佳化推理過程,並使加速計算對 Hugging Face 社群更容易受益。此外,Hugging Face 上一些最受歡迎的開放模型將出現在今天 GTC 上宣佈的 NVIDIA NIM 微服務 上。

本週參加 GTC 的朋友們,請不要錯過週三 3/20 下午 3 點 PT 的會議 S63149Jeff 將帶你深入瞭解在 DGX 雲端訓練等更多內容。另外,不要錯過下一期 Hugging Cast,在那裡我們將現場演示在 DGX 雲端訓練,並且你可以直接向 AbhishekRafael 提問,時間是週四 3/21 上午 9 點 PT / 中午 12 點 ET / 17h CET - 請在此註冊

相關文章