Yandex 開源 LLM 訓練工具節省高達 20% 的 GPU 資源

新闻助手發表於2024-06-11

原文網址 : https://www.jiqizhixin.com/articles/2024-06-11-23

跨國科技公司 Yandex 最近推出了 YaFSDP，這是一種用於訓練大型語言模型 (LLM) 的開源方法。YaFSDP 是目前最有效的公開可用工具，用於增強 GPU 通訊並減少 LLM 訓練中的記憶體使用量，與 FSDP 相比，其訓練速度提升最高可達 26%，具體取決於架構和引數數量。透過使用 YaFSDP 減少 LLM 的訓練時間可以節省高達 20% 的 GPU 資源。

圖片包含遊戲機, 夜晚, 標誌, 燈光

描述已自動生成

Yandex 承諾為全球人工智慧社群的發展做出貢獻，將YaFSDP開源提供給全球的 LLM 開發人員和人工智慧愛好者即是履行此承諾的其中一步。

“目前，我們正在積極嘗試各種模型架構和引數大小，以擴充套件 YaFSDP 的多功能性，”Yandex 高階開發專家、YaFSDP 團隊成員 Mikhail Khruschev 指出，“我們很高興與全球 ML 社群分享我們在 LLM 訓練方面的研發成果，希望能為全球研究人員和開發者獲得更多的開源工具和更高的效率做出貢獻。”

YaFSDP 案例

LLM 訓練是一個耗時且資源密集的過程。機器學習工程師和自主開發 LLM 的公司投入了大量的時間和 GPU 資源（相當於金錢）來訓練這些模型。模型越大，其訓練所需的時間和費用就越高。

Yandex 的 YaFSDP 最佳化了學習速度和效能，使全球的 AI 開發人員在訓練模型時可以使用更少的計算能力和 GPU 資源。例如，在涉及具有 700 億個引數之模型的預訓練場景中，使用 YaFSDP 可以節省大約 150 個 GPU 的資源，這意味著每月可以節省大約 50 萬美元到 150 萬美元（取決於虛擬 GPU 提供商或平臺）。

YaFSDP 透過消除 GPU 通訊效率低下來提升效能，確保訓練時只需必要的處理器記憶體，並使 GPU 互動不間斷。

YaFSDP 的訓練效率

YaFSDP 是 FSDP 的增強版，在 LLM 訓練中最耗通訊的階段（如預訓練、對齊和微調）中，其表現優於 FSDP 方法。YaFSDP 在 Llama 2 和 Llama 3 上展示的最終提速表明訓練速度顯著提高，在 Llama 2 70B 和 Llama 3 70B 上分別達到 21% 和 26%。

Mikhail Khruschev 表示：“YaFSDP 在 130 億至 700 億個引數的模型上表現出色，在 300 億至 700 億個引數範圍內表現尤為驚人。目前，YaFSDP 最適合基於 LLaMA 架構的廣泛使用之開源模型。”

YaFSDP 並不是 Yandex 的第一個開源工具。該公司之前曾分享過其他幾款在 ML 社群中很受歡迎的工具，包括：

CatBoost：一種高效能的基於決策樹之梯度提升庫。
YTsaurus：分散式儲存和處理的大資料平臺。
AQLM：最先進的量化演算法之一，用於大型語言模型的極限壓縮。由 Yandex Research、HSE 大學、 IST Austria 及 NeuralMagic 共同開發。
Petals：是一個旨在簡化 LLM 訓練和微調過程的庫，由 Yandex Research、HSE 大學、華盛頓大學、Hugging Face、巴黎-薩克雷高等經濟學院和 Yandex 資料分析學院合作開發。

Yandex 開發並開源 Perforator，這款開源工具每年可為企業節省數十億美元的伺服器基礎設施成本
2025-02-10
開源工具伺服器
1分鐘訓練百萬級別節點嵌入，Mila開源圖嵌入訓練系統GraphVite
2019-08-23
MILAVite
使用 Elastic GPU 管理 Kubernetes GPU 資源
2022-04-20
ASTGPU
豆包大模型團隊開源RLHF框架，訓練吞吐量最高提升20倍
2024-11-01
大模型框架
pytorch指定GPU訓練
2020-10-16
PyTorchGPU
MinkowskiEngine多GPU訓練
2021-01-04
GPU
1分鐘訓練百萬級別節點嵌入，加拿大Mila研究所開源圖嵌入訓練系統GraphVite
2019-08-08
MILAVite
重磅！英偉達宣佈開源 Linux GPU 核心驅動
2022-05-18
LinuxGPU
Flink流式計算在節省資源方面的簡單分析
2019-11-07
節省50%人工錄入時間！免費開源AI工具讓法律檔案資料提取更高效
2024-11-04
AI
LLM並行訓練3-資料並行
2024-06-28
並行
完勝 BERT，谷歌最佳 NLP 預訓練模型開源，單卡訓練僅需 4 天
2020-03-17
谷歌模型
長沙Java培訓：Java開源IDE工具分享
2021-11-09
JavaIDE
App Tamer for Mac(節省電池和CPU電源)
2022-07-05
APPMac
用大模型最佳化大模型預訓練資料，節省20倍計算量，實現顯著效能提升！
2024-09-27
大模型
AMD、蘋果、高通GPU存在漏洞，可致AI模型訓練資料洩露
2024-01-19
蘋果GPUAI模型
既保護隱私又快速訓練，Facebook開源Opacus庫
2020-09-04
6-3使用GPU訓練模型
2024-08-04
GPU模型
北航推出TinyLLaVA-Video，有限計算資源優於部分7B模型，程式碼、模型、訓練資料全開源
2025-02-10
IDE模型
僅用4塊GPU、不到3天訓練出「開源版GPT-4o」，這是國內團隊最新研究
2024-09-23
GPUGPT
【LLM訓練系列】NanoGPT原始碼詳解和中文GPT訓練實踐
2024-08-25
NaNGPT原始碼
在開源領域，有一些庫和工具專門用於 GPU 監控和管理。以下是幾個常見的開源 GPU 監控庫：
2024-06-22
GPU
Kubernetes 節點的預留資源
2023-03-30
你也可以訓練超大神經網路！谷歌開源GPipe庫
2019-03-05
神經網路谷歌
DLRover：螞蟻開源大規模智慧分散式訓練系統
2023-03-14
分散式
訓練營 | 如何成為一名開源社群貢獻者？
2022-10-20
LLM開源小工具(基於程式碼庫快速學習/純shell呼叫LLM靈活管理系統)
2024-04-21
教你14個iPhone省電技巧，最多可節省20%！
2018-04-16
iPhone
【LLM訓練系列】從零開始訓練大模型之Phi2-mini-Chinese專案解讀
2024-09-09
大模型
有哪些開源的 BI 工具
2020-06-20
LLM並行訓練5-MoE並行
2024-07-20
並行
史丹佛大學推出線性前沿LLM技術，訓練模型成本僅為20美元
2024-11-14
模型
用Mac訓練個機器人疊衣服，HuggingFace開源全套教程，開源AI機器人革命要來了？
2024-09-01
Mac機器人AI
阿里巴巴開源大規模稀疏模型訓練/預測引擎DeepRec
2022-03-22
阿里模型
50 個能幫你節省時間的開發工具
2022-06-09
開源共建 | TIS整合資料同步工具ChunJun，攜手完善開源生態
2022-11-30
如何訓練2457億引數量的中文巨量模型“源1.0”
2021-12-03
模型
【LLM訓練】從零訓練一個大模型有哪幾個核心步驟？
2024-11-24
大模型

Yandex 開源 LLM 訓練工具節省高達 20% 的 GPU 資源

相關文章