跨國科技公司 Yandex 最近推出了 YaFSDP,這是一種用於訓練大型語言模型 (LLM) 的開源方法。YaFSDP 是目前最有效的公開可用工具,用於增強 GPU 通訊並減少 LLM 訓練中的記憶體使用量,與 FSDP 相比,其訓練速度提升最高可達 26%,具體取決於架構和引數數量。透過使用 YaFSDP 減少 LLM 的訓練時間可以節省高達 20% 的 GPU 資源。
Yandex 承諾為全球人工智慧社群的發展做出貢獻,將YaFSDP開源提供給全球的 LLM 開發人員和人工智慧愛好者即是履行此承諾的其中一步。
“目前,我們正在積極嘗試各種模型架構和引數大小,以擴充套件 YaFSDP 的多功能性,”Yandex 高階開發專家、YaFSDP 團隊成員 Mikhail Khruschev 指出,“我們很高興與全球 ML 社群分享我們在 LLM 訓練方面的研發成果,希望能為全球研究人員和開發者獲得更多的開源工具和更高的效率做出貢獻。”
YaFSDP 案例
LLM 訓練是一個耗時且資源密集的過程。機器學習工程師和自主開發 LLM 的公司投入了大量的時間和 GPU 資源(相當於金錢)來訓練這些模型。模型越大,其訓練所需的時間和費用就越高。
Yandex 的 YaFSDP 最佳化了學習速度和效能,使全球的 AI 開發人員在訓練模型時可以使用更少的計算能力和 GPU 資源。例如,在涉及具有 700 億個引數之模型的預訓練場景中,使用 YaFSDP 可以節省大約 150 個 GPU 的資源,這意味著每月可以節省大約 50 萬美元到 150 萬美元(取決於虛擬 GPU 提供商或平臺)。
YaFSDP 透過消除 GPU 通訊效率低下來提升效能,確保訓練時只需必要的處理器記憶體,並使 GPU 互動不間斷。
YaFSDP 的訓練效率
YaFSDP 是 FSDP 的增強版,在 LLM 訓練中最耗通訊的階段(如預訓練、對齊和微調)中,其表現優於 FSDP 方法。YaFSDP 在 Llama 2 和 Llama 3 上展示的最終提速表明訓練速度顯著提高,在 Llama 2 70B 和 Llama 3 70B 上分別達到 21% 和 26%。
Mikhail Khruschev 表示:“YaFSDP 在 130 億至 700 億個引數的模型上表現出色,在 300 億至 700 億個引數範圍內表現尤為驚人。目前,YaFSDP 最適合基於 LLaMA 架構的廣泛使用之開源模型。”
YaFSDP 並不是 Yandex 的第一個開源工具。該公司之前曾分享過其他幾款在 ML 社群中很受歡迎的工具,包括:
- CatBoost:一種高效能的基於決策樹之梯度提升庫。
- YTsaurus:分散式儲存和處理的大資料平臺。
- AQLM:最先進的量化演算法之一,用於大型語言模型的極限壓縮。由 Yandex Research、HSE 大學、 IST Austria 及 NeuralMagic 共同開發。
- Petals:是一個旨在簡化 LLM 訓練和微調過程的庫,由 Yandex Research、HSE 大學、華盛頓大學、Hugging Face、巴黎-薩克雷高等經濟學院和 Yandex 資料分析學院合作開發。