專為訓練Llama 3,Meta 4.9萬張H100叢集細節公佈

机器之心發表於2024-03-13
只想知道 Llama 3 何時能來?

生成式大模型給人工智慧領域帶來了重大變革,人們在看到實現通用人工智慧(AGI)希望的同時,訓練、部署大模型的算力需求也越來越高。

剛剛,Meta 宣佈推出兩個 24k GPU 叢集(共 49152 個 H100),標誌著 Meta 為人工智慧的未來做出了一筆重大的投資。

這是 Meta 雄心勃勃的基礎設施路線圖中的一步。Meta 會持續擴大基礎設施建設,到 2024 年底將包括 350000 個 NVIDIA H100 GPU,其計算能力將相當於近 600000 個 H100。

Meta 表示:「我們堅定致力於開放計算和開源。我們在 Grand Teton、OpenRack 和 PyTorch 之上構建了這些叢集,並將繼續推動整個行業的開放創新。我們會使用這種算力叢集來訓練 Llama 3。」

圖靈獎得主、Meta 首席科學家 Yann LeCun 也發推強調了這一點。

Meta 分享了新叢集在硬體、網路、儲存、設計、效能和軟體方面的詳細資訊。新叢集將為各種人工智慧工作負載獲取高吞吐量和高可靠性。

叢集概覽

Meta 的長期願景是構建開放且負責任的通用人工智慧,以便讓每個人都能廣泛使用並從中受益。

2022 年,Meta 首次分享了一個 AI 研究超級叢集 (RSC) 的詳細資訊,該叢集配備 16000 個 NVIDIA A100 GPU。RSC 在 Llama 和 Llama 2 的開發以及計算機視覺、NLP、語音識別影像生成、編碼等方向的高階人工智慧模型的開發中發揮了重要作用。

Meta 現在推出的新的人工智慧叢集建立在 RSC 的成功和經驗教訓的基礎上。Meta 表示其專注於構建端到端人工智慧系統,重點關注研究人員和開發人員的體驗和生產力。

新叢集中高效能網路結構的效率、一些關鍵的儲存決策,再加上每個叢集中的 24576 個 NVIDIA Tensor Core H100 GPU,使兩個叢集都能夠支援比 RSC 叢集可支援的模型更大、更復雜的模型。

圖片

網路

Meta 每天處理數百萬億個人工智慧模型的執行。大規模提供人工智慧模型服務需要高度先進且靈活的基礎設施。

為了最佳化人工智慧研究人員的端到端體驗,同時確保 Meta 的資料中心高效執行,Meta 基於 Arista 7800 以及 Wedge400 和 Minipack2 OCP 機架交換機構建了一個採用 RoCE 協議(一種叢集網路通訊協議,實現在乙太網上進行遠端直接記憶體訪問(RDMA))的網路結構叢集。另一個叢集則採用 NVIDIA Quantum2 InfiniBand 結構。這兩種解決方案都互連 400 Gbps 端點。

這兩個新叢集可以用來評估不同型別的互連對於大規模訓練的適用性和可擴充套件性,幫助 Meta 瞭解未來如何設計和構建更大規模的叢集。透過對網路、軟體和模型架構的仔細協同設計,Meta 成功地將 RoCE 和 InfiniBand 叢集用於大型 GenAI 工作負載,而沒有任何網路瓶頸。

計算

這兩個叢集都是使用 Grand Teton 構建的,Grand Teton 是 Meta 內部設計的開放 GPU 硬體平臺。

Grand Teton 以多代人工智慧系統為基礎,將電源、控制、計算和結構介面整合到單個機箱中,以實現更好的整體效能、訊號完整性和熱效能。它以簡化的設計提供快速的可擴充套件性和靈活性,使其能夠快速部署到資料中心佇列中並輕鬆進行維護和擴充套件。

儲存

儲存在人工智慧訓練中發揮著重要作用,但卻是最少被談論的方面之一。

隨著時間的推移,GenAI 訓練工作變得更加多模態,消耗大量影像、影片和文字資料,對資料儲存的需求迅速增長。

Meta 新叢集的儲存部署透過使用者空間中的本地 Linux 檔案系統 (FUSE) API 來滿足 AI 叢集的資料和檢查點需求,該 API 由 Meta 的「Tectonic」分散式儲存解決方案提供支援。這種解決方案使數千個 GPU 能夠以同步方式儲存和載入檢查點,同時還提供資料載入所需的靈活且高吞吐量的 EB 級儲存。

Meta 還與 Hammerspace 合作,共同開發並落地並行網路檔案系統(NFS)部署。Hammerspace 使工程師能夠使用數千個 GPU 對作業執行互動式除錯。

效能

Meta 構建大規模人工智慧叢集的原則之一是同時最大限度地提高效能和易用性。這是建立一流人工智慧模型的重要原則。

Meta 在突破人工智慧系統的極限時,測試擴充套件設計能力的最佳方法就是簡單構建一個系統,然後最佳化並實際測試(雖然模擬器有幫助,但也只能到此為止)。

此次設計,Meta 比較了小型叢集和大型叢集的效能,以瞭解瓶頸所在。下顯示了當大量 GPU 以預期效能最高的通訊大小相互通訊時,AllGather 集體效能(以 0-100 範圍內的標準化頻寬表示)。

與最佳化的小型叢集效能相比,大型叢集的開箱即用效能最初很差且不一致。為了解決這個問題,Meta 對內部作業排程程式透過網路拓撲感知來調的方式進行了一些更改,這帶來了延遲優勢並最大限度地減少了流向網路上層的流量。

Meta 還結合 NVIDIA Collective Communications Library (NCCL) 更改最佳化了網路路由策略,以實現最佳的網路利用率。這有助於推動大型叢集像小型叢集一樣實現出色的預期效能。

圖片

從圖中我們可以看到,小叢集效能(整體通訊頻寬和利用率)開箱即達到 90%+,但未經最佳化的大型叢集效能利用率非常低,從 10% 到 90% 不等。在最佳化整個系統(軟體、網路等)後,我們看到大型叢集效能恢復到理想的 90%+ 範圍。

除了針對內部基礎設施的軟體更改之外,Meta 還與編寫訓練框架和模型的團隊密切合作,以適應不斷髮展的基礎設施。例如,NVIDIA H100 GPU 開啟了利用 8 位浮點 (FP8) 等新資料型別進行訓練的可能性。充分利用更大的叢集需要對額外的並行化技術和新的儲存解決方案進行投資,這提供了在數千個級別上高度最佳化檢查點以在數百毫秒內執行的機會。

Meta 還認識到可除錯性是大規模訓練的主要挑戰之一。大規模識別出導致整個訓練停滯的出錯 GPU 非常困難。Meta 正在構建諸如非同步除錯或分散式集體飛行記錄器之類的工具,以公開分散式訓練的細節,並幫助以更快、更簡單的方式識別出現的問題。

參考連結:https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

相關文章