PODsys:大模型AI算力平臺部署的開源“神器”

lumin1020發表於2023-11-13

大模型是通用人工智慧的底座,但大模型訓練對算力平臺的依賴非常大。大模型算力平臺是指支撐大模型訓練和推理部署的算力基礎設施,包括業界最新的加速卡、高速網際網路絡、高效能分散式儲存系統、液冷系統和高效易用的大模型研發工具和框架。在算力平臺的部署過程中,大模型研發機構常常需要面對一系列的問題:大模型算力平臺是什麼樣的?如何快速構建大模型算力平臺?如何確保算力平臺穩定可靠?如何提升部署效率?如何提升算力平臺的效能……這些問題能否順利解決,直接關係到大模型研發和應用落地的速度。

  為了幫助使用者加速大模型的技術創新與應用落地,浪潮資訊釋出了大模型智算軟體棧 OGAI(Open GenAI Infra)。OGAI 由 5 層架構組成,從 L0 到 L4 分別對應於基礎設施層的智算中心 OS 產品、系統環境層的 PODsys 產品、排程平臺層的 AIStation 產品、模型工具層的 YLink 產品和多模納管層的 MModel 產品。其中 L1 層 PODsys 是一個為客戶提供智算叢集系統環境部署方案的開源專案,具備基礎設施環境安裝、環境部署、使用者管理、系統監控和資源排程等能力。使用者只需執行兩條簡單的命令,即可完成大模型算力平臺的部署,將大模型算力平臺部署效率提升 11 倍,幫助使用者順利邁出大模型研發的第一步。(下載地址:)

  大模型算力平臺部署難題亟待求解

  大模型引數量和訓練資料複雜性快速增加,對 AI 算力平臺的建設提出了新的要求,即需要從資料中心規模化算力部署的角度,統籌考慮大模型分散式訓練對計算、網路和儲存的需求特點,並整合平臺軟體、結合應用實踐,充分關注資料傳輸、任務排程、並行最佳化、資源利用率等,設計和構建高效能、高速互聯、存算平衡的可擴充套件叢集系統,以滿足 AI 大模型的訓練需求。

  強大的大模型算力平臺不僅需要高效能的 CPU、GPU、儲存、網路等硬體裝置,還需要考慮不同硬體和軟體之間的相容性和版本選擇,確保驅動和工具的適配性和穩定性。當算力平臺的規模從十幾臺伺服器擴充套件到幾百臺,平臺部署難度會呈指數級上升。

  首先,算力平臺部署需要的相關驅動程式、軟體包往往高達數十個,正確安裝、部署並最佳化這些驅動程式與軟體,需要專業的運維工程師和大量除錯時間,嚴重影響部署效率。其次,為了確保算力平臺的高效能和穩定執行,需要驗證不同硬體環境下的軟體適配,最佳化 BIOS、作業系統、底層驅動、檔案系統和網路等多項指標,找到最優的選擇,這一工作同樣費時費力。此外,算力平臺的資源狀態處於時刻的變動中,如果不進行合理的資源排程與管理,很容易影響平臺的資源利用率。

  PODsys 讓大模型算力平臺部署“易如反掌”

  PODsys 專注於大模型算力平臺部署場景,提供包括基礎設施環境安裝、環境部署、使用者管理、系統監控和資源排程在內的完整工具鏈,旨在打造一個開源、高效、相容、易用的智算叢集系統方案。

  PODsys 整合了大模型算力平臺部署所需的數十個驅動、軟體等安裝包以及對應的依賴和相容關係,並提供了一系列的簡化部署的指令碼工具。使用這些工具只需要簡單 2 個步驟,PODsys 即可幫助使用者快速部署大模型算力平臺。

  步驟1:使用 docker run 命令快速啟動 PODsys 系統。

  PODsys 系統整合了大模型算力平臺部署所需的作業系統、GPU 驅動、網路卡驅動、通訊加速庫等數十個驅動程式、軟體和安裝包,並提供了一系列指令碼工具來簡化部署,讓使用者可以快速安裝、配置和更新叢集環境。PODsys 大量選用了業界廣泛使用的主流開源系統、工具、框架和軟體,來保障整個部署方案的開放性、相容性和穩定性。

  步驟2:使用 install_client 命令快速部署大模型算力平臺的並行軟體環境。

  PODsys 將單機部署方式改成叢集部署方式,可將部署效率提升 11 倍以上。在管理節點執行一句簡單的命令(install_client.sh),即可完成大模型算力平臺的環境配置,整合了高速檔案系統介面、自動化運維工具、NVDIA CUDA 程式設計框架、NCCL 高效能通訊庫,支援 NGC 加速平臺等功能。並能實現多使用者、多租戶管理叢集。

  PODsys 提供了全面的系統監控和管理,幫助使用者實時監控叢集的狀態和效能指標。透過視覺化的介面,使用者可以檢視叢集資源的使用情況、作業的執行情況和效能瓶頸,從而及時調整叢集配置和最佳化作業效能,來保證算力平臺的高效能和穩定執行。

  此外,PODsys 具備高效的資源排程和作業管理功能,可以根據使用者的需求自動排程和管理作業,確保叢集的資源利用率和作業的執行效率。

  伴隨著大模型的快速應用,算力平臺的魯棒性、易用性、部署效率成為使用者關注的首要問題。針對商業使用者,PODsys 還提供專業的算力平臺效能調優服務。

  總之,PODsys 提供了一套完整的工具鏈,將大模型平臺部署變得像系統安裝一樣簡單,讓使用者省時、省力地部署大模型算力平臺,助力大模型創新走好第一步。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965512/viewspace-2994914/,如需轉載,請註明出處,否則將追究法律責任。

相關文章