AI主戰場,萬卡是標配:國產GPU萬卡萬P叢集來了!

机器之心發表於2024-07-04

Scaling Law 持續見效,讓算力就快跟不上大模型的膨脹速度了。「規模越大、算力越高、效果越好」成為行業圭皋。主流大模型從百億跨越到 1.8 萬億引數只用了1年,META、Google、微軟這些巨頭也從 2022 年起就在搭建 15000 卡以上的超大叢集。「萬卡已然成為 AI 主戰場的標配。」

圖片
然而在國內,全國產化的 GPU 萬卡叢集,則是屈指可數。有超大規模,同時還具備超強通用性的萬卡叢集,更是行業空白。

當國產 GPU 萬卡萬 P 叢集首次亮相時,自然就引發了行業廣泛關注。

7 月 3 日,摩爾執行緒在上海重磅宣佈其 AI 旗艦產品誇娥(KUAE)智算叢集解決方案實現重大升級,從當前的千卡級別大幅擴充套件至萬卡規模。摩爾執行緒誇娥(KUAE)萬卡智算叢集,以全功能 GPU 為底座,旨在打造國內領先的、能夠承載萬卡規模、具備萬 P 級浮點運算能力的國產通用加速計算平臺,專為萬億引數級別的複雜大模型訓練而設計。這一里程碑式的進展,樹立了國產 GPU 技術的新標杆,有助於實現國產智算叢集計算能力的全新跨越,將為我國人工智慧領域技術與應用創新、科研攻堅和產業升級提供堅實可靠的關鍵基礎設施。

此外,摩爾執行緒聯合中國行動通訊集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大資料科技有限公司(排名不分先後)分別就三個萬卡叢集專案進行了戰略簽約,多方聚力共同構建好用的國產 GPU 叢集。

圖片

摩爾執行緒創始人兼 CEO 張建中表示:“當前,我們正處在生成式人工智慧的黃金時代,技術交織催動智慧湧現,GPU 成為加速新技術浪潮來臨的創新引擎。摩爾執行緒矢志投身於這一歷史性的創造程序,致力於向全球提供加速計算的基礎設施和一站式解決方案,為融合人工智慧數字孿生的數智世界打造先進的加速計算平臺。誇娥萬卡智算叢集作為摩爾執行緒全棧 AI 戰略的一塊重要拼圖,可為各行各業數智化轉型提供澎湃算力,不僅有力彰顯了摩爾執行緒在技術創新和工程實踐上的實力,更將成為推動 AI 產業發展的新起點。”

圖片

AI 主戰場,萬卡通用算力是標配

大模型自問世以來,關於其未來的走向和發展趨勢亟待時間驗證,但從當前來看,幾種演進趨勢值得關注,使得其對算力的核心需求也愈發明晰。

首先,Scaling Law 將持續奏效。Scaling Law 自 2020 年提出以來,已揭示了大模型發展背後的 “暴力美學”,即透過算力、演算法、資料的深度融合與經驗積累,實現模型效能的飛躍,這也成為業界公認的將持續影響未來大模型的發展趨勢。Scaling Law 將持續奏效,需要單點規模夠大並且通用的算力才能快速跟上技術演進。

其次,Transformer 架構不能實現大一統,和其他架構會持續演進並共存,形成多元化的技術生態。生成式 AI 的進化並非僅依賴於規模的簡單膨脹,技術架構的革新同樣至關重要。Transformer 架構雖然是當前主流,但新興架構如 Mamba、RWKV 和 RetNet 等不斷重新整理計算效率,加快創新速度。隨著技術迭代與演進,Transformer 架構並不能實現大一統,從稠密到稀疏模型,再到多模態模型的融合,技術的進步都展現了對更高效能運算資源的渴望。

與此同時,AI、3D 和 HPC 跨技術與跨領域融合不斷加速,推動著空間智慧、物理 AI 和 AI 4Science、世界模型等領域的邊界擴充,使得大模型的訓練和應用環境更加複雜多元,市場對於能夠支援 AI+3D、AI + 物理模擬、AI + 科學計算等多元計算融合發展的通用加速計算平臺的需求日益迫切。

圖片

多元趨勢下,AI 模型訓練的主戰場,萬卡已是標配。隨著計算量不斷攀升,大模型訓練亟需超級工廠,即一個 “大且通用” 的加速計算平臺,以縮短訓練時間,實現模型能力的快速迭代。當前,國際科技巨頭都在透過積極部署千卡乃至超萬卡規模的計算叢集,以確保大模型產品的競爭力。隨著模型引數量從千億邁向萬億,模型能力更加泛化,大模型對底層算力的訴求進一步升級,萬卡甚至超萬卡叢集成為這一輪大模型競賽的入場券。

然而,構建萬卡叢集並非一萬張 GPU 卡的簡單堆疊,而是一項高度複雜的超級系統工程。它涉及到超大規模的組網互聯、高效率的叢集計算、長期穩定性和高可用性等諸多技術難題。這是難而正確的事情,摩爾執行緒希望能夠建設一個規模超萬卡、場景夠通用的加速計算平臺,並優先解決大模型訓練的難題。

圖片

誇娥:國產萬卡萬 P 萬億大模型訓練平臺

誇娥(KUAE)是摩爾執行緒智算中心全棧解決方案,是以全功能 GPU 為底座,軟硬一體化、完整的系統級算力解決方案,包括以誇娥計算叢集為核心的基礎設施、誇娥叢集管理平臺(KUAE Platform)以及誇娥大模型服務平臺(KUAE ModelStudio),旨在以一體化交付的方式解決大規模 GPU 算力的建設和運營管理問題。

圖片AI主戰場,萬卡是標配:國產GPU萬卡萬P叢集來了!

基於對 AI 算力需求的深刻洞察和前瞻性佈局,摩爾執行緒誇娥智算叢集可實現從千卡至萬卡叢集的無縫擴充套件,旨在滿足大模型時代對於算力 “規模夠大 + 計算通用 + 生態相容” 的核心需求,透過整合超大規模的 GPU 萬卡叢集、極致的計算效率最佳化以及高度穩定的執行環境,以萬卡智算叢集的新超級工程,重新定義國產叢集計算能力的新標準。

圖片

誇娥萬卡智算解決方案具備多個核心特性:

  • 超大算力,萬卡萬 P:在叢集計算效能方面,全新一代誇娥智算叢集實現單叢集規模超萬卡,浮點運算能力達到 10Exa-Flops,大幅提升單叢集計算效能,能夠為萬億引數級別大模型訓練提供堅實算力基礎。同時,在 GPU 視訊記憶體和傳輸頻寬方面,誇娥萬卡叢集達到 PB 級的超大視訊記憶體總容量、每秒 PB 級的超高速卡間互聯總頻寬和每秒 PB 級超高速節點互聯總頻寬,實現算力、視訊記憶體和頻寬的系統性協同最佳化,全面提升叢集計算效能。

圖片

  • 超高穩定,月級長穩訓練:穩定性是衡量超萬卡叢集效能的關鍵。在叢集穩定性方面,摩爾執行緒誇娥萬卡叢集平均無故障執行時間超過 15 天,最長可實現大模型穩定訓練 30 天以上,周均訓練有效率目標最高可達 99% 以上,遠超行業平均水平。這得益於摩爾執行緒自主研發的一系列可預測、可診斷的多級可靠機制,包括:軟硬體故障的自動定位與診斷預測實現分鐘級的故障定位,Checkpoint 多級儲存機制實現記憶體秒級儲存和訓練任務分鐘級恢復以及高容錯高效能的萬卡叢集管理平臺實現秒級納管分配與作業排程

圖片

  • 極致最佳化,超高 MFU:MFU 是評估大模型訓練效率的通用指標,可以直接反應端到端的叢集訓練效率。誇娥萬卡叢集在系統軟體、框架、演算法等層面一系列最佳化,有效計算效率(MFU)目標最高達 60%,可達到國際水平。其中,在系統軟體層面,基於極致的計算和通訊效率最佳化等技術手段,大幅提升叢集的執行效率和效能表現。在框架和演算法層面,誇娥萬卡叢集支援多種自適應混合並行策略與高效視訊記憶體最佳化等,可以根據應用負載選擇並自動配置最優的並行策略,大幅提升訓練效率和視訊記憶體利用。同時,針對超長序列大模型,誇娥萬卡叢集透過 CP 並行、RingAttention 等最佳化技術,有效縮減計算時間和視訊記憶體佔用,大幅提升叢集訓練效率。

圖片

  • 全能通用,生態友好:誇娥萬卡叢集是一個通用加速計算平臺,計算能力為通用場景設計,可加速 LLM、MoE、多模態、Mamba 等不同架構、不同模態的大模型。同時,基於高效易用的 MUSA 程式語言、完整相容 CUDA 能力和自動化遷移工具 Musify,加速新模型 “Day0” 級遷移,實現生態適配 “Instant On”,助力客戶業務快速上線。

圖片

圖片

萬眾一芯,共建大模型應用生態

萬卡叢集的建設需要產業界的齊心協力,為實現大模型創新應用的快速落地,讓國產算力 “為用而建”。釋出會現場,摩爾執行緒攜手中國行動通訊集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大資料科技有限公司(排名不分先後),分別就青海零碳產業園萬卡叢集專案、青海高原誇娥萬卡叢集專案、廣西東盟萬卡叢集專案進行了戰略簽約。

藉助摩爾執行緒先進的誇娥全棧智算解決方案,各方將攜手共建強大的全國產智算平臺,以加速產業數字化轉型和高質量發展。誇娥萬卡智算叢集專案標誌著國產 AI 算力基礎設施的又一重大進展,將為各地的數字經濟發展注入新活力。

圖片

摩爾執行緒與中國行動通訊集團青海有限公司戰略簽約

圖片

摩爾執行緒與中國聯通青海公司、北京德道信科集團戰略簽約

圖片

摩爾執行緒與中國能源建設股份有限公司總承包公司、桂林華崛大資料科技有限公司戰略簽約

釋出會後,無問芯穹、清程極智、360、京東雲、智平方等五家合作伙伴代表紛紛登臺,分享了摩爾執行緒誇娥智算叢集如何助力其在大模型訓練、大模型推理、具身智慧等不同場景和領域的創新,展現了誇娥智算叢集在實際應用中的巨大潛力與廣泛適用性。

圖片

摩爾執行緒願與廣大行業夥伴並肩同行,發揮全棧 AI 的力量,加速推動一個由萬卡智算叢集為強大底座,多領域夥伴共建、廣泛賦能數字經濟的國產智算生態,共同開啟一個屬於大模型與生成式人工智慧的新時代,為美好世界加速。在 WAIC 期間,摩爾執行緒將在上海世博展覽館(H2 館 D616)開展 “全棧 AI 為美好世界加速” 的主題成果展示,包括加速卡、伺服器、超融合一體機和 AIGC 應用在內的摩爾執行緒全棧 AI 產品悉數亮相,並攜手眾多行業合作伙伴聯合展示基於誇娥智算叢集的豐富行業大模型與應用方案。

相關文章