面向大模型訓練,騰訊雲釋出新一代高效能運算叢集

Yan發表於2023-04-16

國內效能最強的大模型計算叢集,來了! 4月14日,騰訊雲正式釋出面向大模型訓練的新一代HCC(High-Performance Computing Cluster)高效能運算叢集。該叢集採用最新一代騰訊雲星星海自研伺服器,搭載了NVIDIA H800 Tensor Core GPU,並提供業界目前最高的3.2T超高互聯頻寬。 實測結果顯示,騰訊雲新一代叢集的算力效能較前代提升高達3倍。 去年10月,騰訊完成首個萬億引數的AI大模型——混元NLP大模型訓練。在同等資料集下,將訓練時間由50天縮短到11天。如果基於新一代叢集,訓練時間將進一步縮短至4天。 

  大模型進入萬億引數時代,對算力的需求陡增。在單體伺服器計算能力有限的情況下,需要將上千臺伺服器相連,打造大規模、分散式的高效能運算叢集。騰訊雲新一代叢集透過對單機算力、網路架構和儲存效能進行協同最佳化,能夠為大模型訓練提供高效能、高頻寬、低延遲的智算能力支撐。 計算層面,伺服器的單機效能是叢集算力的基礎。在非稀疏規格情況下,新一代叢集單GPU卡支援輸出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。針對大模型訓練場景,騰訊雲星星海伺服器採用6U超高密度設計,相較行業可支援的上架密度提高30%;利用平行計算理念,透過CPU和GPU節點的一體化設計,將單點算力效能提升至最強。


  
網路層面,計算節點間存在海量的資料互動需求,隨著叢集規模擴大,通訊效能會直接影響訓練效率。騰訊自研的星脈網路,為新一代叢集帶來了業界最高的3.2T的超高通訊頻寬。節點內外統一的AllReduce通訊頻寬,實現網路和算力的最大協同。實測結果顯示,搭載同樣的GPU,最新的3.2T星脈網路相較1.6T網路,能讓叢集整體算力提升20%。


 

  
基於多軌道聚合的無阻塞網路架構、主動擁塞控制和定製加速通訊庫,騰訊雲能提供業界領先的叢集構建能力,支援單叢集高達十萬卡級別的組網規模。在超大叢集場景下,仍然能保持優秀的通訊開銷比和吞吐效能,滿足大模型訓練以及推理業務的橫向擴充套件。 同時,騰訊自研高效能集合通訊庫TCCL,基於星脈網路硬體平臺深度最佳化,在全域性路徑規劃、拓撲感知親和性排程、網路故障實時告警/自愈等方面融入了定製設計的解決方案。相對業界開源集合通訊庫,為大模型訓練最佳化40%負載效能,消除多個網路原因導致訓練中斷問題。 儲存層面,訓練場景下,幾千臺計算節點會同時讀取一批資料集,需要儘可能縮短資料集的載入時長。新一代叢集,引入了騰訊雲最新自研儲存架構,支援不同場景下對儲存的需求。 COS+GooseFS物件儲存方案,提供多層快取加速,大幅提升端到端的資料讀取效能;將公開資料集、訓練資料、模型結果統一儲存到物件儲存COS中,實現資料統一儲存和高效流轉。同時,GooseFS按需將熱資料快取到GPU記憶體和本地盤中,利用資料本地性提供高效能訪問。 

CFS Turbo高效能並行檔案儲存方案,採取多級快取加速,基於全分散式架構,提供100GB/s頻寬、1000萬IOPS的極致效能。並透過持久化客戶端快取技術,將裸金屬伺服器本地NVMe SSD和Turbo檔案系統構成統一名稱空間,實現微秒級延時,解決大模型場景大資料量、高頻寬、低延時的訴求。同時,透過智慧分層技術,自動對冷熱資料分層,節省80%的儲存成本,提供極致的價效比。

 

  

底層架構之上,針對大模型訓練場景,新一代叢集整合了騰訊雲自研的TACO Train訓練加速引擎,對網路協議、通訊策略、AI框架、模型編譯進行大量系統級最佳化,大幅節約訓練調優和算力成本。 騰訊混元大模型背後的訓練框架AngelPTM,也已透過騰訊雲對外提供服務,幫助企業加速大模型落地。目前,騰訊混元AI大模型已經覆蓋了自然語言處理、計算機視覺、多模態等基礎模型和眾多行業、領域模型。 在騰訊雲上,企業基於TI 平臺的大模型能力和工具箱,可結合產業場景資料進行精調訓練,提升生產效率,快速建立和部署 AI 應用。

此前,騰訊多款自研晶片已經量產。其中,用於AI推理的紫霄晶片、用於影片轉碼的滄海晶片已在騰訊內部交付使用,效能指標和綜合價效比顯著優於業界。其中,紫霄採用自研存算架構,增加片上記憶體容量並使用更先進的記憶體技術,消除訪存能力不足制約晶片效能的問題,同時內建整合騰訊自研加速模組,減少與CPU握手等待時間。目前,紫霄已經在騰訊頭部業務規模部署,提供高達3倍的計算加速效能,和超過45%的整體成本節省。 目前,騰訊雲的分散式雲原生排程總規模超過1.5億核,並提供16 EFLOPS(每秒1600億億次浮點運算)的智算算力。未來,新一代叢集不僅能服務於大模型訓練,還將在自動駕駛、科學計算、自然語言處理等場景中充分應用。 以新一代叢集為標誌,基於自研晶片、星星海自研伺服器和分散式雲作業系統遨馳,騰訊雲正透過軟硬一體的方式,打造面向AIGC的高效能智算網路,持續加速全社會雲上創新。

相關文章