全球掀起AI熱,天翼雲智算能力已就緒!

天翼雲開發者社群發表於2023-03-16

隨著超大規模人工智慧模型和海量資料的爆發,人工智慧對算力的需求也隨之不斷走高。根據 IDC釋出的《2022-2023中國人工智慧計算力發展評估報告》顯示,中國人工智慧計算力保持快速增長,2022年智慧算力規模達到268百億億次/秒(EFLOPS),超過通用算力規模。

 

 

作為雲服務國家隊,天翼雲積極推進算力普惠發展,已形成 “2+4+31+X” 資源佈局,構建了 “集中化+區域化+屬地化+邊緣化” 的雲網基礎設施,為人工智慧夯實 “算力底座”,助力AI快速完成資料訓練,提高計算與模擬的精準性。

 

為了適應市場智慧算力的快速增長,天翼雲聚焦人工智慧場景創新,推出天翼雲智算平臺,以普惠智慧算力為基礎,支援大模型訓練、智慧推薦、無人駕駛、生命科學、 NLP等業務場景。

 

天翼雲智算平臺依託天翼雲分散式架構的雲底座和海量的計算、儲存、網路資源,具有高效能、高彈性、高速互聯、高價效比等特性,能夠滿足企業不斷增長的高效能算力使用需求。

 

日前,天翼雲智算平臺透過中國資訊通訊研究院《可信算力服務 平臺技術能力要求 3部分:智算平臺》評估,成為業內首批透過該項評估的雲服務商。

 

 

具體來看,天翼雲智算平臺主要有以下四個方面的差異化優勢:

 

01  高效能底座支撐能力

天翼雲智算平臺基於天翼雲 TeleCloudOS4.0雲網底座,覆蓋全場景算力需求;打造國產化能力體系,適配國產主流GPU晶片以及各種國產伺服器,適配自研雲伺服器作業系統CTyunOS;整合彈性計算、分散式儲存、雲網路三大基礎核心技術,軟硬協同硬體加速,提供全量IaaS產品服務。

 

02  GPU虛擬化能力

天翼雲智算平臺支援主流 Mediated Passthrough(vGPU)、直通透傳等虛擬化技術;支援軟硬體層面的容器虛擬化技術,軟體方面支援API劫持及其他算力和視訊記憶體靈活分配能力,硬體方面支援MIG、vNPU等特性,從物理資源層面分配單卡資源。

 

03  高效的排程能力

資源排程方面,天翼雲智算平臺實現對 GPU、NPU、CPU等異構算力資源的混合排程,訓練、推理任務統一排程,實現了異構算力和異構任務的統一排程;任務排程方面,提供基於任務優先順序、任務SLA、資源獨佔式排程、共享式排程、搶佔式排程,靈活支援各類差異化的使用者需求。

 

04  分散式訓練能力

天翼雲智算平臺提供分散式訓練一站式解決方案,融合 GPU拓撲感知、親和排程、高IO並行檔案系統等底層技術,支援多種模型訓練方式,相容主流AI框架,擴充套件定製業界主流分散式訓練方案,提升訓練資料量,縮短模型交付週期;提供定製化演算法框架,採用程式碼生成等方式,內建提供豐富的運算元,簡化資料集匯入、特徵工程處理、預訓練模型依賴等步驟,提升AI訓練開發效率;針對大模型分散式環境下的訓練,視訊記憶體最佳化方面使用ZeRo等技術,打破視訊記憶體與記憶體的隔閡,降低訓練的視訊記憶體開銷。

 

隨著國內新一波人工智慧浪潮襲來以及 AI規模化落地應用,具備“更高、更快、更強”能力的智慧計算基礎設施平臺被人工智慧行業所青睞。天翼雲智算平臺適用於 城市治理、 AI質檢、搜尋推薦、自動駕駛、金融、科學研究 等領域,可提供人工智慧應用所需算力服務、資料服務和演算法服務,透過算力的生產、聚合、排程和釋放,促進 AI產業聚集發展。

 

 

 

天翼雲智算平臺不僅提供算力,還對雲能力做 “元件化”封裝進行輸出,能迅速支撐業務上線,提升技術創新能力,加速科技研發程式。此外,智算平臺的推廣與應用將產生聯動效應,帶動通訊服務網路、大資料、人工智慧等技術快速迭代,有助於我國科技創新提速。

 

在人工智慧按下 “快進鍵”的背景下,天翼雲不斷完善智算基礎設施,打造創新性的產品,深度賦能人工智慧領域企業跑出“加速度”,並透過多點發力佈局走在智算領域的前列,AI應用也將在科技創新的助力下進一步加速“走深向實”,全面推動AI產業高質量發展。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014251/viewspace-2940048/,如需轉載,請註明出處,否則將追究法律責任。

相關文章