打破生態孤島,國產異構原生AI算力工具問世,來自中科加禾

机器之心發表於2024-07-22
「透過系統最佳化軟體的幫助,開發的門檻會被降低,各種不同硬體會得到統一,讓技術生態得到發展。這對於當前智慧生態的進步有重要的意義,」中國工程院院士、中科院計算所學術委員會主任、CCF 理事長孫凝暉在釋出會上致辭表示。「除了智慧晶片、AI 行業應用以外,我們需要系統軟體最佳化的一方參與進來共同努力,這樣才能把國內生態做得更好。」

圖片

孫凝暉院士在釋出會上

面對算力「卡脖子」問題,我們終於迎來了系統級的解決方案。

7 月 20 日,AI 基礎設施創業公司中科加禾正式釋出了第一代異構原生 AI 算力工具。

面向當前國產算力大規模落地的趨勢,中科加禾提出的方法可以讓不同種類的晶片大規模並行,同時發揮最大效率,並讓算力的使用者無需關注不同晶片生態,做到直接拿來就用。

中科加禾創始人兼 CEO 崔慧敏釋出並介紹,「加禾異構原生 AI 算力工具」已經在國產算力的 AI 基礎設施上發揮一定作用。它相容多種國產 AI 晶片,為遮蔽晶片差異提供了高效能的統一介面。在異構原生平臺的基礎上,AI 算力叢集在大模型推理上的時延可以降低 3-74 倍,吞吐率提升 1.4-2.1 倍,能效比提升 1.46 倍,可支援 340B 引數量的稠密大模型,以及 640B 的 MoE 大模型

與此同時,中科加禾已實現對超過 10 家包括晶片、整合商、服務商等客戶提供高效能推理支援,其架構支援國內外主流大模型,並可以進行多樣化並行推理。

釋出會現場宣佈簽約及達成合作的算力提供、應用方夥伴包括:AMD、寶德、華為、杭州人工智慧計算中心、開放傳神、摩爾執行緒、青雲科技、Rise VAST、燧原科技、無問芯穹、雲西算力、新華三等(按拼音首字母順序排序)。

圖片

中科加禾創始人、CEO 崔慧敏在釋出會上

異構原生 AI 算力,目標實現「三零一高」

中科加禾提出的方案,目標是讓 AI 大模型應用在不同晶片上實現零成本遷移,零損耗使用,零延遲部署的高效使用

這套軟體工具包含異構原生大模型推理引擎「SigInfer」、異構原生微調引擎「SigFT」以及運算元自動生成、轉譯工具「SigTrans」三款產品。

其中,昨天釋出的 SigInfer 是一款跨平臺、高效能的異構原生推理引擎,不但支援伺服器級的 AI 加速卡,還支援消費級 GPU。因此,它既可以部署於資料中心,也可以為各種端側裝置實現加速。

圖片

作為異構計算的技術底座,透過 SigInfer 接入的不同 AI 算力,可以做到呼叫介面統一,平滑遷移業務應用。SigInfer 會在呼叫多種不同算力的同時進行多層次深度最佳化,充分挖掘晶片算力的潛能。

它具備現代大模型推理引擎所具備的各種特徵,如支援 API Serving、請求排程、Batch 管理、KV Cache 最佳化、張量並行、流水線並行、專家並行、甚至多機流水並行等能力。

中科加禾表示,SigInfer 已經支援了業界大部分的大模型結構。

圖片

目前,SigInfer 已經可以實現完備的推理引擎能力。其支援的異構加速卡叢集可以靈活排程英偉達 AI 加速卡 + 國產 AI 加速卡進行混合推理,最高可擴充套件至萬億級的大模型。

使用 SigInfer 幫助 AI 晶片部署可以在業務訪問需求提升時,讓大模型服務保持較高的吞吐率和較低的時延,對於生成式 AI 的大規模應用來說,這些指標至關重要。

在同樣使用英偉達顯示卡的情況下,我們可以看到 SigInfer 能提供較明顯的加速效果:

圖片

再進一步,使用國產晶片完成同類任務時,SigInfer 可以同樣提升平行計算時 AI 加速卡的吞吐率,同時大幅降低輸出 Token 的延遲。

異構原生 AI 算力工具可以根據大模型任務處理的不同階段、運算元特徵、最佳化目標自適應最佳化等方式調整 AI 加速器的計算頻率,從而實現高效率。中科加禾給我們算了一筆賬,資料中心運營的過程中,使用 A800 加 SigInfer,相比 vllm 能效比可以提升 46%。

除了對雲基礎設施實施最佳化以外,中科加禾還展示了對於端側推理的效能最佳化。SigInfer 可以加速基於英特爾、高通、AMD 等大廠的晶片裝置,相比業界主流部署方案,SigInfer 在端側推理的效率最高可以提升 5 倍。

在異構計算和效率提升的背後,是一系列前沿技術和工程的應用與最佳化。

為了提升平行計算的效率,中科加禾引入了一系列最佳化。例如深入解碼階段的訪存最佳化,讓 KV Cache 可以得到暫存器級別的複用,相比從 L2 載入,延遲和頻寬都得到了最佳化。

同時,為了緩解並行度的減少,中科加禾的研究人員在資料的 sequence 維度上也進行了並行劃分。結合 KV Cache 的複用最佳化,既節約了訪存,又增加了並行度,讓整個注意力機制的核心計算提高了執行效率。

中科加禾也探索了異構算力的高效能運算元生成方法。透過與算力廠商合作,中科加禾把 cutlass 遷移到了國產晶片架構上,大幅提升了矩陣乘法的執行效率。在這其中,該公司透過結合編譯技術的最佳化實現了超過 20% 的效能提升。

在一系列技術的加持下,加禾異構原生 AI 算力工具實現了卓越的能效最佳化。

從編譯技術出發:中科加禾的技術路線

與以往一些 AI 算力基礎設施公司提供的能力不同,中科加禾提供的異構計算與加速,是圍繞編譯技術展開

對於計算機而言,編譯層所做的工作是「翻譯」,它負責把人類編寫的高階程式語言內容轉化成機器理解並能執行的語言。

圖片

在這個過程中,編譯還需要進行最佳化,即提高生成出來的機器程式碼的執行效率。對於晶片效能而言,編譯發揮作用的範圍很大,但時常被人忽略。

在目前業內最流行的英偉達晶片上,CUDA 計算平臺發揮了重要作用。它包含程式語言、編譯器、各種高效能加速庫及 AI 框架,可以在計算機執行任務時充當分配者的角色,充分利用不同硬體的算力資源,讓複雜的程式碼模型跑得更快。可以說如今的 AI 生態,很大程度上就是建立在 CUDA 之上的。

對於國產算力而言,為了實現大規模應用,就需要構建其需要的生態和能力。

圖片

在生成式 AI 時代,人們對於算力的需求推動了晶片技術的發展,然而新的挑戰也已顯現:

  • 從晶片公司的角度來看,生態也呈現多元碎片化發展,這會帶來開發成本增加以及落地效率和相容性等問題。

  • 從行業發展的角度來看,AI 技術正快速發展,其覆蓋越來越多的場景,意味著更多種類的算力將會參與其中,這就進一步推動了異構計算的需求。

因此,業界迫切需要一套能夠支援多種國產晶片的高效工具鏈。如果能夠出現一套通用化、低成本、高效能的基礎軟體,並可以幫助生態夥伴快速移植基於英偉達生態開發的應用程式,就可以充分發揮出國產晶片的潛力,帶動技術研發的步伐,從而逐步構建立起 AI 算力生態的正迴圈。

這就是中科加禾一直在做的事。

中科加禾提供的基礎軟體平臺層,定位於運算元、編譯、框架層幾個位置,在硬體和軟體之間架設了一座橋樑。其提供的異構原生 AI 算力工具可以幫助使用者平穩遷移 AI 模型和晶片架構,這就給 AI 應用帶來了極大的便利性。

圖片

這些層面的能力都涉及了編譯技術。AI 編譯覆蓋的範圍既包含圖層,也包含運算元層,相對傳統編譯器在語義轉換上的跨度更大。例如,AI 編譯器一般要考慮計算圖劃分、子圖融合、平行計算、資料分塊等。這些都是較難解決的問題。

在這方面,中科加禾完成了大量研究,如在 Tensor 表示式層級做全域性資料流分析,構建精確的計算圖和資料依賴圖,進而打破運算元邊界進行運算元融合,取得了很好的效果。在一些網路上,其方法取得了相對於業界先進水平多達 3.7 倍的加速比。相關工作成果發表在今年的計算機領域頂級會議上。

構建端到端的算力使能解決方案,助力繁榮國產 AI 生態

中科加禾成立於 2023 年 7 月,團隊主要來自於中科院計算所。創始人崔慧敏畢業於清華大學計算機系,是中科院計算所編譯團隊負責人。該公司的核心團隊具備超過 20 年的編譯器研發經驗,曾作為核心成員主持或參與過多款國產晶片的編譯器研發工作。

自成立以來,該公司聚焦於晶片編譯與最佳化技術,致力於提供通用化、低成本、高效能的算力資源,以「聚晶片之合力,築國產之生態」為使命。目前,中科加禾已收穫了多輪共計近億元融資。

圖片

中科加禾正在圍繞三條路線打造系列產品,包括支援異構算力的 AI 大模型推理引擎、大模型微調框架、以及 AI 編譯工具套件。它們既可以幫助算力使用方快速使用多元化的 AI 算力,也可以幫助算力供應方完善軟體生態以及提升競爭力,補齊了國產 AI 算力生態的一塊重要拼圖。

圖片

更重要的是,中科加禾希望能成為一個「溝通」的橋樑,連線數量龐大的算力使用方和算力提供方,使雙方能愉快的雙向奔赴,從而推動異構原生 AI 算力的大規模應用和國產 AI 生態的蓬勃發展貢獻力量。

相關文章