全球首個支援單任務千卡規模異構晶片混合訓練平臺,來自無問芯穹

机器之心發表於2024-07-06

“開啟水龍頭前,我們不需要知道水是從哪條河裡來的。同理,未來我們用各種 AI 應用時,也不會知道它呼叫了哪些基座模型,用到了哪種加速卡的算力——這就是最好的 AI Native 基礎設施。”

圖片

7月4日,在2024年世界人工智慧大會AI基礎設施論壇上,無問芯穹聯合創始人兼CEO夏立雪釋出了無問芯穹大規模模型的異構分散式混合訓練系統,千卡異構混合訓練叢集算力利用率最高達到了97.6%

同時,夏立雪宣佈無問芯穹Infini-AI雲平臺已整合大模型異構千卡混訓能力,是全球首個可進行單任務千卡規模異構晶片混合訓練的平臺,具備萬卡擴充套件性,支援包括AMD、華為昇騰、天數智芯、沐曦、摩爾執行緒、NVIDIA六種異構晶片在內的大模型混合訓練。7月起,透過試訓申請的使用者,已可在Infini-AI上一鍵發起700億引數規模的大模型訓練。
圖片
就在4個月前,無問芯穹Infini-AI大模型開發與服務雲平臺宣佈首次公測,已有智譜AI、月之暗面、生數科技等大模型公司客戶在Infini-AI上穩定使用異構算力,還有20餘家AI Native應用創業公司在Infini-AI上持續呼叫各種預置模型API,使用無問芯穹提供的工具鏈開發自身業務模型。

夏立雪回顧,“上次我們證明了10多種異構晶片在Infini-AI上可被用於大模型推理,這次我們則是證明了異構算力在Infini-AI上可以被用來做大模型訓練。”

打破生態豎井,讓異構晶片轉化為大算力

訓練和推理是大模型生命週期中不可或缺的兩個階段,都需要強大的算力資源來支撐。然而,相比國際上模型層與晶片層呈現的相對集中的格局,中國的模型層與晶片層表現得“百花齊放”,尤其是在晶片層。

圖片

這些異構的晶片之間,存在著一種“生態豎井”,即,硬體生態系統封閉且互不相容。用了A卡的開發者,無法輕易遷移至B卡上展開工作,也難以同時使用A卡和B卡完成大模型訓練或推理。

這導致,如果一個算力叢集中存在兩種或以上的晶片,算力使用方會面臨一系列技術挑戰,比如不同硬體平臺適配不同的軟體棧和工具鏈,而某些任務更容易在特定型別的晶片上執行,開發者若要在異構晶片上從事生產,就需要為每種晶片定製和最佳化程式碼,這大大增加了開發和維護的複雜性。
圖片
據不完全統計,宣佈擁有千卡規模的中國算力叢集已不少於100個,出於諸多緣由,比如過度依賴單一硬體平臺可能會使企業面臨供應鏈風險,又比如國產晶片的效能快速提升為叢集方提供了多種選擇,絕大部分叢集已經或正在從同構轉向異構

多種算力晶片被投入各地叢集從事AI生產,但“生態豎井”的存在,讓“多晶片”並不等於“大算力”,大多數企業和開發者望而卻步。

圖片

要有效利用這些算力,既需要多元異構晶片納管和排程的能力,能靈活按需使用到算力資源,還需要在異構算力與演算法框架之間架設一箇中間層,統一使用者程式設計框架到算力呼叫的介面,遮蔽硬體細節。同時中間層的設計能相容現有使用者的程式設計習慣,並支援對未來的擴充套件。

構建適應多模型與多晶片格局的AI Native基礎設施,無問芯穹的底層解法是,提供高效整合異構算力資源的好用算力平臺,以及支援軟硬體聯合最佳化與加速的中介軟體,讓異構晶片真正轉化為大算力

從推理到訓練,讓開發者用上異構算力

為回應AI Native應用開發者的算力與工具需求,無問芯穹的Infini-AI雲平臺應運而生。Infini-AI雲平臺共由三部分構成,分別是異構雲管平臺、一站式AI平臺(平臺即服務,Platform as a Service)和大模型服務平臺(模型即服務,Model as a Service)。

圖片

異構雲管平臺提供算力資源的異構納管、運維和監控能力,提供的豐富的算力運營體系。一站式AI平臺是訓練系統、中間層框架的產品化體現,以工具鏈的形式為使用者提供便捷好用的算力使用介面。在算力排程層面,已建設起匹配10000卡規模的異構叢集排程系統,支援10餘種晶片型別,叢集資源利用率平均可達90%。

圖片

大模型服務平臺(模型即服務,Model as a Service),是以異構推理加速為基礎,為應用開發者提供的模型平臺,不僅提供資料處理、微調、推理等快速便捷的模型呼叫API,還會整合模型與應用結合的最佳實踐,提供專家支援與經驗的工具化沉澱,降低模型到應用的門檻。已整合無問芯穹的serving最佳化技術能力,當併發量很高,多個使用者同時傳送請求時,可實現30倍以上的Token吞吐率提升。

圖片

截止本次釋出時間,Infini-AI已支援了Qwen2、GLM4、Llama3、Gemma、Yi、Baichuan2、ChatGLM3系列等共30多個模型,以及AMD、華為昇騰、壁仞、寒武紀、燧原、海光、天數智芯、沐曦、摩爾執行緒、NVIDIA等10餘種計算卡。其中,華為昇騰、海光為新增晶片品牌

圖片

夏立雪回顧,“此前我們證明了10多種異構晶片在Infini-AI上可被用於大模型推理,這次我們則證明了異構算力在Infini-AI上可以被用來做大模型訓練。”最重要的是,Infini-AI支援多種模型與多種晶片間的自由搭配組合。

值得一提的是,今年世界人工智慧大會首日,無問芯穹基於多種模型與多種晶片自由搭配組合的產品能力構建的遊戲應用“誰是臥底”小遊戲意外受到了現場觀眾的喜愛。這一應用允許觀眾透過選取多種模型與晶片,自由組合出4位“AI玩家”,與自己親手“組裝”出來“AI玩家”們展開一場語言博弈遊戲。
圖片
“有的模型不論配什麼晶片,‘人設’都很穩定。有的模型換一個引數或換一種晶片搭配,就會表現出另一種行為模式。”無問芯穹的工作人員介紹,有現場觀眾為了探索這些組合背後的規律,把這款小遊戲翻來覆去玩了半個小時。

“在Infini-AI上部署AI 應用的時候,就像在淘寶上購物時選擇不同的尺寸、不同的顏色一樣,可以把模型和晶片組合成一個套餐來使用。”夏立雪曾介紹,在Infini-AI上,想要什麼樣的模型與晶片組合,取決於開發者自己的選擇,且使用時不會感受到底層硬體差異

無問芯穹所構建的技術產品,打破了單一晶片品牌訓練資源瓶頸,整合並擴大了市面上可用的算力範圍。為AI開發者遮蔽了底層異構晶片的數量與效能差異,打通了多種模型到多種晶片間的高效訓練與推理。並且,能讓開發者們能夠有效利用各類算力資源,擺脫算力不足焦慮,專注於AI應用創新。

千卡異構混訓叢集算力利用率行業領先

這一系列研、產進展背後,是無問芯穹研發團隊在異構晶片計算最佳化與叢集系統設計上的強大實力支撐。

近日,無問芯穹與清華、上交的聯合研究團隊釋出了HETHUB,這是一個用於大規模模型的異構分散式混合訓練系統,這是業內首次實現六種不同品牌晶片間的交叉混合訓練,且工程化完成度高。已將高效的互聯互通、精密的分散式並行策略,如張量並行、資料並行、通訊overlap等封裝入Infini-AI的訓練產品中向開發者提供服務。

圖片

異構晶片間的混訓主要面臨兩大挑戰,一是異構卡通訊庫差異,導致異構卡之間通訊難,二是異構卡之間效能差異,導致模型分散式訓練低效。

為此,無問芯穹建立了一個通用集合通訊庫,實現不同晶片的高效通訊;然後提出了一種基於流水線並行的非均勻拆分方案,以解決不同種晶片負載均衡的問題;最後提出了一個自研的混訓效能預測工具,用於判斷最優的非均勻拆分策略,指導千卡異構叢集訓練。從實際千卡混合訓練效果可見,無問芯穹千卡異構混合訓練叢集算力利用率最高達到了97.6%。
圖片
“後續,無問芯穹的技術團隊會針對這項技術展開解讀。”(技術解讀賬號:無問芯穹TechView)夏立雪介紹,這項技術工程化的初衷,是希望能夠透過整合更多異構算力,繼續推高大模型技術能力的上限,同時透過打通異構晶片生態,持續降低大模型應用落地成本。

圖片

有觀點認為,GPT-4之後,大模型能力的增長接近停滯,而當大模型能力見頂,AI Native應用才會更容易爆發。“技術上限推高與技術落地擴散不矛盾,且取決於我們決心如何對待這個技術。”

夏立雪表示,今天說讓大模型成本下降10000倍,就像30年前說讓家家戶戶都通電一樣。優良的基礎設施就是這樣一種“魔法”,當邊際成本下降到臨界值,就能有更多的人擁抱新技術

相關文章