NVIDIA大模型平臺軟體全家桶開啟雲智慧第二曲線

雲科技時代發表於2023-11-07

第二曲線由英國管理思想大師查爾斯·漢迪提出,講的是在企業第一曲線達到頂峰時候,找到驅動企業二次騰飛的第二曲線。而如果企業想實現基業長青,就需要透過主動式破局式創新,跨越到第二曲線中。對於當下的雲智慧產業以及基於雲智慧進行數字化轉型的廣大企業來說,LLM大模型和生成式AI就是開啟第二曲線的機遇。

在AI加速計算領域,NVIDIA是市場領導者。早在2019年,NVIDIA就推出了Megatron-LM大語言模型加速軟體框架以及一系列創新軟體,與NVIDIA已有的人工智慧軟體一起,為破局第二曲線創新做好了準備。

在2023年11月初由阿里雲舉辦的2023雲棲大會上,面向LLM的NVIDIA AI軟體“全家桶”吸引了大量開發者。PAI-Megatron-Patch、PAI-ChatLearn等NVIDIA與阿里雲合作的大模型平臺軟體成果亮相,NVIDIA與螞蟻集團、阿里雲醫療與金融行業等合作的案例集中展示,充分顯示了NVIDIA的軟實力。

作為端到端的資料中心級全棧AI和加速計算解決方案創新者,NVIDIA與阿里雲一起開創生成式AI新時代,為雲智慧產業和企業數字化轉型全面開啟第二曲線新機遇。

大模型PaaS平臺的軟底座

對於開發者和企業使用者來說,如果想要儘快享受大模型的紅利,第一選擇就是由公有云服務商提供的自有大模型,以及託管了開源大模型的PaaS(又稱為Model as a Service,MaaS)供開發者和企業選用。

例如阿里雲既推出了自研通用大模型通義,也推出了MaaS平臺靈積,託管了通義千問、Stable Diffusion、ChatGLM-v2、百川、姜子牙等開源大模型,而在阿里雲大模型底層的是靈駿智算叢集,可支援十萬卡GPU規模、承載多個萬億引數大模型同時線上訓練,此外阿里雲人工智慧平臺PAI提供AI開發全流程的工程能力。

一方面,很多公有云的自有大模型和MaaS的底層,都採用了NVIDIA大模型軟體技術;另一方面,除了公有云的自有大模型和MaaS外,還有一個通用大模型訓練框架可選擇,這就是由NVIDIA提供的Megatron-LM大模型分散式訓練框架,該框架是由NVIDIA開發的一個開源的大模型加速訓練框架,透過平行計算等最佳化方法可極大縮短大模型的訓練時間。

2023年9月,阿里雲人工智慧平臺PAI開源了業內較早投入業務應用的大模型訓練一站式工具箱Pai-Megatron-Patch,該工具箱基於阿里雲上的Megatron-LM實踐並補充了豐富的工具。2023雲棲大會期間,阿里雲和NVIDIA對Pai-Megatron-Patch進行了詳細的技術介紹,該工具箱可快速幫助使用者上手各種Megatron-LM大模型訓練加速技術,以及基於Megatron-LM和阿里雲靈駿叢集,加速上手更多的HuggingFace開源大模型。

Pai-Megatron-Patch的設計理念是不對Megatron-LM原始碼進行侵入式修改,即不向Megatron-LM新增新的功能特性,而將需要擴充完善的部分以patch補丁的方式呈現,從而讓Megatron-LM的升級不影響到使用者LLM實踐體驗。Pai-Megatron-Patch具有多種特色:支援Llama v1/v2、Code Llama、Baichuan v1/v2、通義千問、Falcon、GLM、StarCoder、BLOOM、ChatGLM等多款熱門大模型;提供了HuggingFace模型權重和Megatron模型權重之間的雙向轉換;支援Flash Attention 2.0和Transformer Engine模式下的FP8訓練加速且確保收斂;支援大模型預訓練、微調、評估和推理,以及強化學習全流程實踐;提供了大模型漢化工具以及阿里雲靈駿平臺實踐等等。

PAI-ChatLearn是阿里雲人工智慧平臺 PAI (Platform of AI) 團隊自主研發,靈活易用、大規模模型 RLHF 高效訓練框架。PAI-ChatLearn支援大模型進行 SFT(有監督指令微調)、RM(獎勵模型)、RLHF(基於人類反饋的強化學習)完整訓練流程。PAI-ChatLearn採用了多種平行計算技術,突破了已有框架只適用單模型訓練/推理的侷限,支援更大規模(例如175B + 175B)模型的RLHF訓練,特別是支援混合框架訓練/推理,例如訓練採用Magnetron、推理採用vLLM等。

Pai-Megatron-Patch和PAI-ChatLearn的意義在於積累了阿里雲大模型實踐,基於NVIDIA Megatron-LM加速框架,能夠最大化NVIDIA軟體人才的複用率,同時還能減輕企業數字化轉型的技術負擔,只需要熟悉Megatron-LM框架即可在阿里雲上進行大模型的選型、訓練和部署應用及推理等全流程。

在Pai-Megatron-Patch和PAI-ChatLearn的示範下,相信將有更多的公有云將提供基於Megatron-LM的通用大模型PaaS,加速開啟雲智慧第二曲線。

大模型平臺軟體“全家桶”

生成式AI應用的普及將帶來大模型的多雲與混合雲部署,而這就需要跨多雲與混合雲的通用大模型平臺軟體。在2023雲棲大會上,NVIDIA介紹了NeMo、TensorRT、TensorRT-LLM、Triton推理伺服器、Megatron、Megatron Core等大模型平臺軟體和框架“全家桶”,能夠極大加速大模型的訓練、微調和推理部署等全鏈條,縮短大模型和生成式AI應用的研發週期、降低成本。

NVIDIA在幾年前就推出了NVIDIA NGC (NVIDIA GPU Cloud),這是一款訓練深度學習模型時需要的工具資源的集合,它提供了眾多Docker容器允許使用者在容器內直接使用GPU,無需安裝GPU驅動和CUDA庫,從而可以更好地利用GPU資源執行深度學習。NVIDIA在Docker容器的基礎上,提供了PyTorch、TensorFlow等所有的主流深度學習框架。

NVIDIA NeMo是一個用於構建先進的對話式AI模型的框架,內建整合了自動語音識別(ASR)、自然語言處理(NLP)和語音合成(TTS)的模型及訓練方案。作為一個端到端內建整合了自動語音識別的生產級別開源框架,使用者可以基於NVIDIA NeMo直接開發對話式AI應用。NVIDIA NeMo既可以容器化部署,也可直接在裸金屬伺服器上使用,從而支援多雲和混合雲環境。

NVIDIA在NeMo的基礎上推出了NeMo framework,這是一個端到端的容器化分散式框架,包含了資料處理、訓練及最佳化部署,它允許開發人員高效地訓練和部署具有數十億和數萬億引數的大語言模型。採用NeMo framework,開發者可以進行大模型的訓練,訓練的模型可匯出到TensorRT-LLM並在 NVIDIA Triton 推理伺服器進行部署,從而在多個 GPU 和多個節點上執行大語言模型。

而Triton 推理伺服器是NVIDIA釋出的一款開源軟體,可簡化深度學習模型在生產環境中的部署。Triton支援所有 NVIDIA GPU、x86和ARM架構CPU以及AWS Inferentia,支援所有的主流雲平臺、本地AI平臺以及MLOps平臺。

TensorRT是NVIDIA提供的一款高效能深度學習推理SDK,該SDK包含深度學習推理最佳化器和執行環境,可為深度學習推理應用提供低延遲和高吞吐量,可用於超大規模資料中心、嵌入式平臺或自動駕駛平臺進行推理。

最新發布的 TensorRT-LLM,專門用於編譯和最佳化大語言模型推理,可在NVIDIA GPU上加速和最佳化大語言模型的推理效能,該開源程式庫現已作為 NVIDIA NeMo 框架的一部分,在GitHub資源庫中免費提供。TensorRT-LLM包含了TensorRT,並採用了最新的最佳化核心,可在GPU上實現突破性的大語言模型推理效能。

而前面提到的Megatron-LM是一個開源的輕量級大模型訓練加速框架,也是當前非常流行的大模型訓練框架之一,特別是其中的4D平行計算技術已經成為大模型訓練的標準正規化之一,Megatron-DeepSpeed和Pai-Megatron-Patch等都是從Megatron-LM衍生出來的大模型訓練方案。

如今,NVIDIA還將Megatron-LM的核心功能進一步抽取為Megatron Core。簡單理解,如果將Megatron-LM、Megatron-DeepSpeed、Pai-Megatron-Patch、NeMo等視為各種“Linux發行版”的話,那麼Megatron Core就相當於“Linux Kernel”核心。作為一個完整和獨立的產品,NVIDIA為Megatron Core設計了獨立的技術路線圖、提供了完善的技術文件、定期釋出更新版本以及透過完整的CICD測試確保版本的穩定性等。

隨著Megatron Core的正式問世,NVIDIA對於大模型軟體平臺體系的願景也浮出水面:要打造大模型平臺軟體的開源“核心”,成為所有大模型軟體和生態式AI應用的“作業系統”。而這就是NVIDIA大模型“全家桶”的意義所在——打造大模型與生成式AI的“作業系統”,為雲智慧第二曲線提供產品化平臺軟體體系支撐。

推進大模型創新前沿

未來三年,我們將進入全民化生成式AI階段。根據Gartner的預測,到 2026 年,超過80%的企業將使用生成式AI的API或模型,或在生產環境中部署支援生成式AI的應用,而在2023年初這一比例不到5%。毫無疑問,大模型和生成式AI將開啟雲智慧與數字化轉型的第二曲線,而NVIDIA還在不斷推出大模型與生成式AI的創新前沿。

在2023雲棲大會上,NVIDIA專家介紹了 NVIDIA Megatron Core 的技術路線圖,特別提及當前版本的Megatron Core已經開始支援MoE預訓練。MoE混合專家模型將多個模型(即“專家”)結合在一起,以獲得更好的預測效能。MoE在文字、影像、搜尋和多模態大模型等領域都取得了很多成果,可以說是下一代LLM大模型。

在Megatron Core的2023年11月版本中,已經包括了對於MoE的功能性支援、專家並行技術(Expert Parallelism,EP)、專家張量並行技術(Expert Tensor Parallelism,ETP)等,在2023年12月版本中還將提供MoE進一步的效能最佳化,以及在明年提供對於多模態的平行計算支援等。也就是說,NVIDIA將在Megatron Core中內建對下一代MoE大模型的全面支援。

在Megatron Core還整合了FP8計算。NVIDIA Hopper是最新的NVIDIA GPU架構,基於Hopper架構的GPU充分利用了最新的FP8張量核心(Tensor Core)技術,實現了速度更快的低精度AI訓練方法。因為機器學習的研究人員發現,在很多神經網路計算中,不需要使用高精度的資料型別,神經網路依然能得出同樣準確的答案,因此更低精度的FP8計算能夠用更低成本與能耗實現更快的推理計算。Megatron Core將透過整合Transformer Engine API的方式,直接“開箱即用”式使用FP8計算。Transformer Engine是針對Transformer模型結構推出的加速庫,包括在Hopper GPU上支援FP8精度計算。

大模型與生成式AI的另一個創新前沿是資料中心網路,面向AI的網路是資料中心的下一步最佳化方向。無論是新建或升級資料中心,大模型與生成式AI應用都對資料中心的網路提出了全新的要求,也就是比傳統資料中心激增了資料中心內部的網路通訊,NVIDIA為此推出下一代AI網路方案,包括NVIDIA BlueField-3 DPU、NVIDIA Quantum-2 InfiniBand 交換機、NVIDIA SHARP、NVIDIA Spectrum-4 交換機及NVIDIA DOCA等端到端網路解決方案核心產品及技術,這些都在2023雲棲大會上集中亮相。

與領先大模型團隊在一起

過去兩年,NVIDIA一直與領先的大語言模型企業與團隊開展密切合作,幫助雲智慧產業和企業數字化轉型加速開啟第二曲線。在2023雲棲大會上,展示了NVIDIA與螞蟻集團、阿里雲行業團隊等大模型深度最佳化加速實踐。

螞蟻集團大模型團隊開源的CodeFuse大模型是螞蟻自研的程式碼生成專屬大模型,是螞蟻百靈大模型家族的一員。CodeFuse根據開發者的輸入提供智慧建議和實時支援,幫助開發者自動補全/生成程式碼、自動增加註釋、自動生成測試用例、修復和最佳化程式碼等,以提升研發效率。CodeFuse採用了NVIDIA TensorRT-LLM,實現了對大模型推理的最佳化加速,甚至在推理端實現了FP4/INT4更低精度推理,極大降低了成本、提高了推理速度。

NVIDIA Clara Parabricks是由NVIDIA開發、基於GPU的基因測序分析加速軟體,提供多種生物資訊學工具和功能。阿里雲基因分析平臺是國內公有云的行業PaaS平臺,以容器化的方式大規模處理基因組學分析資料,整合NVIDIA Clara Parabricks等行業軟體和開源工具,形成完整的端到端解決方案。

在2023雲棲大會前夕,淘天集團聯合愛橙科技正式對外開源大模型訓練框架——Megatron-LLaMA,旨在讓技術開發者們能夠更方便地提升大語言模型訓練效能,降低訓練成本,並保持和LLaMA社群的相容性。測試顯示,在32卡訓練上,相比HuggingFace上直接獲得的程式碼版本,Megatron-LLaMA能夠取得176%的加速;在大規模的訓練上,Megatron-LLaMA相比較32卡擁有幾乎線性的擴充套件性,且對網路不穩定表現出高容忍度。

此外,NVIDIA還為開箱即用的魔搭開源模型和靈積模型服務高效 GPU 最佳化、Megatron 加速通義大模型訓練等。

在2023雲棲大會上,NVIDIA還展示了在持續推進大模型與AI技術生態、為業界廣大開發者、初創企業、女性科技從業者提供豐富的學習資源和生態支援。只有構建更加豐富和開放的生態,才能真正推動生成式AI應用的繁榮,從長期拉昇雲智慧第二曲線。

【全文總結】在2023雲棲大會上,NVIDIA從多個維度展示其大模型平臺軟體的技術領先性。在大模型時代,NVIDIA的AI與大模型平臺軟體資產正在快速匯聚起來,形成 AI 作業系統和中介軟體等的一站式通用開發平臺,從而成為雲智慧第二曲線的核心引擎。(文/寧川)


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70025587/viewspace-2993392/,如需轉載,請註明出處,否則將追究法律責任。

相關文章