NVIDIA發力巨量AI語言模型:讓企業觸手可及

陶然陶然發表於2021-11-12

  人工智慧如何發展出像人類具備邏輯、意識和推理的認知能力,是人工智慧研究一直在探索的方向。目前來看,通過大規模資料訓練超大引數量的巨量模型,被認為是非常有希望實現通用人工智慧的一個重要方向。

  自然語言處理是指能夠理解人類語言的AI模型,在廣泛應用的智慧助手中,語言模型是其能夠與人類互動的根本驅動因素之一,被譽為“人工智慧皇冠上的明珠”。目前,全球知名的AI領先公司在巨量模型上都予以重兵投入,這其中當然不能少了NVIDIA。

   NVIDIA藉助超大規模AI語言模型為全球企業賦能

  在GTC期間,NVIDIA推出了為訓練具有數萬億引數的語言模型而優化的NVIDIA NeMo Megatron框架、為新領域和語言進行訓練的可定製大型語言模型(LLM)Megatron 530B以及具有多GPU、多節點分散式推理功能的NVIDIA Triton推理伺服器。

  這些工具與NVIDIA DGX系統相結合,提供了一個可部署到實際生產環境的企業級解決方案,以簡化大型語言模型的開發和部署。

  NVIDIA應用深度學習研究副總裁Bryan Catanzaro表示:“大型語言模型已被證明是靈活且功能強大的,無需專門的培訓或監督,即可回答深層次領域問題,翻譯語言,理解和總結檔案,編寫故事和計算程式。為新的語言和領域建立大型語言模型可能仍然是最大的超級計算的應用,現在這些功能對全球的企業也變得觸手可及。”

   NVIDIA NeMo Megatron和Megatron 530B加速大型語言模型開發

  NVIDIA NeMo Megatron是在Megatron的基礎上發展起來的開源專案。由NVIDIA研究人員主導,研究大型轉換語言模型的高效訓練。Megatron 530B是世界上最大的可定製語言模型。

  NeMo Megatron框架使企業能夠克服訓練複雜自然語言處理模型的挑戰。經過優化,可以在NVIDIA DGX SuperPOD的大規模加速計算基礎設施上進行擴充套件。

  NeMo Megatron通過資料處理庫自動處理LLM訓練的複雜性,這些資料處理庫可以攝入、策劃、組織和清理資料。利用先進的資料、張量和管道並行化技術,它能使大型語言模型的訓練有效地分佈在成千上萬的GPU上。企業可以通過NeMo Megatron框架進一步訓練它以服務新的領域和語言。

   NVIDIA Triton推理伺服器助力實時大型語言模型推理

  此外,NVIDIA釋出的最新NVIDIA Triton推理伺服器中的多GPU、多節點特性,使大型語言模型推理工作負載能夠實時在多個GPU和節點上擴充套件。這些模型需要的記憶體比單個GPU甚至是包含多個GPU的大型伺服器所能提供的還要多,並且,實際應用對其推理實時性有著極高的要求。

  通過Triton推理伺服器,Megatron 530B能夠在兩個NVIDIA DGX系統上執行,將處理時間從CPU伺服器上的1分鐘以上縮短到半秒,令實時應用部署大型語言模型成為可能。目前Capital One、Microsoft、Samsung Medison、Siemens Energy、Snap等25000多家客戶都在使用該平臺。

  不僅如此,NVIDIA還推出了NVIDIA A2 Tensor Core GPU,這是一款用於邊緣AI推理的低功耗、小尺寸的加速器,其推理效能比CPU高出20倍。

  NVIDIA副總裁兼加速計算總經理Ian Buck表示:“NVIDIA AI推理平臺正在推動各行各業的突破,包括醫療健康、金融服務、零售、製造和超級計算。無論是提供更智慧的建議,發揮對話式AI的力量,還是推進科學發現,NVIDIA推理平臺都能以簡單易用的方式提供低延遲、高吞吐及多種效能組合的服務,為全球關鍵的AI新應用賦能。”

   關鍵的軟體優化

  Triton 推理伺服器的主要更新包括:

  ●Triton模型分析器:這款新工具可以自動化地從數百種組合中為AI模型選擇最佳配置,以實現最優效能,同時確保應用程式所需的服務質量;

  ●多GPU多節點功能:這一新功能支援基於Transformer的大規模語言模型,例如Megatron 530B,在多個GPU和伺服器節點上執行並提供實時推理效能,而不是在單個GPU上執行;

  ●RAPIDS FIL:這一針對隨機森林和梯度提升決策樹模型GPU或CPU推理的新後端為開發者使用Triton進行深度學習和傳統機器學習提供了一個統一的部署引擎;

  ●Amazon SageMaker整合:這種無縫整合讓客戶能夠在SageMaker(AWS完全託管的AI服務)中使用Triton輕鬆部署多框架的模型,並實現高推理效能;

  ●支援Arm CPU:除了NVIDIA GPU和x86 CPU外,Triton後端現在還支援在Arm CPU上優化AI推理工作負載;

  Triton支援在雲、資料中心、企業邊緣和嵌入式裝置等環境中對GPU和CPU進行AI推理,並與AWS、Google Cloud、Microsoft Azure、阿里雲PAI-EAS等平臺整合。此外,NVIDIA AI Enterprise也整合了Triton。

  NVIDIA AI Enterprise是一款經NVIDIA優化、認證和支援的用於開發和部署AI的端到端軟體套件,客戶可利用它在本地資料中心和私有云的主流伺服器上執行AI工作負載。

  除了Triton外,TensorRT現在還與TensorFlow和PyTorch整合,只需一行程式碼就能提供比框架內推理快3倍的效能。這使得開發人員採用極為簡化的工作流程就可以體會TensorRT的強大功能。

  NVIDIA TensorRT 8.2是SDK的最新版本,可加速高效能的深度學習推理,在雲端、本地或邊緣提供高吞吐和低延遲。有了最新的效能優化,數十億個引數的語言模型可實現實時執行。

   全球範圍開發的大規模定製語言模型

  使用NVIDIA DGX SuperPOD構建大型複雜語言模型的早期客戶包括SiDi、京東探索研究院和VinBrai。

  SiDi是巴西的一家大型AI研究和開發機構,已經採用三星虛擬助手,供全國2億巴西葡萄牙語者使用。

  SiDi執行長John Yi表示:“SiDi團隊在AI虛擬助理和聊天機器人開發方面擁有豐富的經驗,此類開發既需要強大的AI效能,也需要經過訓練並適應人類語言不斷變化的細微差別的專用軟體。NVIDIA DGX SuperPOD非常適合推動我們團隊的先進工作,幫助我們為巴西的葡萄牙語者提供領先的AI服務。”

  京東探索研究院,是以供應鏈為基礎的領先技術和服務提供商京東的研發部門,他們利用NVIDIA DGX SuperPOD開發NLP,應用於智慧客戶服務、智慧零售、智慧物流、物聯網、醫療健康等領域。

  VinBrain是越南的醫療健康AI公司,他們使用DGX SuperPOD為100家醫院的放射科醫生和遠端醫療醫生開發和部署了一種臨床語言模型。在這些醫院,已有600多名醫療健康從業者使用該模型。

  寫在最後,NVIDIA正藉助超大規模AI語言模型為全球企業賦能,得益於NVIDIA在人工智慧領域深厚的積累和不斷的探索實踐。NVIDIA一直活躍在AI前沿方向,在異構加速計算、深度學習框架、AI演算法等領域取得了一定的成績。未來,NVIDIA將持續推動創新企業及個人開發者基於大模型構建智慧化水平更高的場景應用,賦能實體經濟智慧化升級,促進經濟高質量發展。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28285180/viewspace-2841978/,如需轉載,請註明出處,否則將追究法律責任。

相關文章