前言
阿里雲函式計算(Function Compute, FC)是一種無伺服器(Serverless)計算服務,允許使用者在無需管理底層基礎設施的情況下,直接執行程式碼。與傳統的計算架構相比,函式計算具有高靈活性和彈性擴充套件的特點,使用者只需專注於業務邏輯的開發,系統自動處理計算資源的分配、擴充套件和維護。同時,函式計算作為阿里云云產品的粘合劑,可以讓使用者輕鬆的和多種阿里雲服務整合,構建複雜的應用程式。加之函式計算除了提供CPU算力以外,還提供GPU算力,所以這種無縫的計算體驗,使得函式計算非常適合需要彈性擴充套件的AI任務,如模型推理和影像生成,能夠大幅提高效率並降低計算成本。
NVIDIA TensorRT是英偉達為深度學習推理最佳化的高效能庫,廣泛應用於計算機視覺、語音識別等領域。TensorRT透過一系列最佳化手段,如權重量化、層融合和記憶體最佳化,極大提升了模型的推理速度,同時減少了資源消耗。它支援從多種框架(如TensorFlow、PyTorch)匯出的模型,比如文生圖/圖生圖模型和Bert類等語言模型。並在多種硬體平臺上進行加速,使得開發者能夠充分利用GPU的計算能力,快速部署AI應用。
NVIDIA TensorRT-LLM是專為加速大語言模型(LLM,Large Language Models)推理設計的高效能深度學習推理庫,旨在大幅提升推理效率、降低延遲並最佳化GPU利用率。它是TensorRT的擴充套件版本,主要針對大語言模型,具備自動最佳化、記憶體管理和量化的功能,能夠在保持高精度的同時實現極低的推理延遲和高吞吐量。透過TensorRT-LLM,開發者可以在英偉達的硬體平臺上更高效地執行大語言模型,DiT類模型,多模態視覺語言大模型等。
阿里雲函式計算與NVIDIA TensorRT/TensorRT-LLM的合作基於雙方在提效降本方面的共同目標。阿里雲函式計算作為無伺服器架構,憑藉其高靈活性、彈性擴充套件能力以及對GPU算力的支援,為AI任務如模型推理和影像生成提供了高效的計算平臺。而NVIDIA TensorRT/TensorRT-LLM則透過針對大模型的最佳化,顯著提升推理效率、降低延遲,並最佳化GPU利用率。在這種背景下,雙方的合作可謂一拍即合,透過結合阿里雲的無縫計算體驗和NVIDIA的高效能推理庫,開發者能夠以更低的成本、更高的效率完成複雜的AI任務,加速技術落地和應用創新。
Stable Diffusion的推理效率革新
Stable Diffusion是一種基於擴散模型的深度學習架構,廣泛應用於生成高質量影像的任務中。其工作原理是透過逐步將隨機噪聲轉化為清晰的影像,模型在反覆推理過程中將潛在的低質量影像逐漸“清晰化”,直至生成高解析度的最終輸出。與傳統生成模型不同,Stable Diffusion透過在潛在空間進行擴散過程建模,有效減少了計算資源的消耗,同時提升了影像生成的質量和多樣性。
在影像生成領域,Stable Diffusion的重要性體現在其廣泛的應用和出色的生成能力。它不僅可以生成逼真的影像,還能夠在風格化影像、藝術創作、設計和廣告等多個領域中提供創意支援。此外,Stable Diffusion以其開放性和高效性,成為生成模型中的一大創新,推動了AI驅動的創作和設計行業的發展。
基於函式計算大幅降低部署Stable Diffusion應用的複雜性
通常使用者自己構建一套Stable Diffusion應用一般需要四個大的步驟,在每一個步驟中都有不小的工作量和技術門檻。
- 購買GPU資源:眾所周知,SD模型推理是需要使用GPU執行的,所以首先使用者需要先購買GPU卡,除了消費級的30系,40系,還有Ampere系列,Ada系列的專業推理卡,但無論哪種卡,其持有成本都不低。
- 企業使用者,在需求量較大的情況下,目前市面上並不好買卡。
- GPU買來後需長期持有,可能存在較大的使用率空窗期。
- AIGC本質是稀疏呼叫場景,GPU的資源利用普遍偏低。
- 部署Stable Diffusion推理服務:雖然現在有Stable Diffusion WebUI這種簡化使用的前端UI,但是整體部署還是有一定的技術門檻。
- 從Github獲取Stable Diffusion WebUI。
- 下載Stable Diffusion不同版本的模型,不同版本的外掛。
- 構建GPU服務,部署Stable Diffusion WebUI。
- 出圖服務API化:Stable Diffusion WebUI雖然足夠方便,但是在企業使用者面向C端使用者的場景,出圖服務API化是剛需。
- Stable Diffusion模型本身不支援並行推理,Stable Diffusion WebUI也不支援多租戶管理能力。
- 企業生產級應用需要API化,提高併發效能,需要使用者自行實現。
- 推理效能調優:推理效能的好壞直接影響單位時間內的出圖效率,GPU卡數量固定前提下的總出圖數量,所以都需要使用者對預設的推理框架進行最佳化。
- 預設推理框架的推理效率不高,且在記憶體分配方面容易出現問題(當有任務排隊時,記憶體會持續增加,直到OOM)。
- 適配開源推理框架,提高推理效率,提高出圖量或降低資源成本,需要使用者自行實現。
如果使用函式計算構建Stable Diffusion應用,只需一步。在函式計算應用中心找到Stable Diffusion應用模板,一鍵部署即可自動完成上述那些複雜的步驟。
- GPU資源:函式計算自帶GPU資源,包含Tesla系列(函式計算提供的T4 GPU),Ampere系列,Ada系列
- GPU例項分日間夜間計費,夜間時間為北京時間每日0時~6時,夜間單價是日間單價的5折,即使需要長時間持有GPU,成本也會有大幅降低。
- GPU階梯定價,用量越大,成本越低,階梯3 單價比 階梯1 單價便宜33%。
- 支援極速模式,既對GPU例項做預置快照處理,提前鎖定彈性資源,有請求時從預置快照極速拉起彈性例項,避免冷啟動影響(CPU 毫秒級,GPU 秒級),客戶只需為預置快照付少量成本,兼顧了成本和彈性效率。
- 部署Stable Diffusion推理服務:自動在GPU例項中部署Stable Diffusion模型推理服務,以及Stable Diffusion WebUI,同時還會自帶模型/外掛管理介面,各引數配置介面,圖片管理/統計頁面,完善的可觀測、日誌能力等。
- 出圖服務API化:自帶Stable Diffusion Serverless API模式,透過API出圖提升並行效率,消除切換模型時的時延問題。
- 推理效能調優:內建TensorRT最佳化過的Stable Diffusion模型(支援Ampere系列,Ada系列 GPU),大幅提升推理效率。
基於TensorRT大幅提升Stable Diffusion推理效率
我們對 Stable Diffusion V1.5 和 Stable Diffusion XL 1.0 兩個模型,在Ampere系列和Ada系列上分別做的測試驗證。
- 同卡型對比,無論是SD1.5還是SDXL1.0,TRT最佳化模型對比原始模型,平均推理耗時均縮減了50%以上。
- 不同卡型對比,無論是SD1.5還是SDXL1.0,L20對比A10,平均推理耗時均縮減了30%~50%。
Ampere 系列 | Ada 系列 | ||
---|---|---|---|
原始模型 | TensorRT最佳化模型 | 原始模型 | |
模型:runwayml/stable-diffusion-v1-5 | 2.976s | 1.235s | 1.711s |
模型:stabilityai/stable-diffusion-xl-base-1.0 | 4.350s | N/A | 2.493s |
透過以上的資料不難看出,使用NVIDIA TensorRT最佳化後的模型推理效率提升50%,那就意味著,在相同的時間內,使用者的出圖量可以多一倍,或者出圖服務的QPS可以提升一倍。再加上基於函式計算構建Stable Diffusion應用的便利性,和函式計算GPU計算資源的高利用率特性,真正做到了降本提效,使業務方可以有更多的空間做產品競爭力的提升。
大語言模型的推理效率革新
阿里雲Qwen2是一款先進的大語言模型,具備強大的理解和生成能力。它透過對海量文字資料的訓練,能夠在多種NLP應用中展現出卓越的效能,包括文字生成、機器翻譯、問答系統、文字摘要等。Qwen2採用了最新的模型架構和最佳化技術,顯著提升了推理速度和生成質量,使其在處理複雜語言任務時表現出色。
在實際應用中,Qwen2可以幫助企業和開發者自動化處理自然語言資料,廣泛應用於智慧客服、內容創作、資料分析、對話系統等場景。透過高效的語言理解和生成能力,Qwen2大幅提升了自然語言處理任務的自動化和準確性,推動了多個行業的數字化轉型與創新。
Qwen2有200B的商業版模型,也有像7B這種的開源模型,而且在很多場景下,AI應用的整體流程中,有一些環節用開源的大語言模型完全可以勝任,也能避免商業版模型QPS限制的問題,所以投入產出比更好。比如Embedding服務,翻譯服務,程式碼問答服務,智慧知識庫等。
基於函式計算快速部署Qwen2 7B
目前市面上有多種大語言模型託管的平臺,像海外的HuggingFace,Ollama,國內的魔搭ModelScope。這些模型託管平臺均在函式計算應用中心中有應用模板,可以快速一鍵進行部署。
比如以Ollama為例,在應用中心中透過應用模板一鍵部署好Ollama服務,然後就可以透過Ollama的API下載Qwen2 7B模型,並執行在函式計算GPU資源上。
可以同樣在函式計算應用中心一鍵部署Ollama Open WebUI應用,透過白屏化介面下載Qwen2 7B。
基於TensorRT-LLM加速Qwen2 7B推理
我們測試對比了TensorRT-LLM和vLLM的推理效果:
- Qwen/QWen2-7B FP16:對比平均響應時間(RT)指標,TensorRT-LLM 對比 vLLM 改善了21%。
- QWen/QWen2-7B FP8:對比平均響應時間(RT)指標,TensorRT-LLM 對比 vLLM 改善了28%。
Qwen/QWen2-7B FP16 | QWen/QWen2-7B FP8 | ||
---|---|---|---|
TRT-LLM | vLLM | TRT-LLM | |
RT | 2679ms | 3374ms | 1688ms |
TPS | 20 | 16 | 32 |
Token數量 | 120.12W | 96.23W | 190.32W |
綜上,使用TensorRT-LLM推理框架使Qwen2 7B的推理效能有近30%的提升,再加上函式計算GPU計算資源高效率、高利用率的特性,使使用者在構建基於LLM的AI應用時在穩定性、效能、效率、成本各方面都會有大幅提升,如虎添翼。
總結
目前NVIDIA TensorRT-LLM已經支援了市面上所有主流的開源LLM,同時函式計算應用中心使用GPU資源的應用都已支援TensorRT-LLM推理框架,此次雲棲釋出的雲應用開發平臺CAP也會全面支援TensorRT-LLM推理框架。
阿里雲函式計算與NVIDIA技術團隊的合作具有重要的戰略意義,雙方透過結合各自的技術優勢,為AI技術的高效落地提供了強有力的支援。阿里雲函式計算以其無伺服器架構和彈性擴充套件能力,使開發者能夠在無需管理底層基礎設施的情況下靈活處理AI任務。而NVIDIA則透過其高效能的推理引擎,如TensorRT,TensorRT-LLM,為深度學習模型提供了極高的計算效率和最佳化能力。兩者的結合不僅能夠加速複雜模型的推理速度,還能大幅降低AI應用的執行成本。
這種合作推動了AI技術的實際應用落地,特別是在計算密集型的任務如影像生成、自然語言處理等領域,能夠透過無縫整合的高效計算平臺,大規模部署AI模型。開發者可以藉助這種平臺,快速開發並迭代AI產品,從而縮短從概念到實際應用的時間。同時,這種合作還支援企業靈活應對動態的計算需求,特別是在面對高併發或大規模任務時,實現彈性擴充套件和高效資源管理,為AI在各個行業的廣泛應用提供了堅實的技術基礎。
函式計算按量付費、資源包 8折優惠,以及面向中國站的中國內地地域 夜間5折優惠 活動正在進行中。https://www.aliyun.com/product/fc
更多內容關注 Serverless 微信公眾號(ID:serverlessdevs),彙集 Serverless 技術最全內容,定期舉辦 Serverless 活動、直播,使用者最佳實踐。