騰訊雲:把GPU分開賣是黑科技嗎?

AIBigbull2050發表於2019-12-13
導語:騰訊雲基於NVIDIA最新GPU虛擬化技術做了一個產品創新,使用者可以在雲上買到規格更小的GPU計算產品。

1999年,NVIDIA 公司發明了GPU(Graphics Processing Unit,圖形處理器),優異的圖形處理表現讓它豔驚四座。

近年來,GPU在大規模並行運算上的巨大優勢,讓其成為大資料、AI以及圖形影像處理等場景下不可或缺的計算引擎。

然而,一直以來,囿於GPU切分難度較高,使用者不論是購買GPU硬體,還是購買GPU雲服務,都只能整塊購買。這樣有兩個結果:

1. 使用門檻較高。GPU相對CPU價格較貴,一塊超級計算類GPU價格更是高達好幾萬,個人開發者使用門檻較高。

2. 資源浪費。在算力需求較小的時候,一整塊GPU卡無法滿負荷執行,造成算力浪費。

今天,這種局面看起來被打破了,騰訊雲正式對外發布基於 NVIDIA T4 的虛擬GPU(vGPU)計算產品GN7例項,可以為任意AI工作負載提供支援。

因此,使用者可以在雲上買到規格更小的GPU計算產品,可以降低使用者使用GPU的成本並增加靈活度,對一些小規模算力場景的人工智慧研發有非常大的幫助。

廣泛適用不同AI場景

憑藉強大的計算能力和彈效能力,GN7例項在海量資料處理和人工智慧領域都具有廣闊的應用價值。它既可以滿足諸如搜尋、大資料分析等需要對海量資料進行處理的業務場景,也可以作為深度學習訓練和推理的系統平臺。

GN7例項的虛擬化特性,也十分適合網際網路業務中人工智慧業務的批次部署以及雲遊戲,AR/VR在雲端的應用。

目前,GN7例項已經在騰訊雲自有的智慧鈦彈性模型服務(TI-EMS)上實現了應用。該平臺透過使用vGPU做小模型推理,幫助使用者解決複雜模型部署和GPU利用成本效益等問題。

基於多精度支援,NVIDIA T4擁有可加速深度學習訓練和推理、機器學習以及資料科學工作負載的 Tensor Core,以及豐富的平臺堆疊,包括用於深度學習的cuDNN、用於資料分析和機器學習的NVIDIA RAPIDS、用於雲工作站圖形的NVIDIA Quadro虛擬工作站和用於雲遊戲的NVIDIA遊戲軟體。結合用於GPU虛擬化的 vComputeServer軟體,騰訊雲客戶可以靈活選擇在虛擬環境中執行GPU加速的工作負載,從而在提高安全性和利用率的同時降低成本。 

進一步降低成本

GN7例項降低了GPU加速的初始投資成本,NVIDIA vComputeServer軟體透過對NVIDIA T4進行虛擬化,使多臺虛擬機器(VM)可以同時訪問GPU或者使一臺虛擬機器可以訪問多顆 GPU,從而實現效能的最大化。因此,騰訊雲使用者可以根據工作負載的需求靈活選擇對應的GPU加速量。 

比如在進行簡單模型推理這一類低算力需求的應用時,使用者無須再像以往必須使用單顆物理GPU,而是可以根據自身業務具體型別對GPU算力的需求,靈活選擇匹配的vGPU資源,提升了計算資源的利用率,從而有效降低使用者的使用成本,避免因配置不足或配置過度而產生成本。比如,透過使用1/2 vGPU例項規格,成本相對單卡例項降低了50%。  

相比過往程式級別的虛擬化GPU,GN7的升級點在於其提供的裝置級虛擬化vGPU是完全模擬出來一個GPU裝置,在支援GPU硬體的絕大多數特性的同時,還能夠做到作業系統級別的隔離,而且不同的使用者使用也不用擔心資源爭搶的問題。

不過,關於虛擬化GPU的技術,AI開發者也採訪了一位業內資深技術人士,該人士表示,這個vGPU技術其實並不難,華為、阿里也都有類似的。當然,騰訊雲和NVIDIA的深度合作還是有一定賣點。







來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2668390/,如需轉載,請註明出處,否則將追究法律責任。

相關文章