單顆GPU計算能力太多、太貴?阿里雲釋出雲上首個輕量級GPU例項

芊寶寶發表於2019-04-15

在矽谷舉辦的2019年NVIDIA GPU技術大會(GTC)上,阿里雲釋出了國內首個公共雲上的輕量級GPU異構計算產品——VGN5i例項,該例項打破了傳統直通模式的侷限,可以提供比單顆物理GPU更細粒度的服務,從而讓客戶以更低成本、更高彈性開展業務。

單顆GPU計算能力太多、太貴?阿里雲釋出雲上首個輕量級GPU例項


在該例項釋出之前,業內均採用以單顆物理GPU為單位的雲端異構計算服務,這有利於客戶獲得強有力的計算能力。如阿里雲在2017年10月推出了業界最全的異構計算家族,以及基於一個異構平臺的高效能運算平臺E-HPC,為使用者提供單顆起步至超大規模的彈性計算服務。當使用者業務遇到業務高峰時可以在數分鐘內實現擴容,大幅降低了企業使用異構計算能力的門檻,目前已服務於新浪微博、曠視科技、中國工程院等眾多企業和機構。

然而,在不少使用異構計算服務的場景中,“計算資源過剩”問題也尤為明顯。以雲遊戲為例,企業通常僅需要一顆物理GPU幾分之一的計算能力即可流暢完成圖形或視覺計算;人工智慧領域也存在類似問題,深度學習推理場景對GPU的計算資源消耗可能僅僅是訓練階段的數十分之一,甚至更少。對於這類應用場景而言,輕量級計算異構產品可以提升系統靈活性,並大幅降低成本。

而阿里雲本次首家提供雲上輕量級GPU例項,意味著使用者可以用更細粒度的計算資源開啟業務。該產品基於NVIDIA Tesla P4 GPU,支援多種規格,企業可以按需選擇例項規格或者在雲市場選擇NVIDIA Quadro虛擬工作站,適用於雲遊戲、AR/VR以及圖形處理等隨需應變的GPU計算場景。

阿里雲表示,5月還將釋出基於NVIDIA T4的GPU異構計算產品VGN6i例項,NVIDIA T4採用最新的Turing架構,在虛擬化環境中更為靈活,可加速深度學習和推理工作流程的Tensor Core,以及可加速光線追蹤和批量渲染的RT Core。

該產品由阿里雲與NVIDIA合作研發,整合了阿里雲智慧資源排程技術,使用者可以按需選擇適量的計算資源;同時,還採用了安全隔離技術,實現不同使用者之間的強隔離,有效防止資訊洩漏;除此之外,QoS控制技術保障了每個使用者的GPU資源不被其他租戶搶佔。

阿里雲智慧異構計算產品專家張新濤表示,“隨著輕量級GPU異構計算產品的推出,阿里雲實現了GPU的異構計算場景全覆蓋,可以為使用者提供從從輕量到高效能運算的服務。”

雲端異構計算並非單純地堆積硬體效能,需要做深度的軟硬體結合及優化才能發揮其效能優勢。阿里巴巴集團在異構計算領域擁有多年研發經驗,該技術大規模應用於拍立淘、商品分類等場景。

作為全球前三、國內第一的雲服務商,阿里雲擁有豐富的異構計算產品,具備智慧排程、自動運維、實時擴容等能力,結合業界首個自研的異構計算加速框架Ali-Perseus,可以同時支援TensorFlow、Caffe、MxNet、Pytorch等流行機器學習框架在叢集訓練和推理時的加速,最高可以將深度學習任務成本降低50%以上。
2018年12月,在史丹佛大學釋出的最新DAWNBench深度學習推理榜單,阿里雲異構計算獲得了影象識別效能及成本雙料冠軍。


原文連結

本文為雲棲社群原創內容,未經允許不得轉載。


相關文章