阿里雲異構計算髮布:輕量級GPU雲伺服器例項VGN5i

芊寶寶發表於2019-04-15

阿里雲釋出了國內首個公共雲上的輕量級GPU異構計算產品——VGN5i例項,該例項打破了傳統直通模式的侷限,可以提供比單顆物理GPU更細粒度的服務,從而讓客戶以更低成本、更高彈性開展業務。適用於雲遊戲、VR/AR、AI推理和DL教學等輕量級GPU計算場景,更細粒度的GPU計算服務。

輕量級GPU雲伺服器是什麼?

輕量級GPU雲伺服器是一種新的GPU雲伺服器規格族,是通過公共雲的GPU虛擬化技術將分片虛擬化後的GPU資源以虛擬GPU的形式安裝在GPU雲伺服器例項中。與常規GPU雲伺服器的區別在輕量級GPU雲伺服器提供更細力度的GPU計算資源,比如擁有更少的CUDA計算核心,更小的視訊記憶體。這樣做的優勢是在業務應用中,業務可以根據資源所需更加靈活的配置GPU計算資源。

阿里雲異構計算髮布:輕量級GPU雲伺服器例項VGN5i


使用者在使用常規GPU雲伺服器的時候遇到了哪些痛點?

GPU的計算顆粒過大:
單顆物理GPU的計算能力越做越強大,但是許多應用需要更小顆粒的GPU計算資源;
常規GPU資源不利於業務自動伸縮:
擁有單顆物理GPU資源的例項在業務部署中會因為要充分利用GPU資源而造成“胖節點”,不利於設計成彈性伸縮架構,缺乏靈活性,無法應對業務快速變化;
常規GPU計算例項無法線上遷移:
常規直通虛擬化的GPU例項,由於架構特性無法支援GPU例項的線上遷移;

輕量級GPU雲伺服器與常規GPU雲伺服器有哪些不同?

我們從GPU加速器呈現方式,業務連續性,計算業務場景以及使用與管理看不同:
GPU加速器呈現
常規GPU雲伺服器例項是通過裝置直通方式提供物理GPU加速器;
輕量級GPU雲伺服器例項是通過GPU虛擬化方式提供虛擬GPU加速器;
業務連續性
常規GPU雲伺服器僅支援作業離線遷移
輕量級GPU雲伺服器支援作業線上遷移
計算業務場景
常規GPU雲伺服器適用於重負載的GPU加速計算,例如:深度學習訓練與推理計算、HPC計算、過載圖形計算
輕量級GPU雲伺服器適用於輕負載的GPU加速計算,例如:輕負載的深度學習推理計算、深度學習教學場景、雲遊戲與VR/AR場景
使用與管理
常規GPU雲伺服器提供彈性計算服務例項、業務擴充套件以單顆物理GPU資源方式增加
輕量級GPU雲伺服器依然提供彈性計算服務例項,但業務擴充套件以更小粒度GPU資源方式增加(例如:1/8或1/4顆Tesla P4的資源);

VGN5i有哪些技術亮點和技術領先性,解決哪些問題?

技術亮點:支援使用者在公共雲上建立更小顆粒的虛擬GPU的雲伺服器例項。
技術領先性有三點:
任何一項領先的計算技術要將其移植到公共雲上輸出,還是要遵循可靠性、經濟性和易用性的技術要求。
首先是可靠性,公共雲伺服器首先是公共服務,要給所有使用者提供“簡單可依賴”的基礎服務;雖然虛擬化GPU技術在私有部署條件下使用比較成熟,但是在公共雲上使用還是要面臨幾個可靠性的挑戰的:第一是資料安全性;第二是資源隔離;這兩個問題在私有部署條件下通常是沒有要求的,原因是私有部署都是給同一使用者部署使用,安全和資源爭搶問題都比較容易解決。但是,要在公共雲上使用,這些問題在公共雲上就必須解決。
其次是經濟性,使用者能選擇使用輕量級GPU雲伺服器出發點是希望更加精細的使用GPU資源,本質是追求經濟性。虛擬化GPU技術在私有環境部署,因為需求確定,可以根據預想好的使用場景來配置虛擬化比例,但在公共雲場景就要解決既要滿足所有使用者的使用場景,又要保持排程系統的高效,不斷降低成本,追求經濟性。
最後是易用性,易用性表現在幾個方面,一個是管理介面和使用習慣與其他ECS例項保持一致,另一個是APP在GPU例項中的使用場景和方式與其他常規GPU例項保持一致。這樣使用者就沒有學習成本了。


阿里雲異構計算髮布:輕量級GPU雲伺服器例項VGN5i


輕量級GPU雲伺服器如何使用?

GPU例項的用法與普通彈性計算例項一樣便捷,使用者可以使用Web控制檯或者OpenAPI方式配置和購買服務。使用者在使用過程中可以完全掌控該例項,該例項在阿里雲端計算環境中執行,還可以配合其他雲服務一起使用。當使用者業務遇到業務高峰時可以在數分鐘內擴充套件新的例項來適應業務增長。使用者在虛擬化GPU服務的使用全過程中均可以享受到線上服務諮詢和快速故障處理服務。

輕量級GPU雲伺服器的例項有哪些?

目前開放售賣基於NVIDIA Tesla P4的VGN5i例項,該例項提供八分之一到一比一的虛擬GPU加速器;
後面會上線基於NVIDIA Tesla T4的VGN6i例項,該例項提供十六分之一到一比一的虛擬GPU加速器;

輕量級GPU雲伺服器的適用場景有哪些?

輕量級GPU雲伺服器可以根據業務需求配置建立貼合業務所需計算資源的GPU雲伺服器例項,因此可以在每個輕量級GPU雲伺服器例項上僅執行一個計算業務負載,在業務峰值來臨時,橫向擴充套件某一個計算業務負載即可。這樣的特性十分適合網際網路業務中AI計算的批量部署以及雲遊戲,AR/VR在雲端應用和深度學習的教學實驗場景。

VGN5i的使用者價值有哪些?

VGN5i的使用者價值包括:降低批量部署GPU例項的成本,可以輕鬆實現快速彈性伸縮以及提高運維效率。
降低批量部署成本
在諸多圖形計算和AI推理計算的場景中,使用者通常並不要求單GPU例項的計算效能十分強大,而是更加關注業務在批量部署中的成本。小粒度的虛擬化GPU例項則更加合適這些場景,很好的平衡使用者業務在批量部署中的成本需求。
實現快速彈性伸縮
擁有了小粒度的虛擬化GPU例項,使用者不必再為了匹配較強的物理GPU資源而將服務部署成為複雜的胖服務節點,而是可以基於容器方式將有GPU計算需求的服務都解耦部署在不同的虛擬化GPU例項節點上。這樣部署的瘦服務節點更加有利於快速彈性伸縮,在業務的任何時刻都可以應對自如,提高業務運維效率。
提高運維效率
使用小顆粒的虛擬化GPU例項進行瘦服務節點部署,使得服務環境配置和服務介面變得簡單,使用不同的映象即可部署大規模的AI應用而無需部署複雜的胖節點,提供運維效率,降低時間風險和成本。


原文連結

本文為雲棲社群原創內容,未經允許不得轉載。


相關文章