作者
徐蓓,騰訊雲容器技術專家,騰訊雲異構計算容器負責人,多年雲端計算一線架構設計與研發經驗,長期深耕 Kubernetes、在離線混部與 GPU 容器化領域,Kubernetes KEP Memory QoS 作者,Kubernetes 積極貢獻者。
摘要
qGPU 是騰訊雲推出的 GPU 共享技術,支援在多個容器間共享 GPU 卡資源,提供百分比算力與 MB 級視訊記憶體細粒度分配和強隔離能力,並且搭配業界獨有的 GPU 在離線混部技術,在充分保證業務安全、穩定的前提下,將 GPU 利用率提升到了極致。
qGPU 已服務內外部大量客戶,幫助眾多 AI 企業節省大量 GPU 成本。qGPU 容器虛擬化產品現已在騰訊雲 TKE 全量上線。
騰訊雲在業界(除 NVIDIA 原廠外)首次實現了對細粒度算力強隔離的支援。qGPU 算力可以實現 1% 的細粒度限制,並且保證嚴格按照配比分配和限制算力資源,即使在 GPU 資源非常緊張時,各業務所分配算力資源依然保證不受影響。依賴這種能力,企業使用者可以儘量多的增加業務部署密度,充分利用 GPU 資源,而不用擔心會對業務帶來負面影響。
qGPU 依賴 TKE 自研排程器和裝置管理器,在 TKE Kubernetes 叢集上支援 GPU 卡級別的百分比算力和 MB 級視訊記憶體分配和排程,在保證叢集最優資源分配和負載的前提下,讓企業 AI 任務可以使用更小粒度的 GPU 資源。
qGPU 在 GPU 硬體級(而非 CUDA API 級的攔截和控制)實現了 QoS 能力,通過 MB 級控制 GPU 視訊記憶體資源分配及細粒度的強算力隔離,最大程度避免了因共享 GPU 帶來的業務效能損失。通過這種創新技術,qGPU 解決了 故障、視訊記憶體 和 算力 全維度的隔離問題。
除此之外,騰訊雲 qGPU 創新性的將在離線混合部署技術與 GPU 相結合,在業界首次提出了 GPU 在離線混部的概念,將 GPU 容器共享技術推進到了下一個紀元。
線上業務通常指推理業務,離線業務可能是推理、也可能是訓練,於是在離線混部主要形式有 推理 + 推理、推理 + 訓練。如果缺乏有效技術手段,為了保證線上業務的 QoS,需要使之獨佔一張 GPU 卡,這會導致利用率很低。在具備 qGPU 在離線混部能力之後,使用者可以安全地將線上業務與其他業務部署在同一張 GPU 卡,在共享複用資源的同時,可以完全保障線上業務健康、穩定執行。
可以說,騰訊雲 qGPU 在離線混部是提升 GPU 利用率的創新性的突破技術。利用領先的細粒度算力隔離技術和獨創的算力高低優排程技術,在保證線上任務算力 QoS 的前提下,可以有效將 GPU 利用率提升至 100%,極大程度減少算力浪費,將 GPU 資源壓榨到極致。
總結
算力異構化已經是今天的業界共識。其中 GPU 以其強大的算力和完善的生態,在 AI 異構計算中佔據了統治地位。面對昂貴的 AI 算力資源,企業迫切的希望有技術手段可以幫助降低成本,增加效率。
騰訊雲 qGPU 立足 AI 領域,依託 GPU 資源細粒度排程、GPU 資源強隔離、GPU 在離線混部 等技術產品,通過為企業提升 GPU 使用效率,釋放 AI 算力生產力,最終幫助企業帶來持續和不斷的巨大商業價值。
qGPU 容器虛擬化:https://cloud.tencent.com/doc...
關於我們
更多關於雲原生的案例和知識,可關注同名【騰訊雲原生】公眾號~
福利:
①公眾號後臺回覆【手冊】,可獲得《騰訊雲原生路線圖手冊》&《騰訊雲原生最佳實踐》~
②公眾號後臺回覆【系列】,可獲得《15個系列100+篇超實用雲原生原創乾貨合集》,包含Kubernetes 降本增效、K8s 效能優化實踐、最佳實踐等系列。
③公眾號後臺回覆【白皮書】,可獲得《騰訊雲容器安全白皮書》&《降本之源-雲原生成本管理白皮書v1.0》
④公眾號後臺回覆【光速入門】,可獲得騰訊雲專家5萬字精華教程,光速入門Prometheus和Grafana。
⑤公眾號後臺回覆【精選集】,可獲得騰訊24位騰訊雲專家精彩演講——4萬字《騰訊雲技術實踐精選集 2021》。
【騰訊雲原生】雲說新品、雲研新術、雲遊新活、雲賞資訊,掃碼關注同名公眾號,及時獲取更多幹貨!!