人工智慧已經深入影響各行各業，作為人工智慧實現的主流實現路徑，深度學習對算力的需求龐大且波動，上雲已成主流趨勢。

GPU是人工智慧算力的重要來源。網際網路及傳統企業客戶，只要有人工智慧相關的業務，都需要租用GPU雲伺服器來做深度學習模型的訓練與推理。

隨著顯示卡技術的不斷髮展和半導體制程工藝的進步，單張GPU卡算力水漲船高，成本愈發高昂。然而，有許多的深度學習任務，並不需要佔用一整張GPU卡。資源排程不夠靈活，造成了GPU資源利用率不高。

這時候，用容器排程底層GPU資源就成了一種很好的解決方案。多租戶（VM）使用同一張GPU卡，可以依靠vGPU技術實現；而單租戶多執行緒的場景，則可以透過GPU容器共享技術實現。透過在GPU卡之上高密度的容器部署，可以將GPU資源做更細顆粒度的切分，提高資源利用率。

阿里雲異構計算近日推出的cGPU容器共享技術，讓使用者透過容器來排程底層GPU資源，以更細顆粒度排程使用GPU，提高GPU資源利用率，達到降本增效的目的。

目前業界普遍使用GPU容器技術。在容器排程GPU的時候，不同執行緒中的容器應用可能出現視訊記憶體資源爭搶和互相影響的問題，未能做到容器的完全隔離。比如，對視訊記憶體資源需求強烈的應用，可能會佔用了過多資源，使得另一執行緒的容器應用視訊記憶體資源不足。也就是說只解決了算力爭搶的問題，卻未能解決故障隔離的問題。比如某企業在跑兩個容器中分別執行著GPU的推理應用，一個已經穩定了，一個還在開發階段。如果其中一個容器中的應用出現故障，由於沒有實現很好的隔離技術，往往導致另一容器中的應用也會出現故障。

目前，行業內還有一種改良方案，透過把CUDA執行庫替換或者進行調整，這種方案的弊端是使用者沒法將自身搭建的環境無縫放到雲廠商的環境中，而是需要適配和更改CUDA執行庫。

阿里雲推出的cGPU容器技術，可以實現容器的安全隔離，業務之間不會互相干擾，各容器之間的故障不會相互傳遞，更安全、更穩定；同時對客戶環境無侵入，如客戶無需修改CUDA執行庫等，就能讓客戶靈活地利用容器排程底層GPU資源。

阿里雲cGPU容器技術的推出，將進一步推動更多的企業使用容器排程底層GPU容器資源，能夠毫無後顧之憂地提升GPU資源利用率，實現降本增效。

提高GPU利用率，阿里雲cGPU容器技術助力人工智慧提效降本

相關文章