提高GPU利用率,阿里雲cGPU容器技術助力人工智慧提效降本
人工智慧已經深入影響各行各業,作為人工智慧實現的主流實現路徑,深度學習對算力的需求龐大且波動,上雲已成主流趨勢。
GPU是人工智慧算力的重要來源。網際網路及傳統企業客戶,只要有人工智慧相關的業務,都需要租用GPU雲伺服器來做深度學習模型的訓練與推理。
隨著顯示卡技術的不斷髮展和半導體制程工藝的進步,單張GPU卡算力水漲船高,成本愈發高昂。然而,有許多的深度學習任務,並不需要佔用一整張GPU卡。資源排程不夠靈活,造成了GPU資源利用率不高。
這時候,用容器排程底層GPU資源就成了一種很好的解決方案。多租戶(VM)使用同一張GPU卡,可以依靠vGPU技術實現;而單租戶多執行緒的場景,則可以透過GPU容器共享技術實現。透過在GPU卡之上高密度的容器部署,可以將GPU資源做更細顆粒度的切分,提高資源利用率。
阿里雲異構計算近日推出的cGPU容器共享技術,讓使用者透過容器來排程底層GPU資源,以更細顆粒度排程使用GPU,提高GPU資源利用率,達到降本增效的目的。
目前業界普遍使用GPU容器技術。在容器排程GPU的時候,不同執行緒中的容器應用可能出現視訊記憶體資源爭搶和互相影響的問題,未能做到容器的完全隔離。比如,對視訊記憶體資源需求強烈的應用,可能會佔用了過多資源,使得另一執行緒的容器應用視訊記憶體資源不足。也就是說只解決了算力爭搶的問題,卻未能解決故障隔離的問題。比如某企業在跑兩個容器中分別執行著GPU的推理應用,一個已經穩定了,一個還在開發階段。如果其中一個容器中的應用出現故障,由於沒有實現很好的隔離技術,往往導致另一容器中的應用也會出現故障。
目前,行業內還有一種改良方案,透過把CUDA執行庫替換或者進行調整,這種方案的弊端是使用者沒法將自身搭建的環境無縫放到雲廠商的環境中,而是需要適配和更改CUDA執行庫。
阿里雲推出的cGPU容器技術,可以實現容器的安全隔離,業務之間不會互相干擾,各容器之間的故障不會相互傳遞,更安全、更穩定;同時對客戶環境無侵入,如客戶無需修改CUDA執行庫等,就能讓客戶靈活地利用容器排程底層GPU資源。
阿里雲cGPU容器技術的推出,將進一步推動更多的企業使用容器排程底層GPU容器資源,能夠毫無後顧之憂地提升GPU資源利用率,實現降本增效。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31550522/viewspace-2718161/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- PouchContainer 容器技術演進助力阿里雲原生升級AI阿里
- 火山引擎VeDI資料技術分享:兩個步驟,為Parquet降本提效
- 某財稅集團:使用進步的技術,對業務降本提效
- 阿里雲影片雲正式支援AV1編碼格式 為影片編碼服務降本提效阿里
- 阿里雲免費容器與雲效地址阿里
- 訊息服務 + Serverless 函式計算如何助力企業降本提效?Server函式
- 年終盤點一 | 雲原生的 2022 年:降本提效、全面 Serverless 化Server
- 火山引擎 VeDI 平臺以 AIGC 技術,助力企業提效營銷、快速增長AIGC
- 阿里雲容器服務 ACK 產品技術動態(202208)阿里
- 阿里雲容器服務 ACK 產品技術動態(202209)阿里
- 阿里雲容器服務 ACK 產品技術動態(202210)阿里
- 阿里雲容器服務 ACK 產品技術動態(202207)阿里
- 阿里雲容器服務 ACK 產品技術動態(202302)阿里
- RPA助力律師行業提效行業
- 助力Koordinator雲原生單機混部,龍蜥混部技術提升CPU利用率達60%|龍蜥技術
- 浪潮自研SSD:基於SR-IOV技術,助力雲資料中心降本增效
- 阿里雲容器&服務網格產品技術動態(202203)阿里
- 直播助力產業鏈提效降本 5G賦能寶寶樹搶佔多場景入口產業
- 人工智慧技術助力醫療保健人工智慧
- 阿里雲技術專家解讀:2021 年六大容器技術發展趨勢阿里
- 降本提效!註冊中心在螞蟻集團的蛻變之路
- 個推大資料降本提效實戰分享-Q&A精選大資料
- 阿里巴巴開源容器映象加速技術阿里
- 容器技術的未來——京東雲技術專訪
- 成本降低40%、資源利用率提高20%的 AI 應用產品雲原生容器化之路AI
- 工業物聯網如何實現降本、升效、提質、安全、綠色
- kubernetes 降本增效標準指南| 容器化計算資源利用率現象剖析
- 阿里雲GPU雲伺服器效能咋樣?阿里雲GPU雲伺服器最新配置以及報價阿里GPU伺服器
- 阿里雲影片雲實時字幕技術,助力英雄聯盟S10全球總決賽阿里
- 使用阿里雲-雲效部署程式碼阿里
- 容器雲技術:容器化微服務,Istio佔C位出道微服務
- 阿里巴巴成立雲原生技術委員會 雲原生升級為阿里技術新戰略阿里
- 阿里巴巴成立雲原生技術委員會,雲原生升級為阿里技術新戰略阿里
- 阿里巴巴釋出IoTConnect,藍芽mesh技術助力阿里藍芽
- 深度解讀昇騰CANN多流並行技術,提高硬體資源利用率並行
- 從5分鐘到60秒,袋鼠雲數棧在熱重啟技術上的提效探索之路
- 雲原生的彈性 AI 訓練系列之三:藉助彈性伸縮的 Jupyter Notebook,大幅提高 GPU 利用率AIGPU
- 阿里雲叔同:以容器為代表的雲原生技術,已成為釋放雲價值的最短路徑阿里