nvidia-docker2 在 Kubernetes 上實踐

HULK一線技術雜談發表於2018-11-30

原文網址 : http://blog.itpub.net/31555491/viewspace-2222262/

女主宣言

nvida-docker2 可以幫助我們將舊的加速計算應用程式容器化，將特定的 GPU 資源分配給容器，並可以輕鬆地跨不同的環境共享應用程式、協同工作和測試應用程式。今天帶來的分享是有關 nvidia-docker2 在大規模 Kubernetes 叢集上的實踐記錄。本文首發於 OpsDev.cn，轉載已獲取作者授權。

The Dunes in Mars' Wirtz Crater

by NASA IOTD

現在公司線上所有的k8s叢集對GPU資源的使用都是nvidia-docker 1.0(歷史遺留問題)。但是現在的kubernetes1.9推薦使用device plugin的方式來對接外部廠商的資源。這樣所有的廠商資源就不要kubernetes去特定的支援，而是各服務廠商只要按照kubernetes提供的device plugin實現自己的一套就可以了。今天就針對nvidia-docker2.0 進行了下測試。在此做下記錄。

實驗環境

CentOS Linux release 7.2.1511 (Core)
kuberntes: 1.9
GPU: nvidia-tesla-k80

Installation (version 2.0)

直接參照官方的安裝教程: Installation (version 2.0))

https://github.com/nvidia/nvidia-docker/wiki/Installation-(version-2.0)

在安裝nvidia-docker 2.0需要做一些準備的工作,要求如下:

GNU/Linux x86_64 with kernel version > 3.10
Docker >= 1.12
NVIDIA GPU with Architecture > Fermi (2.1)
NVIDIA drivers~= 361.93 (untested on older versions)

Your driver version might limit your CUDA capabilities

(see CUDA requirements)

https://github.com/nvidia/nvidia-docker/wiki/CUDA#requirements

簡單的描述下安裝的過程:

CentOS 7 (docker-ce), RHEL 7.4/7.5 (docker-ce), Amazon Linux 1/2

# If you have nvidia-docker 1.0 installed: we need to remove it and all existing GPU containers

docker volume ls -q -f driver=nvidia-docker | xargs -r -I{} -n1 docker ps -q -a -f volume={} | xargs -r docker rm -f

sudo yum remove nvidia-docker

# Add the package repositories

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)

curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | \

sudo tee /etc/yum.repos.d/nvidia-docker.repo

# Install nvidia-docker2 and reload the Docker daemon configuration

sudo yum install -y nvidia-docker2

sudo pkill -SIGHUP dockerd

# Test nvidia-smi with the latest official CUDA image

docker run --runtime=nvidia --rm nvidia/cuda:9.0-base nvidia-smi

nvidia-docker 2.0安裝完成之後，需要配置docker的runtime為nvidia-container-runtime。

具體的內容如下:

{

"default-runtime":"nvidia",

"runtimes": {

"nvidia": {

"path": "/usr/bin/nvidia-container-runtime",

"runtimeArgs": []

}

重新啟動docker服務:

systemctl restart docker

注意：If you have a custom /etc/docker/daemon.json, the nvidia-docker2 package might override it.

GPU on kubernetes

簡述的描述下現在kubernetes對GPU的支援情況。kubernetes在1.6版本就開始對nvidia GPU的支援，並且仍然在不斷的優化改進中。kubernetes對AMD GPU的支援是在1.9版本才支援。但是現在kubernetes仍然還沒有支援多容器使用同一塊GPU卡的情況。這樣就會造成GPU資源的浪費。

kubernetes 官方文件描述:

Each container can request one or more GPUs. It is not possible to request a fraction of a GPU.

nvidia-docker2.0 已經安裝完成了，繼續，下來就是如何在kubernetes上使用了。kubernetes要排程GPU 有這麼幾點要求:

開啟kubernetes對GPU的支援。(在1.10之前需要指定--feature-gates="DevicePlugins=true"。1.10之後就不需要在指定了)。
在kubernetes計算節點安裝GPU drivers及device plugin。

對Device Plugins進行下簡單的描述:

從kuberntes 1.8版本開始提供一套device plugin framework來為服務廠商接入它們自己的資源(GPUs, High-performance NICs, FPGAs)。而不需要更改kubernetes的原始碼。

現在我們只關心Nvidia-GPU，讓我們來部署GPU device plugin, 具體的部署流程如下:

nvidia-docker-plugin.yml

apiVersion: extensions/v1beta1

kind: DaemonSet

metadata:

namespace: kube-system

spec:

template:

metadata:

# Mark this pod as a critical add-on; when enabled, the critical add-on scheduler

# reserves resources for critical add-on pods so that they can be rescheduled after

# a failure. This annotation works in tandem with the toleration below.

annotations:

scheduler.alpha.kubernetes.io/critical-pod: ""

labels:

spec:

tolerations:

# Allow this pod to be rescheduled while the node is in "critical add-ons only" mode.

# This, along with the annotation above marks this pod as a critical add-on.

- key: CriticalAddonsOnly

operator: Exists

containers:

- image: nvidia/k8s-device-plugin:1.9

securityContext:

allowPrivilegeEscalation: false

capabilities:

drop: ["ALL"]

volumeMounts:

- name: device-plugin

mountPath: /var/lib/kubelet/device-plugins

volumes:

- name: device-plugin

hostPath:

path: /var/lib/kubelet/device-plugins

建立GPU-device-plugin資源:

kubectl create -f nvidia-docker-plugin.yml

建立成功之後，在每臺GPU機器上會有nvidia-device-plugin-daemonset的資源。

現在所有的準備工作都完成了。讓我們來測試GPU能否正常的排程到GPU機器上吧。測試的gpu-pod資源mainfest內容如下:

nvidia-docker2-gpu-pod.yml

apiVersion: v1

kind: Pod

metadata:

spec:

restartPolicy: OnFailure

containers:

- name: cuda-vector-add

image: "k8s.gcr.io/cuda-vector-add:v0.1"

resources:

limits:

nvidia.com/gpu: 1

nodeSelector:

accelerator: nvidia-tesla-k80 # or nvidia-tesla-k80 etc.

根據上面的檔案建立資源並進行校驗:

kubectl create -f nvidia-docker2-gpu-pod.yml

進入到容器中檢視相關的裝置及cuda庫是否掛載到了容器中，並且驗證我們給容器分配的只有一塊卡。

總結

在kubernetes中使用nvidia-docker 1.0的弊端在於，在使用資源物件進行資源建立的時候，需要在配置中將GPU Driver以volume的方式掛載到容器中，這步需要人為的進行干涉。

但是使用nvidia-docker 2.0的方式不要再在配置中指定GPU Driver的位置，完全有device plugin來做這件事，方便省事兒。並且kubernetes對外提供了device plugin的介面，也方便各個廠商來對自家的資源實現對k8s的無縫接入。

不僅僅是device plugin，kubernetes對容器執行時，也提供了同樣的interface的方式，來對外提供對各家執行時的支援，這也就是kubernetes擴充套件性的強大之處吧。

HULK一線技術雜談

由360雲平臺團隊打造的技術分享公眾號，內容涉及雲端計算、資料庫、大資料、監控、泛前端、自動化測試等眾多技術領域，通過夯實的技術積累和豐富的一線實戰經驗，為你帶來最有料的技術分享

原文連結：https://mp.weixin.qq.com/s/rIvYHE0sQRYdZNYS56J64w

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31555491/viewspace-2222262/，如需轉載，請註明出處，否則將追究法律責任。

Jenkins 在 Kubernetes 上的實踐
2021-06-19
Jenkins
Kubernetes在宜信落地實踐
2018-12-04
LoadBalancer在kubernetes架構下的實踐
2020-05-24
架構
使用Devtron在Kubernetes上實現GitOps
2022-05-07
devGit
kubernetes實踐之七十：Istio之流量管理(上)
2018-08-14
Native Flink on Kubernetes 在小紅書的實踐
2022-05-16
SpringCloud 應用在 Kubernetes 上的最佳實踐 —— 開發篇
2020-07-02
SpringGCCloud
Kubernetes監控實踐
2019-09-19
Serverless Kubernetes 落地實踐
2021-12-29
Server
Kubernetes Deployment 最佳實踐
2021-11-27
建木在 Rainbond 上使用實踐
2023-04-06
AI
SpringCloud 應用在 Kubernetes 上的最佳實踐 — 線上釋出（可灰度）
2020-07-31
SpringGCCloud
SpringCloud 應用在 Kubernetes 上的最佳實踐 — 診斷（線上聯調）
2020-08-14
SpringGCCloud
kubernetes實踐之六十：Cabin-Manage Kubernetes
2018-06-21
SpringCloud 應用在 Kubernetes 上的最佳實踐 — 部署篇(工具部署)
2020-07-24
SpringGCCloud
SpringCloud 應用在 Kubernetes 上的最佳實踐 — 高可用（熔斷）
2020-09-18
SpringGCCloud
SpringCloud 應用在 Kubernetes 上的最佳實踐 — 線上釋出（可監控）
2020-09-07
SpringGCCloud
SpringCloud 應用在 Kubernetes 上的最佳實踐 — 線上釋出（可回滾）
2020-09-14
SpringGCCloud
kubernetes實踐之十一：EFK
2018-04-07
Kubernetes 微服務最佳實踐
2022-01-25
微服務
2023年Kubernetes最佳實踐
2022-12-02
Kubernetes 最佳安全實踐指南
2020-12-15
SpringCloud 應用在 Kubernetes 上的最佳實踐 — 線上釋出（優雅上下線）
2020-09-15
SpringGCCloud
SpringCloud 應用在 Kubernetes 上的最佳實踐 — 部署篇（開發部署）
2020-07-17
SpringGCCloud
Spring Cloud 應用在 Kubernetes 上的最佳實踐 — 高可用（混沌工程）
2020-09-22
SpringCloud
SpringCloud 應用在 Kubernetes 上的最佳實踐 —— 高可用（容量評估）
2020-09-27
SpringGCCloud
在 Ali Kubernetes 系統中，我們這樣實踐混沌工程
2019-03-20
Apache SkyWalking在windows機器上的實踐
2019-03-08
ApacheWindows
kubernetes實踐之十：Kubernetes-dashboard+Heapster+InfluxDB+Grafana
2018-04-01
UXGrafana
kubernetes實踐之三十一：kubectl
2018-05-05
kubernetes實踐之五十七：PodPreset
2018-06-12
kubernetes實踐之五十八：CronJob
2018-06-12
kubernetes實踐之五十二：Helm
2018-06-06
kubernetes實踐之五十九：NetworkPolicy
2018-06-20
VPGAME 的 Kubernetes 遷移實踐
2019-10-31
GAM
VPGAME的Kubernetes遷移實踐
2019-10-11
GAM
Kubernetes YAML最佳實踐和策略
2020-11-03
YAML
kubernetes1.13.X實踐-部署
2018-12-27

nvidia-docker2 在 Kubernetes 上實踐

相關文章