k8s 排程 GPU

運維工作棧發表於2021-02-04

原文網址 : https://www.cnblogs.com/ninejy/p/14375083.html

最近公司有專案想在 k8s 叢集中執行 GPU 任務，於是研究了一下。下面是部署的步驟。

1. 首先得有一個可以執行的 k8s 叢集. 叢集部署參考 kubeadm安裝k8s

2. 準備 GPU 節點

2.1 安裝驅動

apt-get install cuda-drivers-455 # 按需要安裝對應的版本

2.2 安裝 nvidia-docker2

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt-get update && sudo apt-get install -y nvidia-docker2

## /etc/docker/daemon.json 檔案中加入以下內容, 使預設的執行時是 nvidia
{
    "default-runtime": "nvidia",
    "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
        }
    }
}

## 重啟 docker
sudo systemctl restart docker

2.3 在 k8s 叢集中安裝 nvidia-device-plugin 使叢集支援 GPU

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.7.3/nvidia-device-plugin.yml

# 如果因為網路問題訪問不到該檔案, 可在瀏覽器開啟 https://github.com/NVIDIA/k8s-device-plugin/blob/v0.7.3/nvidia-device-plugin.yml
## 把檔案內容拷貝到本地執行

nvidia-device-plugin 做三件事情

Expose the number of GPUs on each nodes of your cluster
Keep track of the health of your GPUs
Run GPU enabled containers in your Kubernetes cluster.

之後把節點加入 k8s 叢集

以上步驟成功完成之後, 執行以下命令能看到類似下面圖片中的內容說明外掛安裝好了

kubectl get pod --all-namespaces | grep nvidia
kubectl describe node 10.31.0.17

3. 執行 GPU Jobs

# cat nvidia-gpu-demo.yaml
apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
    - name: cuda-container
      image: nvidia/cuda:9.0-devel
      resources:
        limits:
          nvidia.com/gpu: 2 # requesting 2 GPUs
    - name: digits-container
      image: nvidia/digits:6.0
      resources:
        limits:
          nvidia.com/gpu: 2 # requesting 2 GPUs

kubectl apply -f nvidia-gpu-demo.yaml

kubectl exec -it xxx-76dd5bd849-hlmdr -- bash

# nvidia-smi

以上就簡單實現了 k8s 排程 GPU 任務。

如有遇到問題可在留言區討論。

k8s排程器介紹（排程框架版本）
2021-10-15
K8S框架
k8s排程器
2019-11-17
K8S
k8s之pod排程
2021-07-14
K8S
K8S 高階排程方式
2018-11-29
K8S
Flink排程之排程器、排程策略、排程模式
2023-03-08
模式
解決k8s排程不均衡問題
2022-06-20
K8S
K8s 容器的定向排程與親和性
2024-10-30
K8S
K8S原來如此簡單（六）Pod排程
2022-03-25
K8S
從零開始入門 K8s | 排程器的排程流程和演算法介紹
2020-01-08
K8S演算法
使用 K8s 進行作業排程實戰分享
2020-08-27
K8S
K8s中的排程程式是如何工作的？ - daniele
2020-09-25
K8S
在K8S中，Pod常見排程方式有哪些?
2024-10-09
K8S
Kubernetes (k8s)呼叫GPU配置
2024-07-23
K8SGPU
在K8S中，Requests 和 Limits 如何影響 Pod 的排程?
2024-10-15
K8SMIT
kubernetes 排程
2022-07-14
K8s Scheduler 在排程 pod 過程中遺漏部分節點的問題排查
2021-05-13
K8S
Go排程器系列（3）圖解排程原理
2019-04-06
Go圖解
排程器簡介，以及Linux的排程策略
2020-03-26
Linux
Go語言排程器之主動排程(20)
2019-05-28
Go
Go runtime 排程器精講（五）：排程策略
2024-09-14
Go
Spark中資源排程和任務排程
2021-11-12
Spark
crane-scheduler基於真實負載進行k8s排程
2024-12-05
負載K8S
Go語言排程器之排程main goroutine（14）
2019-05-09
GoAI
Go排程器系列（2）巨集觀看排程器
2019-03-27
Go
Pod的排程是由排程器（kube-scheduler）
2024-10-11
async-await：協作排程 vs 搶佔排程
2022-01-26
AI
任務排程
2018-11-24
雲排程概述
2020-10-02
Kubernetes 排程器
2020-11-21
linux程式排程
2018-12-27
Linux
Laravel Scheme排程
2021-05-20
LaravelScheme
資料排程
2022-11-13
2.2.5排程演算法：時間片輪轉、優先順序排程、多級反饋排程
2020-11-07
演算法
[典藏版] Golang 排程器 GMP 原理與排程全分析
2020-03-11
Golang
Go runtime 排程器精講（二）：排程器初始化
2024-09-11
Go
07 系統排程
2018-11-24
Kubernetes之Pod排程
2018-12-14
Linux IO排程方法
2018-08-06
Linux