Containerd 配置使用 Nvidia container runtime

牛奔發表於2024-04-25

原文網址 : https://www.cnblogs.com/niuben/p/18154302

前言

Kubernetes 叢集中 Docker 如何使用 GPU，請看這一篇

docker配置Nvidia環境，使用GPU

本文著重講 Containerd 如何作為容器執行時來使用 GPU

nvidia-container-runtime

nvidia-container-runtime 是在 runc 基礎上多實現了 nvidia-container-runime-hook (現在叫 nvidia-container-toolkit)，該 hook 是在容器啟動後（Namespace 已建立完成），容器自定義命令( Entrypoint )啟動前執行。當檢測到 NVIDIA_VISIBLE_DEVICES 環境變數時，會呼叫 libnvidia-container 掛載 GPU Device 和 CUDA Driver。如果沒有檢測到 NVIDIA_VISIBLE_DEVICES 就會執行預設的 runc。

設定 repository 和 GPG key：

curl -s -L https://nvidia.github.io/nvidia-container-runtime/gpgkey | sudo apt-key add -

curl -s -L https://nvidia.github.io/nvidia-container-runtime/$(. /etc/os-release;echo $ID$VERSION_ID)/nvidia-container-runtime.list | sudo tee /etc/apt/sources.list.d/nvidia-container-runtime.list

開始安裝 nvidia-container-runtime

apt install nvidia-container-runtime -y

配置 Containerd 使用 Nvidia container runtime

如果 /etc/containerd 目錄不存在，就先建立它：

mkdir /etc/containerd

生成預設配置：

containerd config default > /etc/containerd/config.toml

Kubernetes 使用裝置外掛（Device Plugins）來允許 Pod 訪問類似 GPU 這類特殊的硬體功能特性，但前提是預設的 OCI runtime 必須改成 nvidia-container-runtime，需要修改的內容如下：

[plugins."io.containerd.grpc.v1.cri"]
  [plugins."io.containerd.grpc.v1.cri".containerd]
    default_runtime_name = "nvidia-container-runtime" # 修改為nvidia-container-runtime
  [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc]
    runtime_type = "io.containerd.runc.v2" # 修改為io.containerd.runc.v2
  # 新增以下
  [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia-container-runtime]
    runtime_type = "io.containerd.runtime.v1.linux"
    runtime_engine = "/usr/bin/nvidia-container-runtime"

重啟 containerd 服務：

systemctl restart containerd
systemctl status containerd

確定 containerd 狀態沒有問題，配置成功

接下來部署 NVIDIA GPU 裝置外掛，nvidia-device-plugin

配置NVIDIA Container Runtime和容器執行GPUStack教程
2024-11-19
AIGPU
使用 NVIDIA Container Toolkit 和 Docker 配置 GPU 深度學習環境
2024-10-02
AIDockerGPU深度學習
containerd 原始碼分析：建立 container（一）
2024-06-04
AI原始碼
containerd 原始碼分析：建立 container（三）
2024-06-04
AI原始碼
實操｜如何將 Containerd 用作 Kubernetes runtime
2021-01-20
AI
containerd 配置使用私有映象倉庫 harbor
2024-04-28
AI
docker配置Nvidia環境，使用GPU
2024-04-25
DockerGPU
配置docker和containerd,使用ca證書訪問harbor
2024-11-08
DockerAI
Docker和containerd服務配置國內源
2024-08-19
DockerAI
配置 containerd 映象倉庫完全攻略
2021-01-25
AI
Container容器元件的使用
2019-06-28
AI元件
Nvidia AGX Xavier Jetson 開機配置
2020-12-27
[雲原生微服務架構]（十一） Kubernetes高可用叢集二進位制部署（Runtime Containerd）
2022-09-15
微服務架構AI
使用containerd搭建MinIO叢集服務
2023-03-14
AI
Kubernetes 教程：在 Containerd 容器中使用 GPU
2020-12-08
AIGPU
Swift SB 容器 Container View使用
2019-03-01
SwiftAIView
elasticsearch中使用runtime fields
2023-02-01
Elasticsearch
containerd 原始碼分析：kubelet 和 containerd 互動
2024-05-22
AI原始碼
Github Actions 中 Service Container 的使用
2020-12-07
GithubAI
iOS Runtime介紹和使用
2019-04-08
iOS
使用 Kubeadm+Containerd 部署一個 Kubernetes 叢集
2022-01-26
AI
docker 使用 Nvidia 顯示卡
2020-05-17
Docker
containerd容器執行時快速入門使用指南
2024-03-07
AI
runtime的底層原理和使用
2018-08-15
containerd中的cgroup
2024-03-21
AI
Containerd NRI 外掛
2023-02-06
AI
Vivado使用技巧（8）：Core Container打包IP核
2018-08-17
AI
Container on AWS
2018-09-14
AI
Container & Microservice
2018-09-13
AIROS
runtime簡單使用-Empty-展示VC
2018-09-07
使用Runtime來實現自己的KVO
2018-04-25
神經病院 Objective-C Runtime 出院第三天——如何正確使用 Runtime
2019-03-04
Object
【Azure Developer】在Github Action中使用Azure/functions-container-action@v1配置Function App併成功部署Function Image
2023-01-17
DeveloperGithubFunctionAIAPP
2.3.7 Container Maps
2020-03-16
AI
Dotnet Core使用特定的SDK&Runtime版本
2020-10-14
ng-template和ng-container的巢狀使用
2020-10-07
AI巢狀
Nvidia Triton使用教程：從青銅到王者
2022-05-18
flutter Container的decoration
2021-08-11
FlutterAI

Containerd 配置使用 Nvidia container runtime

前言

nvidia-container-runtime

相關文章