docker run命令指定GPU多個顯示卡不生效的問題解決和程式碼示例

啟鑫發表於2021-09-04

原文網址 : https://www.cnblogs.com/yuqx/p/15226494.html

問題描述：我有一個程式(app)，需要用到顯示卡來跑。原本的部署方式是直接修改程式的配置檔案來指定要用到的顯示卡。

這是我伺服器的顯示卡資訊：總共3卡分別是 0卡，1卡和2卡。

[root@k8s-rancher1 etc]# nvidia-smi 
Sat Sep  4 12:50:17 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.84       Driver Version: 460.84       CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce GTX 1070    Off  | 00000000:02:00.0 Off |                  N/A |
| 21%   37C    P0    37W / 180W |      0MiB /  8119MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 1070    Off  | 00000000:03:00.0 Off |                  N/A |
| 24%   46C    P5    13W / 180W |      0MiB /  8119MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   2  GeForce GTX 1070    Off  | 00000000:04:00.0 Off |                  N/A |
| 24%   48C    P5    16W / 180W |      0MiB /  8119MiB |      2%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

這是程式的配置檔案a.conf修改顯示卡使用的地方：注意這裡我啟用了0卡和1卡

原始的程式啟動命令 ./app -c ./a.conf。程式啟動後執行nvidia-smi，觀察到0卡和1卡都已經被佔用，我就不貼圖了。

我想做的是直接在docker指定要啟用的顯示卡，擺脫配置檔案，這樣在後續封裝pyhon-docker介面的時候就不用再動態的修改配置檔案然後再掛載進容器內。

現在，我把程式打包成映象檔案，下面是我容器啟動命令：

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021 -v /root/a.conf:/root/a.conf  --gpus all 192.168.9.102:2021/example/app:latest

這裡我用 --gpus all 使用全部顯示卡(總共3卡)，容器啟動後會根據掛載的a.conf來選定要使用的卡，也就是0卡和1卡會被佔用，2卡會空閒起來。這並沒有問題，我們可以這麼理解為，docker run 顯示卡指定all的時候，程式會根據自身的配置檔案來啟用對應的顯示卡。

那麼，問題來了，如果我在docker run 指定要用的一個或多個顯示卡，那麼容器啟動時，顯示卡佔用情況是怎麼樣的呢？

實驗1：

　　1. a.conf 配置0卡和1卡

2. docker run 指定顯示卡為2卡

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021  -v /root/a.conf:/root/a.conf  --gpus '"device=2"' 192.168.9.102:2021/example/app:latest

結果：

結果程式啟用的是2卡，也就是說可以不可以理解為docker run 指定顯示卡和配置檔案不一致時，會以docker分配的顯示卡為主。

實驗2：

　　1. a.conf 配置0卡

2. docker run 指定顯示卡為1卡和2卡

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021  -v /root/a.conf:/root/a.conf  --gpus '"device=1,2"' 192.168.9.102:2021/example/app:latest

結果顯示卡1被佔用，2卡沒被佔用，0卡也沒被佔用，這我就沒弄明白是什麼情況。

後續我又把配置檔案改成1卡，docker指定1,2卡，結果被佔用的只有2卡。如此反覆，毫無規律。

後面我又測試了很多次，網上也找不到任何相關的資料，最終找到了一個完美的辦法，可以完全不對配置檔案做任何修改，也不用掛載配置檔案了，過程就不說了。

解決方案：

我們在對程式做映象的時候把a.conf配置檔案顯示卡配置那塊全部拉滿，把所有卡都配置進去！。這裡考慮到了四卡情況，雖然當前伺服器只有3卡。

測試：

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021  -v /root/a.conf:/root/a.conf  --gpus '"device=1,2"' 192.168.9.102:2021/example/app:latest

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021  -v /root/a.conf:/root/a.conf  --gpus '"device=0,2"' 192.168.9.102:2021/example/app:latest

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021  -v /root/a.conf:/root/a.conf  --gpus '"device=0"' 192.168.9.102:2021/example/app:latest

驗證沒有任何問題。我的理解是配置檔案先把顯示卡佔用拉滿，用不用得到另說，程式最終具體用到哪些顯示卡就看docker給它分配哪些了。

有沒有docker大佬告訴我一下具體是什麼原理呢？

Docker修改/etc/default/docker裡的DOCKER_OPTS引數不生效問題解決
2018-09-06
Docker
docker下mysql連線數修改後不生效問題的解決
2024-04-02
DockerMySql
js程式碼不生效的解決方案
2020-12-14
JS
修改java或css後不生效，還是顯示修改之前的樣式，問題已解決
2021-01-04
JavaCSS
解決 PBootCMS 後臺登入不顯示驗證碼的問題
2024-09-29
boot
LiveCharts中文顯示亂碼問題的解決
2024-06-02
Echarts
MacOS 不顯示 SD 卡的 bug 解決方法
2018-03-31
Mac
.net專案使用Docker部署（包括解決後臺驗證碼，部署後不顯示的問題）
2024-08-02
Docker
解決text-overflow: ellipsis;不生效的問題
2021-09-09
vue scoped 解決樣式不生效問題
2020-08-04
Vue
專業顯示卡和遊戲顯示卡的區別詳解專業顯示卡和遊戲顯示卡哪個好？
2018-11-21
遊戲
maven，環境指定不生效，profiles指定不生效
2024-09-12
Maven
vue-解決background-image：url不顯示問題
2024-04-27
Vue
顯示卡風扇不轉正常嗎顯示卡風扇不轉怎麼修復解決
2022-07-07
解決docker jenkins 配置SSH免密登入配置成功後不生效問題
2022-07-03
DockerJenkins
gtx和rtx顯示卡的區別 gtx顯示卡和rtx顯示卡哪個好
2022-09-07
解決MySQL中文亂碼和插入中文不顯示的方法
2020-10-11
MySql
GPU顯示卡伺服器
2022-04-02
GPU伺服器
顯示卡瓶頸是什麼，如何識別顯示卡GPU瓶頸並解決以提升PC效能
2024-05-03
GPU
顯示卡鎖算力和不鎖算力的區別顯示卡鎖算力和不鎖算力的哪個好
2022-04-29
記錄@EnumValue註解不生效的問題
2024-03-14
NVIDIA和ATI顯示卡哪個好？NVIDIA和ATI顯示卡的區別
2019-10-22
AMD 5700 XT顯示卡裝ubuntu18.04.* 驅動的問題解決（全）
2020-08-16
Ubuntu
Docker run 命令
2018-06-13
Docker
docker 使用 Nvidia 顯示卡
2020-05-17
Docker
archlinux下wps顯示問題解決方法
2024-04-20
Linux
php onethink驗證碼不顯示的解決辦法
2021-09-11
PHP
Mokito多個ArgumentMatchers不生效
2019-04-01
JAVA編輯word替換指定內容，解決插入圖片顯示不全問題
2024-07-15
Java
GPU顯示卡伺服器的用途有哪些
2022-06-25
GPU伺服器
多卡4090伺服器怎麼使用指定顯示卡啟動服務
2024-11-01
伺服器
win10顯示卡驅動裝不上怎麼辦_win10顯示卡驅動安裝不上的解決方法
2019-12-28
Win10
易優cms修復驗證碼不顯示的問題
2018-10-20
獨立顯示卡與整合顯示卡的區別獨立顯示卡與整合顯示卡哪個更好
2022-08-31
1660顯示卡win10安裝不了停止提示程式碼43的解決方法
2020-03-06
Win10
win10顯示卡驅動死活裝不上 win10解決顯示卡驅動不相容
2022-02-15
Win10
vue使用iview Timeline 時間軸不顯示渲染的效果問題解決辦法
2018-05-28
VueView
解決了一個困擾我近一年的vim顯示中文亂碼的問題
2019-01-19

docker run命令指定GPU多個顯示卡不生效的問題解決和程式碼示例

相關文章