Centos 7.8 中安裝Nvidia A100 GPU驅動

大雄45發表於2022-04-06
導讀 本文介紹如何在  7.8 作業系統中禁用nouveau驅動,並安裝Nvidia Tesla A100型號GPU的驅動,並安裝CUDA11.6和cuDNN。
系統中檢視GPU資訊

系統安裝完成之後,進入系統,使用lspci  查詢一下GPU是否存在、型號資訊是什麼。

[root@node01 ~]# lspci | grep -i nvidia
下載NVIDIA Tesla A100驅動

透過lspci查詢到GPU的型號之後,訪問官網 nvidia.com下載驅動程式可以按照如下選擇,選擇產品型別、系列、型號、然後根據自己的作業系統來選擇。
注意:如果作業系統是 ,儘量選擇Linux 32-bit/Linux 64-bit,不需要選擇詳細的Linux發行版本。測試是發現選擇詳細的Linux發行版本,安裝驅動之後,找不到nvidia-smi 。
Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動
Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動

安裝gcc等依賴包

當安裝GPU驅動時,提示缺少相關的依賴包,在此,我們需要提前安裝相關的依賴包,目前需要用到的是gcc , g++ , make :

[root@localhost ~]# yum -y install gcc gcc-c++ kernel-devel make
遮蔽nouveau開源版本的GPU驅動

當系統安裝完成之後,會安裝系統開源的NVIDIA驅動版本,名稱為nouveau。檢視nouveau驅動是否載入。

[root@localhost ~]# lsmod |grep -i nouveau

Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動
下面將遮蔽該驅動。編輯 /etc/default/grub檔案,修改 GRUB_CMDLINE_LINUX一行:

[root@localhost ~]# cat /etc/default/grub

Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動
儲存退出,更新grub:

[root@localhost ~]# grub2-mkconfig -o /boot/grub2/grub.cfg
Generating grub configuration file ...
Found linux image: /boot/vmlinuz-3.10.0-1160.el7.x86_64
Found initrd image: /boot/initramfs-3.10.0-1160.el7.x86_64.img
Found linux image: /boot/vmlinuz-0-rescue-91fd57f1c90a4a2da20ef93ed7f886c6
Found initrd image: /boot/initramfs-0-rescue-91fd57f1c90a4a2da20ef93ed7f886c6.img
done
[root@localhost ~]# grub2-mkconfig -o /boot/grub2/grub.efi.cfg
Generating grub configuration file ...
Found linux image: /boot/vmlinuz-3.10.0-1160.el7.x86_64
Found initrd image: /boot/initramfs-3.10.0-1160.el7.x86_64.img
Found linux image: /boot/vmlinuz-0-rescue-91fd57f1c90a4a2da20ef93ed7f886c6
Found initrd image: /boot/initramfs-0-rescue-91fd57f1c90a4a2da20ef93ed7f886c6.img

Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動
編輯 /lib/modprobe.d/dist-blacklist.conf,把 blacklist nvidiafb 改成 #blacklist nvidiafb,然後在最下面新增 blacklist nouveau和。

[root@localhost ~]# vim /lib/modprobe.d/dist-blacklist.conf
# blacklist nvidiafb
blacklist nouveau
options nouveau modeset=0

Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動
Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動
備份initrams並使用dracut重新建立initramfs並重啟系統:

[root@localhost ~]# mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
[root@localhost ~]# dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
[root@localhost ~]#  reboot

檢視nouveau模組是否載入,不顯示的話就表示已經禁用:

# lsmod | grep nouveau

Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動

安裝NVIDIA GPU驅動

安裝下載的GPU驅動:NVIDIA-Linux-x86_64-510.47.03.run ,目前驅動版本為:510.47.03,如下執行該驅動檔案,即可安裝。

[root@localhost ~]# ./NVIDIA-Linux-x86_64-346.47.run

Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動
Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動
輸入 nvidia-smi來檢視是否可以看到GPU資訊:

[root@localhost ~]# nvidia-smi

Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動
至此安裝完成。

安裝CUDA 11.6

訪問nvidia官網,下載CUDA,cuda的連結為:https://developer.nvidia.com/cuda-downloads
選擇runfile檔案來安裝。
Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動

[root@localhost ~]# wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
[root@localhost ~]# sudo sh cuda_11.6.0_510.39.01_linux.run

如下圖,Driver選項不要勾選了,前面已經安裝GPU驅動了。
Centos 7.8 中安裝Nvidia A100 GPU驅動Centos 7.8 中安裝Nvidia A100 GPU驅動
建立環境變數,編輯 ~/.bashrc檔案:

[root@localhost ~]# vim ~/.bashrc

將下面命令追加到檔案最後面:

export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

nvcc命令建立一個軟連線到/usr/bin目錄:

[root@localhost ~]# sudo ln -s /usr/local/cuda/bin/nvcc /usr/bin/nvcc

使用nvcc命令檢視cuda的版本:

[root@localhost ~]# nvcc --version

本文原創地址:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2885760/,如需轉載,請註明出處,否則將追究法律責任。

相關文章