在Ubuntu 20.04中安裝Nvidia V100 GPU驅動

大雄45發表於2022-12-30
導讀 本文介紹如何在Ubuntu 20.04 作業系統中禁用nouveau驅動,並安裝Nvidia Tesla V100型號GPU的驅動,並安裝CUDA11.6和cuDNN。
安裝Ubuntu 20.04.3 LTS版本

安裝Ubuntu 20.04按照安裝提示,仔細選擇每一項,基本預設即可。
在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動

系統中檢視GPU資訊

系統安裝完成之後,進入系統,使用lspci  查詢一下GPU是否存在、型號資訊是什麼。

bpang@bobpang:~$ sudo lspci |grep -i nvidia
2f:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)
86:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)
下載NVIDIA Tesla V100驅動

透過lspci查詢到GPU的型號之後,訪問官網 nvidia.com下載驅動程式可以按照如下選擇,選擇產品型別、系列、型號、然後根據自己的作業系統來選擇。
注意:如果作業系統是 ,儘量選擇Linux 32-bit/Linux 64-bit,不需要選擇詳細的Linux發行版本。測試是發現選擇詳細的Linux發行版本,安裝驅動之後,找不到nvidia-smi 。
在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動

在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動

安裝gcc等依賴包

當安裝GPU驅動時,提示缺少相關的依賴包,在此,我們需要提前安裝相關的依賴包,目前需要用到的是gcc , g++ , make :

bpang@bobpang:~$ sudo apt install gcc g++ make
遮蔽nouveau開源版本的GPU驅動

當系統安裝完成之後,會安裝系統開源的NVIDIA驅動版本,名稱為nouveau。下面將遮蔽該驅動。
首先,建立/etc/modprobe.d/blacklist-nouveau.conf檔案,

bpang@bobpang:~$ sudo vim /etc/modprobe.d/blacklist-nouveau.conf

將下面內容新增進去:

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

建立/etc/modprobe.d/nouveau-kms.conf檔案,將options nouveau mdeset=0新增進去:

bpang@bobpang:~$ echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf

更新一下initramfs:

bpang@bobpang:~$ sudo update-initramfs -u

重啟伺服器:

bpang@bobpang:~$ sudo reboot

檢視nouveau模組是否載入,不顯示的話就表示已經禁用:

bpang@bobpang:~$ sudo lsmod | grep nouveau

在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動

安裝NVIDIA GPU驅動

安裝下載的GPU驅動:NVIDIA-Linux-x86_64-510.47.03.run ,目前驅動版本為:510.47.03,如下執行該驅動檔案,即可安裝。

bpang@bobpang:~$ ./ NVIDIA-Linux-x86_64-510.47.03.run

安裝完成之後,可以使用lspci看到GPU的驅動資訊:
在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動
使用nvidia-smi命令檢視GPU的資訊

bpang@bobpang:~$  nvidia-smi

在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動

安裝CUDA 11.6

訪問nvidia官網,下載CUDA,cuda的連結為:https://developer.nvidia.com/cuda-downloads
選擇runfile檔案來安裝。
在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動

bpang@bobpang:~$  wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
bpang@bobpang:~$  sudo sh cuda_11.6.0_510.39.01_linux.run

如下圖,Driver選項不要勾選了,前面已經安裝GPU驅動了。
在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動
在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動
建立環境變數,編輯 ~/.bashrc檔案:

bpang@bobpang:/data/cuda$ vim ~/.bashrc

將下面命令追加到檔案最後面:

export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

nvcc命令建立一個軟連線到/usr/bin目錄:

bpang@bobpang:/data/cuda$ sudo ln -s /usr/local/cuda/bin/nvcc /usr/bin/nvcc

使用nvcc命令檢視cuda的版本:

bpang@bobpang:/data/cuda$ nvcc --version

在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動

驗證CUDA是否安裝成功

下載CUD例項檔案。因為CUDA 11.6版本中 /usr/local/cuda/samples裡面沒有例項檔案,只有一個README檔案,內容中告訴你需要從github下載,因為github太慢,所以從gitee中下載例項檔案:

bpang@bobpang:~$ git clone https://gitee.com/liwuhaoooo/cuda-samples.git
bpang@bobpang:~$ mv cuda-samples/Samples/* /usr/local/cuda/samples/*
bpang@bobpang:~$ cd /usr/local/cuda/samples/1_Utilities/deviceQuery
$ sudo make
$ ./deviceQuery

在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動
在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動

安裝cuDNN

https://developer.nvidia.com/cudnn 從官網下載cudnn
在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動
在Ubuntu 20.04中安裝Nvidia V100 GPU驅動在Ubuntu 20.04中安裝Nvidia V100 GPU驅動
下載的檔名為:cudnn-linux-x86_64-8.3.2.44_cuda11.5-archive.tar.xz
檔案複製到伺服器。然後安裝:

bpang@bobpang:/data$ tar xvf cudnn-linux-x86_64-8.3.2.44_cuda11.5-archive.tar.xz
bpang@bobpang:~$ cd /usr/local/cuda
bpang@bobpang:/usr/local/cuda$ sudo cp -p /data/cudnn-linux-x86_64-8.3.2.44_cuda11.5-archive/include/cudnn*.h include/
bpang@bobpang:/usr/local/cuda$ sudo cp -p /data/cudnn-linux-x86_64-8.3.2.44_cuda11.5-archive/lib/libcudnn* lib64/
bpang@bobpang:~$ sudo chmod a+r /usr/local/cuda-11.6/include/cudnn.h
bpang@bobpang:~$ sudo chmod a+r /usr/local/cuda-11.6/lib64/libcudnn*

本文原創地址:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2885767/,如需轉載,請註明出處,否則將追究法律責任。

相關文章