純淨Ubuntu16安裝CUDA(9.1)和cuDNN

程式設計師欣宸發表於2021-10-12

歡迎訪問我的GitHub

https://github.com/zq2599/blog_demos

內容:所有原創文章分類彙總及配套原始碼,涉及Java、Docker、Kubernetes、DevOPS等;

本篇概覽

  • 自己有一臺2015年的聯想筆記本,顯示卡是GTX950M,已安裝ubuntu 16.04 LTS桌面版,為了使用其GPU完成deeplearning4j的訓練工作,自己動手安裝了CUDA和cuDNN,在此將整個過程記錄下來,以備將來參考,整個安裝過程分為以下幾步:
  • 準備工作
  • 安裝Nvidia驅動
  • 安裝CUDA
  • 安裝cuDNN

特別問題說明

  • 按照一般步驟,在安裝完Nvidia顯示卡驅動後,會提示對應的CUDA版本,接下來按照提示的版本安裝CUDA,例如我這裡提示的是11.2,正常情況下,我應該安裝11.2版本的CUDA
  • 但是我選擇9.1版本就行安裝,因為之前的開發中發現deeplearning4j使用了11.2的SDK後,啟動應用會有ClassNotFound的錯誤,此問題至今未修復(慚愧,欣宸水平如此之低...),因此,我在Nvidia驅動提示11.2版本的情況下,依然安裝了9.1版本,後來在此環境執行deeplearning4j應用一切正常
  • 如果您沒有我這類問題,完全可以按照驅動指定的版本來安裝CUDA,具體的操作步驟稍後會詳細說到;

準備工作

  • 接下來的操作,除了在網頁下載,其餘都是ssh遠端連線到ubuntu機器操作的,ssh登入的帳號為普通帳號,並非root
  • 如果已有驅動,請先刪除:
sudo apt-get remove --purge nvidia*
  • 禁用nouveau驅動(很重要),用vi開啟檔案<font color="blue">/etc/modprobe.d/blacklist.conf</font>,在尾部增加以下內容,然後儲存退出:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
  • 關閉nouveau:
echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf
  • 更新initramfs:
update-initramfs -u
  • 執行reboot重啟電腦
  • 重啟後,執行以下命令,應該不會有任何輸出,證明nouveau已經禁用:
lsmod|grep nouveau
  • 獲取Kernel source:
sudo apt-get install linux-source
  • 安裝過程中顯示資訊如下圖:

在這裡插入圖片描述

  • 根據上圖紅框中的資訊,可知核心版本號為<font color="blue"></font>,於是執行以下命令:
sudo apt-get install linux-headers-4.4.0-210-generic

下載和安裝Nvidia驅動

  • 訪問Nvidia網站,地址<font color="blue">https://www.nvidia.cn/Downloa...</font>,然後選擇對應的顯示卡和作業系統,我的選擇如下圖所示:

在這裡插入圖片描述

  • 點選上圖<font color="blue">搜尋</font>按鈕後,進入下圖頁面,點選下載:

在這裡插入圖片描述

  • 下載得到的檔名為<font color="blue">NVIDIA-Linux-x86_64-460.84.run</font>
  • 關閉圖形頁面:
sudo service lightdm stop
  • 給驅動檔案增加可執行許可權:
sudo chmod a+x NVIDIA-Linux-x86_64-460.84.run
  • 開始安裝:
sudo ./NVIDIA-Linux-x86_64-460.84.run -no-x-check -no-nouveau-check -no-opengl-files
  • 遇到下圖,選擇紅框:

在這裡插入圖片描述

  • 遇到下圖,直接回車:
    在這裡插入圖片描述
  • 恢復圖形頁面:
sudo service lightdm start
  • 執行命令<font color="blue">nvidia-smi</font>,如果驅動安裝成功,會顯示以下內容:
will@lenovo:~/temp/202106/20$ nvidia-smi
Sun Jun 20 09:02:11 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.84       Driver Version: 460.84       CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce GTX 950M    Off  | 00000000:01:00.0 Off |                  N/A |
| N/A   41C    P0    N/A /  N/A |      0MiB /  4046MiB |      1%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
  • 從上述內容可見<font color="blue">CUDA Version: 11.2</font>表示該驅動對應的CUDA版本應該是<font color="red">11.2</font>,正如前面所說,我這邊遇到了問題,因此接下來會安裝9.1版本,但是您可以選擇安裝<font color="red">11.2</font>

安裝CUDA

在這裡插入圖片描述

  • 如下圖,下載Linux版本:

在這裡插入圖片描述

  • 繼續選擇<font color="blue">x86_64</font>:

在這裡插入圖片描述

  • 選擇具體的Linux版本及其版本號:

在這裡插入圖片描述

  • 要下載的東西不少,一個安裝程式和三個補丁:

在這裡插入圖片描述

  • 上述四個檔案的下載地址整理如下:
https://developer.download.nvidia.cn/compute/cuda/9.1/secure/Prod/local_installers/cuda_9.1.85_387.26_linux.run?P0Ntu_6NLtuuEMm6fJRk1W5vl4KM7oaT1oFW870zKJ-zDw2ckKntFLOE6klRJfw2CmTa8z3Q390_6urlgc6LqjoqlIFW9gvfvDCusnINYplLaw1u8lRY8R4oVNtpNzaXU4BQcHjvdb6c6rjq20dktCcRd4640woXt1yHmD95v1Du7wdBBXq2eOY

https://developer.download.nvidia.cn/compute/cuda/9.1/secure/Prod/patches/1/cuda_9.1.85.1_linux.run?yeXf_7wIGlHAUw--E_YVLQZRgXv0x2i043woJVY-ydXU5Kyhc-eYQf5JmL-4mvYmlvPYCEc5RhT2sDWscX20CJbdOwpkt30kWb9vx8E4oIlajDQ3MVPvXdiKKsIOBUx-h0q0N0jSkNn80VMhW-nk8jwvRY_e6MuFzqWBaPk

https://developer.download.nvidia.cn/compute/cuda/9.1/secure/Prod/patches/2/cuda_9.1.85.2_linux.run?5jGZxNigaOJkaaPbMagjhSW7ebQvYGyYoqe2vBxZ1eV8qp2BzXJLxIPgAo11UgWhORirQkdJGq5b8eFh4aShBVUTmuPaasvRiMCKDZw5yjjIobGQrCEyU-LFO59AbrRER57Mxa0T1Sc97fC80IOZq8Ox2repjn7A3oYVgd8

https://developer.download.nvidia.cn/compute/cuda/9.1/secure/Prod/patches/3/cuda_9.1.85.3_linux.run?CxWimJTC-XROYihig-UZmH62odbJInf1fmxTZ_bsW1nQ0Zz5cL5r8qLmlMR_1j2rVhk3j8Z5lS6dpArt8frjGHH2MeVn5TefMoclam8udm-RSMMmqHXYE66hHN2D0drVEdtCwe8ZrEIYb2rpucaz9svCFE8Z319mge4Ju94
  • 下載完畢後,執行命令<font color="blue">chmod a+x *.run</font>為上述四個檔案增加可執行許可權
  • 安裝CUDA:
sudo sh cuda_9.1.85_387.26_linux.run
  • 遇到license時,像是用vi工具那樣,輸入":",再輸入"q"回車,就能跳過license閱讀,執行真正的安裝操作了:

在這裡插入圖片描述

  • 接下來是一系列提問,每一個提問的回答如下圖,千萬注意紅框中的問題一定要選擇<font color="red">n</font>:

在這裡插入圖片描述

  • 安裝完成後輸出以下內容:
Installing the CUDA Toolkit in /usr/local/cuda-9.1 ...
Missing recommended library: libGLU.so
Missing recommended library: libX11.so
Missing recommended library: libXi.so
Missing recommended library: libXmu.so
Missing recommended library: libGL.so

Installing the CUDA Samples in /home/will ...
Copying samples to /home/will/NVIDIA_CUDA-9.1_Samples now...
Finished copying samples.

===========
= Summary =
===========

Driver:   Not Selected
Toolkit:  Installed in /usr/local/cuda-9.1
Samples:  Installed in /home/will, but missing recommended libraries

Please make sure that
 -   PATH includes /usr/local/cuda-9.1/bin
 -   LD_LIBRARY_PATH includes /usr/local/cuda-9.1/lib64, or, add /usr/local/cuda-9.1/lib64 to /etc/ld.so.conf and run ldconfig as root

To uninstall the CUDA Toolkit, run the uninstall script in /usr/local/cuda-9.1/bin

Please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-9.1/doc/pdf for detailed information on setting up CUDA.

***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 384.00 is required for CUDA 9.1 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
    sudo <CudaInstaller>.run -silent -driver

Logfile is /tmp/cuda_install_13425.log
  • 開啟檔案<font color="blue">~/.bashrc</font>,在尾部增加以下兩行(LD_LIBRARY_PATH如果已經存在,請參考PATH的寫法改成追加):
export PATH=/usr/local/cuda-9.1/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64
  • 執行命令<font color="blue">source ~/.bashrc</font>使配置生效
  • 執行命令<font color="blue">su -</font>切換到root帳號,執行以下命令(不要用sudo,而是切到root帳號):
sudo echo "/usr/local/cuda-9.1/lib64" >> /etc/ld.so.conf
  • 再以root身份執行以下命令:
ldconfig
  • 執行命令<font color="blue">exit</font>退出root身份,現在又是普通帳號的身份了
  • 執行命令<font color="blue">nvcc -V</font>檢查CUDA版本,注意引數V是大寫:
will@lenovo:~$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2017 NVIDIA Corporation
Built on Fri_Nov__3_21:07:56_CDT_2017
Cuda compilation tools, release 9.1, V9.1.85
  • 安裝第一個補丁:
sudo sh cuda_9.1.85.1_linux.run
  • 安裝第二個補丁:
sudo sh cuda_9.1.85_387.26_linux.run
  • 安裝第三個補丁:
sudo sh cuda_9.1.85_387.26_linux.run

安裝cuDNN

在這裡插入圖片描述

  • 按提示登入,如果沒有帳號請註冊一個,登入後進入下載頁面,需要點選下圖紅框位置才有能見到老版本:

在這裡插入圖片描述

  • 選擇與CUDA匹配的版本:

在這裡插入圖片描述

  • 下載後解壓,得到資料夾<font color="blue">cuda</font>,然後執行以下命令:
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
  • 執行檢查確認的命令<font color="blue">cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2</font>,如果安裝順利會有以下輸出:
#define CUDNN_MAJOR 7
#define CUDNN_MINOR 1
#define CUDNN_PATCHLEVEL 3
--
#define CUDNN_VERSION    (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)

#include "driver_types.h"
  • 至此,Ubuntu16安裝CUDA(9.1)和cuDNN已經完成了,希望能給您一些參考。

你不孤單,欣宸原創一路相伴

  1. Java系列
  2. Spring系列
  3. Docker系列
  4. kubernetes系列
  5. 資料庫+中介軟體系列
  6. DevOps系列

歡迎關注公眾號:程式設計師欣宸

微信搜尋「程式設計師欣宸」,我是欣宸,期待與您一同暢遊Java世界...
https://github.com/zq2599/blog_demos

相關文章