HP伺服器使用說明

baboonWu發表於2018-01-17

HP ML-350(GPU:Tesla K40c)使用說明

系統引數

  • 作業系統:Ubuntu16.04 LTS Desktop版本
  • NVIDIA驅動版本:384.111
  • CUDA編譯器版本:V8.0.61
  • cuDNN版本:v6.0.5 for CUDA 8.0
  • caffe版本:…

以上為系統已安裝的核心驅動,已經通過樣例測試,正常情況不要隨意安裝升級,因為有一大堆的坑在等著。

建立新使用者

以下為伺服器新建使用者的流程,按照以下命令在終端下執行,建立新使用者:

sudo adduser xxxxx

此處xxxxx替換為要建立的使用者名稱,之後會要求輸入密碼以及確認密碼(linux命令列下輸入密碼是無法看到的,不要誤認為無法輸入字元),密碼輸入之後會讓填寫新使用者其他資訊,直接回車預設就行。
然後通過以下命令為新使用者新增sudo許可權:

sudo usermod -aG sudo xxxxx

此處xxxxx為剛剛建立的新使用者名稱,之後就可以使用正常的sudo 執行命令了。

重點:修改新使用者環境變數支援NVIDIA驅動使用

建立新使用者之後,其他使用者安裝的軟體一般情況下是無法使用的,除了一些系統軟體(瀏覽器,輸入法等),而新使用者暫時不能使用NVIDIA安裝的CUDA編譯器,需要按照以下步驟修改環境變數啟用NVIDIA的CUDA編譯器:

  • 通過以下命令編輯環境變數檔案
sudo gedit ~/.bashrc 
  • 在開啟的檔案末端新增以下幾行
export PATH=/usr/local/cuda-8.0/bin:$PATH  
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH
export CUDA_HOME=/usr/local/cuda

注意此處的cuda的版本,系統目前為cuda 8.0,所以此處是cuda-8.0。ctrl+s儲存後關閉檔案

  • 在終端輸入下面三行更新環境變數
sudo -s
source ~/.bashrc  
sudo ldconfig

此處有坑:直接使用sudo source 命令會提示找不到命令, 總之source 命令不要加sudo
更新之後使用:

nvcc --version

可以看到顯示CUDA的版本號,說明CUDA編譯器已經可以使用

Anaconda與tensorflow使用

重點:一定不要在系統環境下直接安裝tensorflow,必須在虛擬環境(Anaconda或者virtualENV)下使用,推薦Anaconda,安裝方便,使用方便
建立的新使用者需要自己安裝Anaconda,無法與其他使用者已經安裝的Anaconda共享,關於Anaconda以及tensorflow 的安裝步驟請參照深度學習環境搭建流程,參照該教程的後半部分Anaconda和tensorflow的安裝以及問題的解決。

相關文章