AI-Station使用教程

宝英姐姐發表於2024-03-22

一、建立使用者

使用者管理-建立使用者:

1. 在ai-station的web頁面上登入管理員的賬號:admin,密碼:123456Aaa?

2. 點選系統管理 -> 使用者管理 ->建立 -> 再次輸入密碼:123456Aaa?

3. 建立普通使用者:賬戶和姓名必須一致(自定義設定)->選取iei 使用者組 -> 點選確定

4. 設定配額:為了後續長久使用方便,都選取無限制

5. 再次進入ai-station的web頁面上登入自己設定的賬號,首次登入密碼預設:123456a?,登入後自己可以修改密碼

二、檔案管理:

檔案管理 第一次建立檔案時,建議從自己所用的伺服器中複製到叢集管理節點的伺服器以下是步驟(案例):
1. 登入叢集伺服器
從ssh中連線:ip地址:172.16.80.11,埠:22,賬號:root 密碼:Ais123456#123
絕對路徑進入自己的家目錄下:cd /mnt/inaisfs/user-fs,mkdir建立自己的目錄
2. 傳輸資料(進入自己的用的伺服器,將程式碼,模型,日誌,資料等等都放到一個資料夾下)
命令scp -r tf_kir_subtyping_prediction root@172.16.80.11:/mnt/inaisfs/user-fs/aaa/
密碼:Ais123456#123
3. 登入web頁面的ai-station,地址:https://172.16.80.11:3206
選取檔案管理->使用者目錄,可以看到自己複製的資料夾
後續如果修改程式碼,可以直接在ai-station的web頁面下開啟自己的py檔案,修改完儲存就行

三、業務管理->開發環境

業務管理時,建立開發環境:

1.不選外部映象
2.選pytorch,映象是pytorch_new:v1.2
3.資源組:kir_pretrain
4.網路型別:ib
5.加速卡系列:GPU
6.加速卡型別L40S
7.CPU/加速卡:選取自定義: CPU:隨意設定,最大192,加速卡:隨意設定,最大8卡
8.點選確定。等待載入好映象後,進入映象點選shell頁面,就可以開始測試了

四、業務管理->任務管理

任務管理-建立任務:
1.不選外部映象
2.選pytorch,映象是pytorch_new:v1.2
3.部署型別是:MPI,worker是8,不選彈性任務
4.訓練任務的命令列:cd /zzj/deepspeed-test && bash -x start_deep.sh
5.資源組:kir_pretrain
6.網路型別:ib
7.加速卡系列:GPU
8.加速卡型別L40S
9.CPU/加速卡:選取自定義: CPU:128核,加速卡:8
10.點選確定

for i in `seq 1 8`;do ssh l40s$i nvidia-smi;done 檢視叢集顯示卡的nvidia-smi

注意重點是設定start_deep.sh 和 deepseed_env,下面的bash指令碼內是有對應的start_deepspeed和deepspeed_env

start_deepspeed.sh

指令碼內設定的多機多卡deepspeed的引數例項:kir_ai_station.py

配置檔案:

kir_ds_config.json

五、映象管理

映象管理-建立映象:
1. 在web頁面中登入自己的賬號密碼,點選映象管理,匯出該映象172.16.80.1:5000/other/basic
2. 點選業務管理->開發環境->建立環境 (和前面建立環境一樣的操作,只是將pytorch_zzj_new-zzj:v1.2換成172.16.80.1:5000/other/basic)
3. 然後就是建立conda環境,安裝各種包,安裝完成後,點選右上角儲存映象(設定映象名稱)
4. 然後點選映象管理,匯出剛剛儲存的映象,就可以正常使用了

六、資源管理

資源管理-建立資源組:
1. 在web頁面中登入管理員的賬號密碼,點選資源管理->資源組->建立
2. 選取通用->設定名稱->設定節點->共享屬性選取共享->點選確定