試用阿里雲GPU伺服器進行深度學習模型訓練

还没想好叫什么發表於2024-04-17

試用阿里雲GPU伺服器進行深度學習模型訓練

最近在用PyTorch時發現在本地訓練模型速度一言難盡,然後發現阿里雲可以白嫖gpu伺服器,只要沒有申請過PAI-DSW資源的新老使用者都可以申請5000CU*H的免費額度,三個月內有效。

阿里雲免費試用活動頁面

一、申請試用並建立例項

image-20240417111235734

  1. 點選試用,完成註冊、實名、領取產品,然後前往控制檯

  2. 建立工作空間並授權

  3. 授權完成,前往預設工作空間

  4. 建立互動式建模(DSW)例項

    找到互動式建模(DSW)然後點選建立例項

    image-20240417112343422

    image-20240417112725354

    輸入例項名稱(隨便寫)

    image-20240417130025758

    接下來選擇GPU規格,選 A10 或者 V100 只有這兩個是支援資源包抵扣的(資源包在我們申請試用的時候已經自動領取了),其他的不支援,這裡注意!我這裡選的是 A10顯示卡,每小時消耗6.991計算時,效能已經夠用了。V100顯示卡的效能更好,相應的資源包抵扣使用時間也會短一些,大家可以根據自己需求選擇。

    image-20240417131023677

    然後選擇映象,點選下一步建立例項即可

    image-20240417131110714

二、部署程式碼到例項進行訓練
  1. 啟動並開啟例項

    image-20240417131541021

    開啟後可以看到導航欄中有三項

    image-20240417132129994

  2. 上傳訓練模型的py檔案

    點選這個按鈕上傳

    image-20240417132304798

    上傳後可以在側邊欄看到

    image-20240417132440553

    也可以開啟terminal檢視,同樣可以看到

    image-20240417132636342

  3. 開始訓練

    跟在本地是一樣的,依次執行generate.py、loader.py、train.py,我這裡選擇在terminal用命令執行,大家也可以選擇在整合的vscode中執行

    # 在terminal依次輸入下列命令執行
    python generate.py # 可能會提示ModuleNotFoundError: No module named 'captcha',這是我們的環境中沒有captcha這個包,用pip安裝即可,pip install captcha
    python loader.py
    python train.py
    
  4. 下載訓練的pth檔案到本地

    訓練完成後會有一個pth檔案,這是PyTorch訓練的模型檔案,我們可以下載到本地使用

    image-20240417134441844

三、總結

以上就是在阿里雲人工智慧平臺PAI使用互動式建模(DSW)訓練深度學習模型的過程,歡迎大家在評論區留言一起交流學習,有需要模型訓練過程以及程式碼檔案的可以看我上一篇blog

相關文章