試用阿里雲GPU伺服器進行深度學習模型訓練
最近在用PyTorch時發現在本地訓練模型速度一言難盡,然後發現阿里雲可以白嫖gpu伺服器,只要沒有申請過PAI-DSW資源的新老使用者都可以申請5000CU*H的免費額度,三個月內有效。
阿里雲免費試用活動頁面
一、申請試用並建立例項
-
點選試用,完成註冊、實名、領取產品,然後前往控制檯
-
建立工作空間並授權
-
授權完成,前往預設工作空間
-
建立互動式建模(DSW)例項
找到互動式建模(DSW)然後點選建立例項
輸入例項名稱(隨便寫)
接下來選擇GPU規格,選 A10 或者 V100 只有這兩個是支援資源包抵扣的(資源包在我們申請試用的時候已經自動領取了),其他的不支援,這裡注意!我這裡選的是 A10顯示卡,每小時消耗6.991計算時,效能已經夠用了。V100顯示卡的效能更好,相應的資源包抵扣使用時間也會短一些,大家可以根據自己需求選擇。
然後選擇映象,點選下一步建立例項即可
二、部署程式碼到例項進行訓練
-
啟動並開啟例項
開啟後可以看到導航欄中有三項
-
上傳訓練模型的py檔案
點選這個按鈕上傳
上傳後可以在側邊欄看到
也可以開啟terminal檢視,同樣可以看到
-
開始訓練
跟在本地是一樣的,依次執行generate.py、loader.py、train.py,我這裡選擇在terminal用命令執行,大家也可以選擇在整合的vscode中執行
# 在terminal依次輸入下列命令執行 python generate.py # 可能會提示ModuleNotFoundError: No module named 'captcha',這是我們的環境中沒有captcha這個包,用pip安裝即可,pip install captcha python loader.py python train.py
-
下載訓練的pth檔案到本地
訓練完成後會有一個pth檔案,這是PyTorch訓練的模型檔案,我們可以下載到本地使用
三、總結
以上就是在阿里雲人工智慧平臺PAI使用互動式建模(DSW)訓練深度學習模型的過程,歡迎大家在評論區留言一起交流學習,有需要模型訓練過程以及程式碼檔案的可以看我上一篇blog