DSW:面向AI研發的整合開發平臺

程式碼派就是我發表於2020-05-18

釋出會傳送門

雲原生技術,注重使用者體驗,提升研發效率

環境搭建是演算法研發過程中的重要一環,這裡除了硬體選型外,軟體環境的安裝配置,後續升級往往會耗費不少時間。DSW藉助阿里雲ECS,Docker和Kubernetes等雲原生技術,能夠在2,3分鐘內幫使用者完成環境搭建。使用者可以根據演算法需要和成本考慮, 選擇阿里雲ECS提供的包括CPU和異構計算GPU在內的所有資源規格。不僅支援預付費,還支援後付費。 DSW還配置了10多種適用於不同AI場景的典型軟體環境配置, 包括Tensorflow和PyTorch等主流訓練框架的不同版本組合,供使用者選擇。作為高度開放的開發環境,DSW開放sudo許可權給使用者、支援任意第三方庫安裝。

為了滿足不同水平層次和開發習慣的演算法使用者,結合視覺化,互動式程式設計和命令列輸入,DSW提供了3種程式設計入口:WebIde適用於工程化要求比較高的專案;JupyterLab適用於快速POC試驗;Terminal入口可用於快速執行Shell命令,執行程式和簡單的編輯等。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

DSW還開發和預裝了各種JupyterLab和WebIDE外掛, 比如廣受深度學習開發者喜愛的視覺化工具Tensorboard,使用者在DSW內透過Launcher,Commands開啟,甚至還可以使用%tensorboard魔法命令直接在Notebook中開啟等多種方式使用Tensorboard。不僅支援本地檔案,還可以開啟存放在OSS,ODPS裡的訓練日誌。針對演算法同學使用Python比較多的特點, DSW的WebIDE內安裝了Python外掛, 可以直接在瀏覽器內線上除錯,單步跟蹤程式執行。使用者還可以根據需要,自主安裝需要的任意外掛。

DSW支援多種資料來源讀寫,包括NAS, OSS,雲盤和MaxCompute,尤其是內建了dswmagic魔法命令可以讓使用者在ipynb檔案中使用SQL語句讀寫MaxCompute表中資料,預置的SQL編輯器支援語法高亮、智慧提示、自動補全等功能,還支援執行帶變數替換功能的Sql指令碼。查詢結果自動以最友好的圖形化展示。

為了節省資源成本,使用者可以利用停機不收費功能,在例項閒置不用時關機儲存環境, 需要時再一鍵快速恢復。此外, DSW支援使用者自定義映象安裝,可以基於之前儲存或定製的環境建立例項。

DSW在公有云上支援了多次百隊以上規模的天池大賽,在阿里集團內同樣也承接著比賽,經過千錘百煉,證明不僅適合個人和團隊研發,也支援大規模演算法競賽和教育培訓。

安全性和穩定性是使用者比較關心的問題,DSW使用的計算,儲存和網路資源,完全是使用使用者自己的賬號購買,並部署到使用者自己的vpc內部, 可以方便與使用者其他資料打通。使用者間完全隔離,還具備非常好的安全性。基於阿里雲ECS和容器服務, 穩定性有保障。

整合PAI的各能力元件,加速業務落地

身為PAI這個大家庭的一員, DSW除了完成單機開發訓練功能之外, 還內建部分PAI的基礎能力。比如使用者可以直接在例項內利用PAI視覺類演算法包EasyVision進行影像分類訓練評估、預測; 透過自動調參AutoML進行演算法超引數自動調優;使用者甚至能夠無感知的享受PAI編譯最佳化演算法元件TAO提供的訓練過程中的運算元最佳化。最後, DSW還提供了供演算法直接讀取MaxCompute表資料的CommonIO元件,支援TableRecordDataSet, TableReader,TableWriter等標準介面,方便訓練程式直接提交到PAI的分散式訓練叢集。

可以預見,在不久的將來, 會有更多的PAI演算法包內建進DSW基礎映象內。 DSW也會依賴PAI SDK,圍繞資料讀取,加工,模型訓練, 模型管理以及線上服務等AI研發生產流程的關鍵環節,為使用者提供像Pipeline搭建,排程和管理之類的一條龍服務。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31550522/viewspace-2692688/,如需轉載,請註明出處,否則將追究法律責任。

相關文章