如何輕鬆利用GPU加速機器學習?

儲存頻道發表於2018-12-13

   【IT168評論】釋出於今年10月份的英偉達RAPIDS開源軟體,在GTC China 2018大會上再次被黃仁勳提及——作為英偉達AI軟體生態中的重要一員。這是一款針對資料科學和機器學習的GPU加速平臺,能夠幫助資料科學家顯著提高工作效率。

  GTC China 2018期間,英偉達解決方案架構與工程團隊副總裁Marc Hamilton在媒體分享會上進一步詳細介紹了RAPIDS開源GPU加速平臺。

   利用GPU加速機器學習,為資料科學家助力

  Marc Hamilton指出,機器學習與深度學習有一個很大的不同是:深度學習擅長處理的是非結構化的資料,如語音、影片、圖片等,但是機器學習更多是使用結構化的資料,如銀行的信用卡消費記錄、商店庫存記錄、電子病歷等。

  長達6年的研發中,英偉達在使用GPU加速深度學習這方面成績斐然,但許多機器學習演算法卻很難使用GPU進行加速。

  資料科學家在訓練一個機器學習模型時,使用的資料量越多,得到的結果可能就越精準,但由於硬體的限制,模型訓練所花費的時間也更長。因此在多數情況下,資料科學家處理一個機器學習專案時,往往要等待很長時間,這在很大程度上降低了工作效率。

  “資料分析和機器學習是高效能運算市場中最大的細分市場,不過目前尚未實現加速。” 此前在釋出 RAPIDS 時,黃仁勳曾說:“得益於CUDA及其全球生態系統以及與開源社群緊密合作,我們建立了RAPIDS GPU加速平臺。該平臺已與全球最流行的資料科學庫及工作流無縫整合,可加速機器學習。如同深度學習一樣,我們正在不斷地為機器學習提速。”

  RAPIDS可以在任何英偉達GPU上執行,為GPU加速資料分析和機器學習提供了一整套開源庫,為資料科學家提供了他們需要用來在GPU上執行整個資料科學管線的工具。

  RAPIDS庫由cuDF、cuML、cuGRAPH三部分組成,cuDF主要完成資料處理與資料準備,幫助科學家收集資料;cuML是GPU加速的傳統機器學習庫,支援XGBOOST、Kalman、K-means、KNN、DBScan等常見的機器學習演算法;cuGRAPH是圖表分析庫的集合,據介紹,這部分將很快向資料科學家提供。

英偉達解決方案架構與工程團隊副總裁Marc Hamilton

  “在人工智慧行業中已經很多人在用機器學習了,RAPIDS不是一個新的演算法,並不會教人們怎麼編新的碼,而是把已經寫好的程式碼放在CUDA上跑。”Marc Hamilton表示,“人們用RAPIDS一般是出於兩個原因:1.資料科學家,很希望自己的工作完成的更快一點。2.不需要學習怎麼樣用其它的軟體,可以用已有的軟體。而且因為它是開源的,所以如果有一些功能軟體中沒有的話,有技術能力的大公司也可以自己去寫。”

   有效性經多方驗證,成果顯著

  據瞭解,最初的RAPIDS基準分析利用了XGBoost機器學習演算法在NVIDIA DGX-2系統上進行訓練,結果表明,與僅有CPU的系統相比,其速度能加快50倍,這可幫助資料科學家將訓練時間從數天縮減到數小時。

  在GPU上執行RAPIDS對機器學習進行加速的方案,已經被多個行業領先者採用,並且獲得了大量認可。

  平安科技使用RAPIDS以及GPU加速的PCA和DBSCAN之後,工作流程執行速度加快了 80 倍,從幾天縮短到幾小時(包括資料載入和訓練時間),幫助該公司做出針對“流行性疫情”預測並完善預防計劃。

  華大基因 (BGI) 的知識庫中擁有超過1 PB的資料,該公司使用了XGBoost機器學習演算法,對用於癌症患者個性化免疫治療的靶向多肽進行分類。透過在NVIDIA DGX-1 AI超級計算機上執行RAPIDS 平臺,華大基因的資料科學家團隊將分析速度提高了17倍,並將多肽的分析範圍擴大至數百萬種。

  專注於數字化健康業務的碳雲智慧 (iCarbonX)使用數字化生理、基因組、代謝組以及宏基因組資料來研究微生物組。運用機器學習技術將微生物組特徵和2型糖尿病關聯起來,能提供個性化的消費者醫療服務(如飲食建議或治療方案的制定),透過在Tencent Cloud P40伺服器上部署 RAPIDS,該公司的資料分析速度加快了6倍。

  目前,RAPIDS開源庫可從 獲得。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545805/viewspace-2285193/,如需轉載,請註明出處,否則將追究法律責任。

相關文章