英偉達GPU加速Cloudera資料平臺提升欺詐檢測能力

陶然陶然發表於2021-08-06

  在全球疫情影響下,每家企業都面臨著一場徹底的變革。從面對面會議到購物,一切事物都突然轉到了線上。這使企業產生了比以往更多的資料,以及更多需要追蹤和監控的數字交易。

  隨著大量資料的湧入,企業應該如何應對?Cloudera相信資料驟增將讓企業有機會更快、更好的做出業務決策。以英偉達GPU計算功能支撐的Cloudera Data Platform可以利用近乎無限數量和種類的資料,支援企業加快決策速度。

  近日,在英偉達和Cloudera聯合舉行的線上媒體會上,雙方分享了最近在資料平臺方面的合作,包括有關美國國稅局在英偉達認證的系統上使用GPU加速的Cloudera資料平臺改進欺詐檢測工作等內容。

   英偉達GPU:挑戰不可能

  企業資料工程師正在以前所未有的力度和規模運用資料集,比如改造供應鏈模型、應對日益增加的欺詐行為或開發新的產品線等。對於資料科學家而言,海量資料造成的瓶頸會直接影響企業訓練和使用模型的成本與速度。

  作為一名資料科學家,Deborah Tylor的任務是整理美國國家稅務局超過300TB的資料庫,尋找可能有助於識別身份盜竊和其他欺詐行為的規律。但即使讓一大批CPU伺服器工作了一整夜,也無法完成這項資料整理工作。

  後來透過Cloudera解決方案工程師的介紹,對軟體進行快速測試後,在沒有修改任何程式碼的情況下,Tylor在這項工作中的許多步驟就立即加快了5倍,但有幾個部分仍然滯後。

  Cloudera解決方案工程師馬上召集了英偉達資料科學家團隊來檢查程式碼的核心內容。他們很快就發現一些資料結構非常糟糕的任務仍在CPU上執行。於是他們編寫了程式碼來處理這些工作並將其插入Spark的RAPIDS軟體介面中。

  RAPIDS是一個在GPU上執行資料分析的開放資源庫。Tylor又進行了一次測試,結果發現一切都能在分散式Spark叢集的GPU上順利執行,而且速度提升非常明顯。

  美國國稅局研究和應用分析與統計部門技術主管表示:透過Cloudera和NVIDIA的這一技術整合,我們能夠利用以資料為依據的洞察來推動關鍵任務用例。我們目前正在應用這一技術整合,這使得我們的資料工程和資料科學工作流程以一半的成本獲得了超過10倍的速度提升。

  美國國稅局團隊正在探索這項技術應用可能帶來的一些回報。憑藉由GPU驅動的伺服器所組成的Spark叢集,該團隊能夠加速目前所有的工作並執行其他以前被認為不可能實現的工作。並且這些工作可以幫助該團隊處理他們所掌握的大資料集。

  對於努力應對海量資料集的公司而言,能否進行模型訓練取決於是否擁有GPU加速資料科學管道。這種管道可以直接增強企業機構運用AI進行業務轉型的能力。GPU加速的Apache Spark能夠在CDP上無縫執行,從而支援企業機構可以透過安全且可擴充套件的開源機器學習平臺,滿足從研發到生產的高效能運算、AI和資料科學需求。

  Apache Spark為企業保持競爭力所依賴的機器學習和資料分析管道奠定了基礎。NVIDIA加速的計算和執行在Cloudera Data Platform上的Spark分析所帶來的處理能力,提供了高速完成任務的靈活性,同時節省成本。

   寫在最後,在速度至關重要的今天,企業比以往任何時候都更加依賴資料的力量。Cloudera與NVIDIA的合作將為客戶提供必要的技術支援,幫助客戶更好地理解資料,並充分發掘真正的AI轉型潛力。

  CDP分析體驗專為幫助資料專家跨多個公有云和私有云、自信應對指數級資料增長和孤島式資料分析而構建的。Cloudera將深化與NVIDIA的現有整合,透過使用我們的企業資料雲服務,客戶將可以保持他們現有的競爭優勢。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28285180/viewspace-2785568/,如需轉載,請註明出處,否則將追究法律責任。

相關文章