為Apache Spark準備的深度學習

OReillyData發表於2017-02-20

編者注:請在這裡檢視2017年3月13-16日在聖荷西舉行的Strata + Hadoop World大會上很多有趣的深度學習應用議題。 

O'Reilly的資料秀部落格:Jason Dai暢談BigDL——一個為在現有框架上使用深度學習的庫。

在這一集的資料秀裡,我採訪了英特爾的大資料技術CTO和Strata + Hadoop World北京大會的聯合主席Jason Dai。Dai和他的團隊是Apache Spark專案的長期多產貢獻者。他們對Spark專案早期的主要貢獻是系統層面的,包括基於Netty的shuffle、公平排程器和yarn-client執行模式。近期,他們主要貢獻了一些高階分析所用的工具。在與中國的主要雲服務商結成合作夥伴關係後,他們已經實現了一些演算法的基礎模組和機器學習的模型,這些部分使得Apache Spark可以擴充套件處理極高維度的模型和超大資料集。他們是通過使用諸如“資料稀疏性”和英特爾的MKL軟體來實現這個可擴充套件性的。在取得這些成就的過程中,他們對於企業如何在真實應用裡部署機器學習模型獲得了寶貴的經驗和洞察。

640?wx_fmt=png

在我預測2017年將會是大資料與資料科學領域開始認真探索諸如深度學習這樣的技術的一年時,我是依據與這個領域的多位專家溝通後作出的。我也瞭解到Dai和他的團隊為Apache Spark的深度學習庫做出了貢獻。從貢獻基礎架構到機器學習應用,再到現在的基於深度學習的應用,他的團隊的整個演化過程是可以預測的。

一旦有了一個平臺和團隊可以讓你部署機器學習的模型,很自然地你會開始探索深度學習。正如我在最近的資料秀的一集裡指出的,企業正在開始應用深度學習技術到時間序列資料、事件資料、文字和影象資料上。其中的大部分企業已經在大資料技術(大部分都是開源的)上進行了投入,並僱傭了資料科學家和資料工程師,而且這些人對於這些大資料工具都很熟悉。

儘管有很多可用的深度學習的庫、雲服務和打包的解決方案可用,部署深度學習通常會涉及到海量(標記過的)資料、超大的模型和大型計算。因此一個典型的深度學習專案都會涉及到在Spark叢集上進行資料獲取、預處理和準備,並在多GPU伺服器上的進行模型訓練。

一個新的被稱為BigDL的專案提供了另外一種選擇:即直接把深度學習引入大資料生態系統。BigDL是為Apache Spark開發的開源的、分散式的深度學習庫。它有著與現有流行的深度學習框架(如Torch和Caffe,BigDL參考了Torch的模型)相一致的特徵。對於許多已經有資料在Hadoop/Spark叢集上的企業而言,BigDL可以讓它們在已有的相同的叢集上使用深度學習。

640?wx_fmt=jpeg

來源:Jason Dai授權使用

對於需要在Spark叢集上進行資料預處理和準備並在裝配多個GPU伺服器上進行模型訓練的典型的深度學習任務,現在可以只用一個簡單的Spark庫,並執行在進行資料預處理和準備的相同的叢集上。BigDL利用了MKL軟體,並能讓你高效地在叢集上訓練更大的模型(使用分佈的、同步小批次的隨機梯度下降法,SGD)。同時它提供的AMI(亞馬遜機器映象)可以被用來在亞馬遜的AWS上部署和嘗試使用BigDL。

對於處於學術前沿的研究人員而言,GPU還是能提供更快的訓練深度學習模型的速度。不過對於那些已經在大資料叢集的軟硬體上已經有了投入的企業,BigDL就有吸引力了(方便vs效能)。這對於使用雲端計算資源的企業而言就更是如此了。甚至是對於已經投資CPU多於GPU的公有云服務商而言,BigDL也是有吸引力的。

大量資料產品都有非常複雜的資料管道部分,而機器學習建模僅僅只是整個系統中很小的一個組成部分。我可以預見,BigDL會吸引一些企業,因為它帶來了使用統一的基礎平臺來進行資料處理、儲存、特徵工程、分析、機器學習和現在的深度學習的可能性。這意味著不需要在叢集和框架(BigDL僅僅是一個Spark的庫)間傳輸資料、更低的端到端的訓練時間和更簡單的資源與工作流管理。實際上,這也就是BigDL產生的原因:在瞭解到多家中國的企業對於使用已有的硬體和計算資源來進行深度學習專案的有興趣後,這個團隊就決定搞這麼一個東西出來。

2016年底,BigDL作為一個開源專案被髮布。在釋出前的幾個月期間,Dai和他的團隊已經幫助了一些企業在他們的由幾十個賽揚伺服器組成的Spark叢集的生成系統上部署使用了BigDL。早期的使用案例包括一個大型支付公司和一家大型商業銀行裡使用的欺詐檢測系統,以及在多家大型製造企業裡使用的影象分類和物體識別應用。

目前我們還是處於將深度學習引入企業的機器學習模型庫的非常早期的階段。我預計企業還會持續地對各種各樣的深度學習的可管理的服務、專利和開源工具進行試驗。對於那些希望能充分利用已有的大資料基礎設施和方便已經熟悉這些框架的團隊採用深度學習的企業而言,BigDL提供了一種選擇。採用BigDL還有經濟上的好處。即除了使用已經在用的工具所帶來的方便性之外,還能通過降低複雜性和增加現有設施的使用率來獲得更低的總所有成本(TCO,Total Cost of Ownership)。

Strata + Hadoop World北京2017大會的議題徵集即將在2017年2月24日截止。

相關資料

訂閱O'Reilly資料秀播客,探索推動大資料、資料科學及人工智慧的機遇和技術。可以在 iTunesStitcherTuneInSoundCloudRSS 找到我們。

PS, 在微信中瀏覽此頁面可能不能點選超連結,請從微信右上角選取手機瀏覽器來瀏覽。


640?wx_fmt=jpeg

Ben Lorica

Ben Lorica是O’Reilly Media的首席資料科學家和資料主題內容策略的主管。他已經在多個領域裡(包括直銷市場、消費者和市場研究、精準廣告、文字挖掘和金融工程)進行了商業智慧、資料探勘、機器學習和統計分析的工作。他之前曾效力於投資管理公司、網際網路創業企業和金融服務公司。

640?wx_fmt=png

相關文章