英特爾BigDL:為大資料插上人工智慧的翅膀

陶然陶然發表於2018-07-05

繼大資料熱之後,以深度學習為代表的人工智慧成為當下最為熱門的技術,越來越多的企業已經或正準備進軍深度學習,特別是那些已經在大資料領域投入了重金,建立起了龐大的大資料叢集的公司,由於有了大資料的這個基礎,在深度學習之路上更為積極和主動。

接下來,企業將思考如何能將大資料技術和人工智慧、深度學習技術進行有效的融合?有沒有一種既簡單又好用的深度學習框架可以拿來就用?需要多久可以從人工智慧技術上受益?下面是答案。

近日,2018全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開,英特爾高階首席工程師、大資料技術全球CTO戴金權帶來了題為“大資料分析+人工智慧”的演講,與我們分享了英特爾BigDL分散式深度學習框架的最新進展。

BigDL跨越深度學習和大資料社群的斷層

英特爾高階首席工程師、大資料技術全球CTO戴金權表示:在大資料處理工作和深度學習模型演算法之間有很大的斷層。

英特爾BigDL:為大資料插上AI的翅膀
▲英特爾高階首席工程師、大資料技術全球CTO 戴金權

深度學習頂尖研究人員不斷在突破模型,但是資料科學家、分析師、普通使用者卻很難將模型應用到現實的生產環境當中去。深度學習處理的一大瓶頸就是資料,特別是生產資料,都是採用分散式儲存,很難將其拷貝到另一個環境再來進行處理。

為了進一步拉近深度學習科研人員和真正使用的深度學習的大資料工程師、分析師等的距離,在一年多前,英特爾開源了BigDL專案,讓使用者可以輕鬆、簡單地在大資料叢集中進行深度學習應用。

在戴金權看來,Apache Spark是業界最廣泛應用的分散式叢集計算引擎,它裡面有大量的對資料分析處理的元件,比如說SQL的處理、實時流的處理,還有進行圖片分析的庫。

基於Spark推出的BigDL是Spark上標準的庫、標準的元件,能夠和這些大資料、生態系統裡面的不同的分析、處理的元件非常好地整合在一起。

BigDL與目前主流的深度學習框架Caffe、Torch、TensorFlow所能實現的功能相同。雖然市面上已經有主流的深度學習框架,英特爾推出BigDL則是因為看到了將大資料分析與人工智慧結合起來的一個空白。BigDL可以直接在現有的Hadoop和Spark的叢集上執行,不需要對叢集做任何修改。

不僅如此,戴金權的團隊在Apache Spark和BigDL的基礎上又構建了Analytics Zoo大資料分析和人工智慧的平臺。

戴金權表示:Analytics Zoo是Spark和BigDL上的擴充,目的是方便使用者開發基於大資料、端到端的深度學習應用。

除了內建的模型、內建的一些非常簡單的操作之外,它裡面還提供了大量的高階的流水線的支援,能夠使用Spark DataFrames、ML Pipelines的深度學習流水線,能夠通過遷移學習的API構建API模型的定義,在這個基礎上就可以很方便地將我們提供的Model Zoo的模型甚至端到端的參考應用,通過非常少的程式碼,使用這些高階的API和內建的模型,把一個端到端的大資料分析加上深度學習的應用構建起來。

BigDL已受到眾多行業使用者認可

戴金權介紹了使用者如何使用Analytics Zoo for BigDL在他們現有的大資料叢集,通常是在至強處理器上應用大資料的叢集或者平臺上,構建新的深度學習的應用。

戴金權進一步表示,至強是一個非常通用的平臺,大量的軟體的生態系統,不管是從叢集、從大資料,都有非常好的生態系統。我們如果能夠在生態系統裡非常好的將人工智慧、深度學習支援起來,對大量使用者來說,在基於至強的大資料生態系統平臺上,可以很方便的把深度學習和人工智慧的應用構建起來。

目前,BigDL和Analytics Zoo的技術能在包括AWS、阿里雲、京東雲等幾乎所有的公有云平臺上使用。同時,百度雲在即將釋出的資料分析平臺中將整合BigDL最新版本。

以京東為例,京東有大概幾億張的圖片儲存在分散式儲存系統當中,他們想要把這幾億張圖片從大資料系統裡面讀出來,然後對它進行處理。

在這個案例中,我們用了SSD的模型來試圖識別圖片裡面有什麼物品,探後再用DeepBit的模型,將物品的特徵提取出來。原來京東已經在GPU卡上做了一些應用,但是這裡面有一些問題,包括如何處理端到端資料的流水線,包括如何提高階到端處理的效率。

戴金權表示,當我們把整個處理的應用遷移到Spark和BigDL平臺上,可以看到它提升了很多的運維的效率,使用BigDL/Spark在Intel Xeon叢集有效擴充套件,取得相對於GPU叢集3.8倍效能提升。

在自然語音處理方面,英特爾和GigaSpaces合作通過基於自然語言處理對呼叫中心進行管理。當有使用者打電話進來,把其語音轉成文字以後,匯入到BigDL系統裡面,然後對它進行實時的流式處理,使用BigDL上的文字分類模型可以知道使用者打電話進來是為什麼,他是Windows出了問題還是Mac出了問題,自動就會把呼叫中心的電話錄入到不同的部門。

寫在最後,英特爾一直致力於提供端到端、全棧式人工智慧解決方案。在基於英特爾至強伺服器的大規模叢集上和現有的資料架構基礎設施,完全可以使用英特爾開發並開源的BigDL、Analytics Zoo的技術,在現有的大資料平臺上構建新的大資料分析和人工智慧的應用,提高資源利用率和端到端的開發效率,部署效率。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28285180/viewspace-2157371/,如需轉載,請註明出處,否則將追究法律責任。

相關文章