英特爾BigDL:為大資料插上人工智慧的翅膀
繼大資料熱之後,以深度學習為代表的人工智慧成為當下最為熱門的技術,越來越多的企業已經或正準備進軍深度學習,特別是那些已經在大資料領域投入了重金,建立起了龐大的大資料叢集的公司,由於有了大資料的這個基礎,在深度學習之路上更為積極和主動。
接下來,企業將思考如何能將大資料技術和人工智慧、深度學習技術進行有效的融合?有沒有一種既簡單又好用的深度學習框架可以拿來就用?需要多久可以從人工智慧技術上受益?下面是答案。
近日,2018全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開,英特爾高階首席工程師、大資料技術全球CTO戴金權帶來了題為“大資料分析+人工智慧”的演講,與我們分享了英特爾BigDL分散式深度學習框架的最新進展。
BigDL跨越深度學習和大資料社群的斷層
英特爾高階首席工程師、大資料技術全球CTO戴金權表示:在大資料處理工作和深度學習模型演算法之間有很大的斷層。
深度學習頂尖研究人員不斷在突破模型,但是資料科學家、分析師、普通使用者卻很難將模型應用到現實的生產環境當中去。深度學習處理的一大瓶頸就是資料,特別是生產資料,都是採用分散式儲存,很難將其複製到另一個環境再來進行處理。
為了進一步拉近深度學習科研人員和真正使用的深度學習的大資料工程師、分析師等的距離,在一年多前,英特爾開源了BigDL專案,讓使用者可以輕鬆、簡單地在大資料叢集中進行深度學習應用。
在戴金權看來,Apache Spark是業界最廣泛應用的分散式叢集計算引擎,它裡面有大量的對資料分析處理的元件,比如說SQL的處理、實時流的處理,還有進行圖片分析的庫。
基於Spark推出的BigDL是Spark上標準的庫、標準的元件,能夠和這些大資料、生態系統裡面的不同的分析、處理的元件非常好地整合在一起。
BigDL與目前主流的深度學習框架Caffe、Torch、TensorFlow所能實現的功能相同。雖然市面上已經有主流的深度學習框架,英特爾推出BigDL則是因為看到了將大資料分析與人工智慧結合起來的一個空白。BigDL可以直接在現有的Hadoop和Spark的叢集上執行,不需要對叢集做任何修改。
不僅如此,戴金權的團隊在Apache Spark和BigDL的基礎上又構建了Analytics Zoo大資料分析和人工智慧的平臺。
戴金權表示:Analytics Zoo是Spark和BigDL上的擴充,目的是方便使用者開發基於大資料、端到端的深度學習應用。
除了內建的模型、內建的一些非常簡單的操作之外,它裡面還提供了大量的高階的流水線的支援,能夠使用Spark DataFrames、ML Pipelines的深度學習流水線,能夠透過遷移學習的API構建API模型的定義,在這個基礎上就可以很方便地將我們提供的Model Zoo的模型甚至端到端的參考應用,透過非常少的程式碼,使用這些高階的API和內建的模型,把一個端到端的大資料分析加上深度學習的應用構建起來。
BigDL已受到眾多行業使用者認可
戴金權介紹了使用者如何使用Analytics Zoo for BigDL在他們現有的大資料叢集,通常是在至強處理器上應用大資料的叢集或者平臺上,構建新的深度學習的應用。
戴金權進一步表示,至強是一個非常通用的平臺,大量的軟體的生態系統,不管是從叢集、從大資料,都有非常好的生態系統。我們如果能夠在生態系統裡非常好的將人工智慧、深度學習支援起來,對大量使用者來說,在基於至強的大資料生態系統平臺上,可以很方便的把深度學習和人工智慧的應用構建起來。
目前,BigDL和Analytics Zoo的技術能在包括AWS、阿里雲、京東雲等幾乎所有的公有云平臺上使用。同時,百度雲在即將釋出的資料分析平臺中將整合BigDL最新版本。
以京東為例,京東有大概幾億張的圖片儲存在分散式儲存系統當中,他們想要把這幾億張圖片從大資料系統裡面讀出來,然後對它進行處理。
在這個案例中,我們用了SSD的模型來試圖識別圖片裡面有什麼物品,探後再用DeepBit的模型,將物品的特徵提取出來。原來京東已經在GPU卡上做了一些應用,但是這裡面有一些問題,包括如何處理端到端資料的流水線,包括如何提高階到端處理的效率。
戴金權表示,當我們把整個處理的應用遷移到Spark和BigDL平臺上,可以看到它提升了很多的運維的效率,使用BigDL/Spark在Intel Xeon叢集有效擴充套件,取得相對於GPU叢集3.8倍效能提升。
在自然語音處理方面,英特爾和GigaSpaces合作透過基於自然語言處理對呼叫中心進行管理。當有使用者打電話進來,把其語音轉成文字以後,匯入到BigDL系統裡面,然後對它進行實時的流式處理,使用BigDL上的文字分類模型可以知道使用者打電話進來是為什麼,他是Windows出了問題還是Mac出了問題,自動就會把呼叫中心的電話錄入到不同的部門。
寫在最後,英特爾一直致力於提供端到端、全棧式人工智慧解決方案。在基於英特爾至強伺服器的大規模叢集上和現有的資料架構基礎設施,完全可以使用英特爾開發並開源的BigDL、Analytics Zoo的技術,在現有的大資料平臺上構建新的大資料分析和人工智慧的應用,提高資源利用率和端到端的開發效率,部署效率。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28285180/viewspace-2157371/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 為人工智慧插上翅膀——北大人工智慧成果綜述人工智慧
- 民建李漢宇:運用大資料為監察體制改革插上科技翅膀大資料
- 為Spring Cloud Config插上管理的翅膀SpringCloud
- 插上資料的翅膀,開啟我升職加薪的夢想之旅
- 起飛! 給Xcode插上翅膀!XCode
- 為資料庫效能調優插上 AI 的翅膀 | 調優測試框架 Matrix 團隊訪談資料庫AI框架
- 當網路成為必須5G為安防插上翅膀
- 華為雲DevCloud為虛擬模擬插上網際網路的翅膀devCloud
- FastJsp,給JSP插上敏捷開發的翅膀?ASTJS敏捷
- 澳鵬Appen:自動駕駛浪潮下,如何給技術迭代插上資料的“翅膀”?APP自動駕駛
- 為 Serverless Devs 插上 Terraform 的翅膀,實現企業級多環境部署(上)ServerdevORM
- 華為:讓精益生產插上智慧化的翅膀
- Sophon Base 3.1 推出MLOps功能,為企業AI能力運營插上翅膀AI
- 環保遙感監測,需要插上一雙AI的翅膀AI
- 空間智慧技術賦能CIM平臺,為數字住建插上翅膀
- netty系列之:給ThreadLocal插上夢想的翅膀,詳解FastThreadLocalNettythreadAST
- 實在智慧牽手「國貨之光」納愛斯,為中國智造插上數字化翅膀!
- 英特爾大資料技術全球CTO戴金權:人工智慧和大資料是數字經濟的基石大資料人工智慧
- 使用Apache Spark和BigDL來構建深度學習驅動的大資料分析ApacheSpark深度學習大資料
- 大資料和人工智慧為廣告主帶來的價值大資料人工智慧
- 為 Serverless Devs 插上 Terraform 的翅膀,解耦程式碼和基礎設施,實現企業級多環境部署(下)ServerdevORM解耦
- 通義靈碼:體驗 AI 程式設計新技能-@workspace 和 @terminal 為你的程式設計插上一雙翅膀AI程式設計
- 國貿股份 x 袋鼠雲:推進全鏈業務深度數字化,為產業綜合服務插上數字化翅膀產業
- 大資料和人工智慧大資料人工智慧
- 頭一回見!提升10倍效率,阿里給業務校驗平臺插上了AI的翅膀阿里AI
- 大資料和人工智慧的關係大資料人工智慧
- 人工智慧與大資料的完美結合人工智慧大資料
- 為大資料與人工智慧而生新職業:演算法師大資料人工智慧演算法
- 大資料如何幫助人工智慧?大資料人工智慧
- 人工智慧+大資料+雲端計算人工智慧大資料
- 人工智慧:大資料賜予生命人工智慧大資料
- 人工智慧,大資料,雲端計算大雜燴人工智慧大資料
- 大齡碼農的提升的新機遇: 大資料/人工智慧大資料人工智慧
- 英特爾:讓資料成為石油驅動無人駕駛
- 基於大資料的人工智慧象棋大資料人工智慧
- 大資料能做什麼,為什麼學大資料大資料
- 雲端計算、大資料和人工智慧的關係大資料人工智慧
- 大資料+人工智慧,智慧通訊的殺手鐧大資料人工智慧