框架、平臺和智慧應用(大資料創新在中國的重點和未來)

OReillyData發表於2016-08-19

首次Strata+Hadoop World(SHW)北京大會在2016年8月初成功召開,好評如潮。我們的願景是:通過一個大會來展現大資料和資料科學領域在中國以及全球的趨勢與方向。非常多有意思的創新點在大會的60多個議題演講和主題演講中湧現。

在過去的幾年中,我見證了中國很多公司已經成為早期的和重要的Apache Spark的貢獻者。而Spark作為一個分散式的資料處理框架,已經成為最活躍的大資料開源專案。那些持續跟蹤資料科學和大資料的人士,應該能敏銳地認識到來自中國的公司正在持續地把類似Spark這樣的技術的極限推進到更大的規模,而這樣的規模在其他國家是無法見到的。我非常高興終於能與中國本土的資料社群見面,並能夠創造機會讓中國的技術專家和來自世界各地的專家交流思想。

應用

SHW不僅僅是一個學習框架、平臺和技術的場合,我們也希望能集中展示多個領域的多種應用。我們提供了資料在金融、安全、電子商務和社交媒體、交通運輸和物流、通訊和移動計算、製造業、教育和公共服務等領域的應用案例。

資料科學和人工智慧

在本次大會的眾多議題中最熱的話題就是大規模的機器學習和人工智慧(AI)應用與技術。實際動手的培訓課程涵蓋了很多與之相關的主題,包括TensorFlow、MLlib;Petuum和DL4J這樣的框架;多個領域內的創新,如金融領域(螞蟻金服和宜人貸);無人駕駛汽車(百度)、對話機器人和對話介面(微軟);知識資料庫和知識圖譜。講師們介紹了很多具體的方法(如深度學習)和框架,並帶領大家探討了如何採用分散式機器學習和人工智慧技術並進行產品化。Datavisor的CEO(謝映蓮)介紹了一個新穎的基於Apache Spark的平臺,可以利用大規模無監督機器學習技術來進行欺詐檢測。

框架和平臺

對現在的資料工程師而言能熟練使用多種技術是一個基本的工作技能。參加實踐課程的學員都能夠與一些重要的開源技術的創始人交流。這些技術包括Hadoop、Spark、TensoFlow、Kylin、Druid、Alluxio、Heron、DistributedLog和DL4J。

而SHW的另外一部分,各種活動和議題演講則涵蓋了解決方案架構的最佳實踐。那些把獨立的部分組合成一個有序的應用平臺的架構設計分享則成為大會的另外一大熱點。包括小米、滴滴出行、推特、優步、百度、阿里巴巴、京東和華為在內的多家公司都概略性地介紹了他們的資料平臺的不同方面,以及一些具體的應用案例。

大會的議題部分也較好地涵蓋了基於雲的平臺、技術和解決方案。

智慧、實時的應用

來自小米和海爾的演講人介紹了關於物聯網、實時計算技術、工業製造和智慧家居的應用。其他的演講人則對與金融、安全、電子商務和社交媒體相關的應用進行了介紹。除了行業應用以外,其他的議題演講也涵蓋了構建流計算應用的多個技術方面,比如使用諸如Spark、Apache Beam、Durid、Alluxio、Heron和DistribuedLog等技術來構建流計算應用。

創造全球思想碰撞的平臺

我想特別強調的是,本次大會實現了與中國的本土開發社群的積極合作,創造了一個讓中國的技術專家和來自全球的專業人士之間進行思想碰撞的平臺。這也反映了主辦SHW的一個核心願景,即構建一個讓大資料、資料科學和人工智慧技術領域的實踐者、使用者和企業進行廣泛交流的社群。

一些分散式計算技術的最大規模的生產級部署是在中國發生的。本次大會的與會者表達出了對於來自這些中國公司的演講的極大興趣。同時一些中國的與會者也告訴我,他們非常高興能有機會傾聽國外技術專家的分享。隨著SHW北京的成功舉辦,我們期待著一個跨越中國國界的資料社群的自然形成。

640?wx_fmt=jpeg

本·羅瑞卡(Ben Lorica)

本· 羅瑞卡是O'Reilly的首席資料科學家和關於資料方面的內容策略主管。在多個領域裡(包括直銷市場、消費者和市場研究、精準廣告、文字挖掘和金融工程),他曾經進行了商業智慧、資料探勘、機器學習和統計分析的工作。他層效力於投資管理公司、網際網路創業企業和金融服務公司。

相關文章