一季度大資料熱門工具相關事件整理

青衫無名發表於2017-09-01
文章講的是一季度大資料熱門工具相關事件整理今年一季度,大資料開源圈內最熱鬧的一件事大概就是Hadoop迎來了它的十歲生日,收到了來自世界各地的各種祝福。Hadoop正式誕生於2006年1月28日,作為一個開源專案的生態系統,它從根本上改變了企業儲存、處理和分析資料的方式:Hadoop可以在相同的資料上同時執行不同型別的分析工作。

  那一週,有媒體整理了Hadoop這十年來的資料變化:核心Hadoop中目前的程式碼行數為170萬+、自2006年來對Hadoop的提交數量超過12000、自2006年來對核心Hadoop的程式碼貢獻者有800+、Hadoop生態系統中的專案數量從2006年的2個到了25個。

  一個月後,雅虎在二月底釋出了CaffeOnSpark人工智慧的原始碼,正式開源這一新的人工智慧專案。Yahoo在科技方面的實力大概鮮有人知,其實,開源Hadoop就是Yahoo孵化的,Facebook、Twitter 以及其他不少公司都在用這個資料處理平臺。

  CafffeOnSpark的根基是深度學習,之前在基於Hadoop叢集的大規模分散式深度學習一文中,雅虎就曾介紹,其集Caffe和Spark之長開發CaffeOnSpark用於大規模分散式深度學習。雅虎認為,深度學習應該與現有的,支援特徵工程和傳統(非深度)機器學習的資料處理管道在同一個叢集中,建立CaffeOnSpark意在使得深度學習訓練和測試能被嵌入到Spark應用程式中。

一季度Hadoop、Spark大事件整理

  說到近期大資料領域的紅人就不得不提到Spark,近年人氣急劇攀升的Spark在今年更是動作頻頻,一月初剛剛釋出了大版本1.6,三月又爆出2.0版本即將上線。

  此外,在二月底舉行的Spark東部峰會上,矽谷最火的大資料初創公司Databricks也就記憶體內資料處理工具Spark的未來發展方向做了探討,以及釋出了一系列相關提示。Databricks公司由來自Berkeley和MIT的Spark原班團隊創立,作為Spark專案背後的核心商業支援方,它在該項技術成果的演進道路上扮演著重要角色。

  Databricks公司CTO兼Spark創始人MateiZaharia談到即將出爐的Spark2.0時提到,該版本將會有三大核心轉變:利用Tungsten專案的下一發展階段解決Java記憶體處理侷限,從而加快Spark執行速度;將Spark改進為一套實時資料流系統;將Spark當前使用的結構化資料API(包括Dataset與DataFrame)統一為單一API。

  而在演講中未被提及,但卻廣受Spark支持者關注的一項細節在於,Spark要如何進一步與ApacheArrow加以結合——這一全新專案旨在為列式資料提供記憶體內版本,從而實現快速訪問成效。

  三月初,思科宣佈計劃未來三年在德國投資5億美元,以及設立1.5億美元的創新基金來幫助強化旗下的Spark服務,挑戰企業通訊服務商Slack Technologies。思科一直在試圖使得自有的協作工具Spark勝過廣受歡迎的Slack服務。

  同樣在三月初,Hortonworks,Inc.(NASDAQ: HDP)和Hewlett Packard Enterprise(NYSE: HPE)的核心研究組織Hewlett Packard Labs宣佈了一項新合作,攜手增強最活躍的Apache大資料專案之一的Apache Spark。此次合作將側重於一個全新類別的分析工作,這種分析工作將受益於大量的共享記憶體。並且公佈了合作的早期成果:更強傳送引擎技術,能夠更快排序和記憶體計算;更好的記憶體使用,能夠用更佳效能和使用來實現更廣泛的可升級性。

  另外,Hortonworks和Hewlett Packard Enterprise計劃為Apache Spark社群帶來新技術。

  最後還有一些開源資訊,Google在去年底開放了深度學習網路TensorFlow的原始碼;去年十二月,Facebook分享了人工智慧硬體設計;一月,百度開源關鍵人工智慧(AI)軟體Warp-CTC,公開了關鍵程式碼;同期,Microsoft也開放了類似的網路CNTK,中國搜尋引擎巨頭百度也公開了深度學習訓練軟體。


作者:崔月

來源:IT168

原文連結:一季度大資料熱門工具相關事件整理


相關文章