在2017年資料社群將會有大量的機會出現,並伴隨一些危機性的挑戰,下面是對上述問題的縱觀。

 1.更多的資料科學家將開始使用深度學習

縱觀2016年深度學習領域所取得的主要成就,與那些讓深度學習變得更加簡單的工具釋出,以及直接讓現有大資料平臺和架構整合在一起的工具。顯而易見,資料科學家在2017年已不得不選擇深度學習,因為通過它可實現的價值已經愈來愈多。看看時間序列和事件資料(包括異常檢測),物聯網以及感測器相關的資料分析,語音識別,以及文字挖掘推薦,深度學習的用例還有很多。

 2.對資料工程相關技能的需求將會持續上升

《哈佛商業評論》雜誌在2012年的時候將資料科學家稱為“21世紀最性感的職業”,但願在2017年裡對資料科學家的需求會延續下去,但是人才需求將會主要集中在資料工程師(遠多於資料科學家)。許多公司在尋找會程式設計的資料科學家,從而將會需要更多的可以接觸生產系統的資料科學家。這些是獨一無二的技能,他們也同樣會獲得除了薪水之外的快樂。

 3.越來越多的公司將會在雲端使用託管服務

一項最新的O’Reilly調查顯示,一個組織在雲端感受完大資料之後,往往會催生出更多類似的大資料服務。

現如今很多公司都接觸了能夠提供儲存、資料處理、視覺化、分析以及人工智慧的託管服務。雖然業內已存在很多可以解決這些問題的開源元件,但專有的託管服務逐漸被證明成為了大眾的選擇。因為這些工具將會被服務提供商所管理,機構內部的資料專業人士將能夠關注手頭的問題而不用考慮需要使用什麼樣的工具——不過他們得學習如何設計、搭建以及管理在雲端執行的應用。

 4.並不是所有的東西都會遷移到公共雲

遺留系統、敏感的資料、安全、合規以及隱私問題將會需要一個混合的架構。這裡同樣會存在使用定製甚至是私有云的應用,就像為工業物聯網設計的Predix或者AWS的CIA。許多公司將會需要能夠應對複雜情況的解決方案架構。

 5.資料的民主化:任務因工作更簡單而簡化

提供自助分析的新工具使得許多資料分析的任務變的更加簡單。有一些甚至都不需要程式設計,同時另外一些工具使得在一個工作流下融合程式碼、影像和文字變得更加簡單。這些並不是統計學家或者資料極客的授權使用者們做著常規的資料分析,讓資料專家們有了更多的時間去處理複雜的專案或者去優化端到端的傳輸途徑和應用。

在這幾年裡這一切都在發生,我們發現許多使得先進的分析更加民主化的工具正在興起(譬如微軟的Azure),能夠支援對大規模的流資料資源進行採集,還使得先進的機器學習能夠得到發展和應用(像谷歌的Cloud Platform和亞馬遜的Machine Learning)。

 6.儲存和計算的分離將會加速

加州大學伯克利分校的AMPlab專案在去年十一月已經完成,但是在Apache Spark和Alluxio背後的團隊並不是唯一一個強調儲存和計算相分離。正如上面所說的那樣,儲存在雲端的流行專案甚至一些最新的深度學習架構使得這個典範更加突出。

 7.筆記本和工作流工具會的得到持續的發展

Jupyter的筆記本因為具有能夠提供可以解決包括資料清洗、轉換、數字化的模擬、統計學模型和深度學習在內許多問題的多元化架構而被資料科學家們使用和重組。(譬如O’Reilly使用Jupyter筆記本作為Oriole Interactive Tutorials的基礎)。它對資料小組來說十分有用,因為在notebook裡能夠創造和分享包含動態程式碼、公式、視覺化和說明性文字在內的檔案。通過將Jupyter和Spark連線,你將能夠通過簡單介面使用Spark編寫Python程式碼而不是使用Linus的命令輸入或是Spark shell。

資料專家們將會一直使用多樣化的工具。Beaker筆記本能夠支援很多程式語言,現在還有將Spark社群作為目標的複合筆記本。(Spark Notebook、Apache Zeppelin及Databricks Cloud)。但並不是所有的資料專家都使用筆記本:因為筆記本不能適應對複雜資料渠道的管理,工作流工具更加適合這點。資料工程師門喜歡軟體開發者使用的工具。隨著深度學習和其他新技術進入資料科學和大資料社群,我們估計現存的工具將會得到進一步的發展和優化。

  8.資料社群將會進一步找出方法來解決像隱私和倫理道德一樣的問題。

由於機器學習的普及化、資料資源的多樣化以及演算法的複雜化,使得透明度變得越來越難實現。在資料應用中實現公平變得比以往更加具有挑戰性。縱觀2017年我們希望能夠看到涉及以下幾個方面的國家政策的討論:對偏見測試的最佳實踐以及偏向的理論導致偏向結果的意識在不斷提升。

關於作者:Ben Lorica 是O’Reilly 媒體公司的首席資料科學家。