2016即將結束,外媒KDnuggets日前針對大資料領域在2016年度取得的重大發展,以及2017年度可能出現的變化趨勢,詢問了8位行業內的頂級專家。

雖然各位專家的意見不盡相同,但從其發言中大約可以總結出一個共通點:大資料研究正在由前幾年的新鮮技術變得越來越普及和商業化。同時,由於研究的向前推進,以資料為基礎的人工智慧、機器學習和物聯網等其他各個領域也將會取得越來越大的成果。

1. Craig Brown,大資料、資料科學、資料庫技術領域專家。美國知名的青年導師、科技導師,以及作家。

在2016年,資料科學領域出現了一次大規模的資料增長。這一增長從需求端推動了諸多雲端計算服務供應商的快速成長,包括亞馬遜AWS、微軟Azure和Rackspace等。我認為,資料增長的勢頭將在2017年得到延續。並且,2017年將會出現更多的基於這些大資料研究的應用專案,包括機器學習、認知計算以及預測分析等。不過,隨著資料量的增加,應用專案的逐漸豐富,使用者的資料安全問題也將變得日益嚴峻,這一點在2017年也不會有很大改善。2017年,資料科學家、首席資料官、首席資料架構師等職位將變得越來越搶手,崗位職責和定位也會越來越明晰。實時資料流和功能更強大的資料傳輸通道將徹底顛覆所謂“快速資料”(fast data)和“可操控資料”(actionable data)的定義。

總體上說,大資料科學仍然是一個處於不斷髮展中的學科,在2017年,這一學科一定會迎來比2016年更大的發展。如果把大資料比作一輛汽車的駕駛員,那麼在這位駕駛員的帶領下,未來基於大資料的各種實際應用專案將會越來越豐富,也即這輛汽車上的乘客會越來越多。

2. James Kobielus,大資料領域專家,IBM公司大資料研究首席科學家。

分散式框架Hadoop在大資料領域的重要性正在日漸減弱,MapReduce模型、HBase資料庫,甚至分散式檔案系統HDFS在大資料科學家眼中也遠沒有從前重要了。

2017年最顯著的變化趨勢應該來自於程式設計師群體,他們將越來越關注資料庫領域的程式設計技能,通過這一技能的提升,獲得更多的職業發展優勢。我認為在2017年,最熱門的大資料科學應用專案將會聚焦於流媒體分析、嵌入式深度學習、物聯網、聊天機器人、認知計算、自動駕駛、計算機視覺和語音識別等領域。同時,我們也將會看到,新一代的神經網路晶片、GPU和其他的高效能認知計算框架也將在明年得到更大的發展。

3. Douglas Laney,美國著名諮詢公司Gartner副總裁,首席分析師。

2016年,大資料領域一個最大的變化就是人們不再談論大資料了,因為大資料已經充斥了我們的生活,隨處可見。現在大家關注的焦點變成了如何將大資料業務化、商用化。在Gartner內部,我們和客戶現在談論最多的問題是如何管理、評估資訊資產,以及如何將資訊資產變現。

2017年,我們應該努力搞清楚大資料領域幾項重要的權利和義務,包括資料的所有權、特權和隱私權,特別是由物聯網產生的資料。另外,關於資料能否被視為一種全新形態的資產,這一問題會繼續引發會計行業、律師行業和保險行業的困惑。但隨著機構投資人和股票分析師們越來越關注一家企業的資訊化程式,傳統行業的這種困惑將會有所緩解。2017年,各行各業都將會更加關注大資料領域的人才招攬,例如資料經理人和其他的資訊整合者。

4. Yves Mulkers,知名部落格一切皆資料(All Things Data)博主之一,負責維護大資料板塊。

在2016年,大資料這個詞似乎不像前幾年那樣熱門。隨著大資料相關的基礎設施、伺服器、軟體系統和理論體系的持續發展,目前大資料分析方面的解決方案已經逐漸成熟,並且越來越普及,而不像前幾年那樣還是少數科技極客眼中的新領域。隨著技術的成熟,自助和自動化的資訊服務也將越來越受到重視。大資料分析工具和相關的解決方案雖然會變得越來越簡單易用,但我們仍然需要具備基本的通訊技術和資訊處理領域的專業知識,隨時準備迎接下一個發展階段的到來。未來,和機器學習、人工智慧、VR/AR、物聯網相關的大資料解決方案將越來越完備,摩爾定律的邊界也會受到更多的挑戰。

5. Mark van Rijmenam,Datafloq網創始人,大資料相關書籍《Think Bigger》作者。

對於大資料領域來說,2016是令人激動的一年,因為“大資料”終於不再是一個流行詞。這說明研究者們正在基於大資料開發真實可用的解決方案和應用程式,而不再是簡單的噱頭。

2017年,隨著技術的進步,以大資料為基礎而開發的應用將越來越豐富。由於計算機的計算能力和真實可用的龐大資料量不再是問題,因此以人工智慧和深度學習為代表的智慧應用也將變得更加聰明,更加普及。總體上說,由於大資料、智慧應用和越來越豐富的智慧終端產品的出現,2017年應該是值得我們期待的一年。不過,隨著大資料的廣泛應用,資料安全和隱私問題也將越來越嚴峻。

6. Ronald van Loon,Adversitement網站主管,大資料科學領域年度10大影響力人物之一。

今年是大資料科學領域產生重大變化的一年。可以看到,無論是單一學科還是跨學科的使用者,在這一年中都在向著以資料驅動為核心的組織架構調整。而且通過物聯網的進一步普及,我們已經在某些核心應用場景積累了大資料處理和傳輸的寶貴經驗。另外,由於強大的雲端計算平臺的支援,越來越多的機器學習應用也正在研發之中。

在2017年,這一趨勢將得以延續,人工智慧、機器學習和物聯網應用在大資料的支撐下將迎來一個爆發性的增長。目前,技術研發能力已經就緒,對於市場需求的靈活迭代機制也越發成熟,根據預測,截止2020年,接入網際網路的裝置總數將達到100億-340億之間。

7. Jeff Ullman,史丹佛大學計算學科教授,主要研究資料庫理論、資料庫整合一體化和資料探勘等。

歐盟剛剛針對大資料的使用和分析模型的建立出臺了一個新的隱私保護法(雷鋒網獲悉,這一法案將於2018年1月起正式施行)。現在還無法確定這一法案將會造成怎樣的影響,但有一點似乎可以確定,那就是它將在很大程度上避免深度學習領域內由於分析模型亂用導致的意外問題。目前許多公司都在與歐盟溝通,試圖確認究竟哪些資料資源和分析模型是可用的,而哪些不行。比如說,谷歌可以探測一封郵件的內容,並且將其和已知的垃圾郵件對比,如果內容類似就判定這封郵件為垃圾郵件。那麼谷歌到底有沒有讀取使用者郵件的權利?這些問題都還有待確定。

8. Matei Zaharia,Databricks平臺首席科學家,大資料處理框架Apache Spark創始人。

1) 公有云正在成為部署大資料應用的主流平臺。根據今年夏天的使用者調查結果顯示,在公有云部署Spark框架的使用者比例高達61%,而使用Hadoop YARN的使用者則只有36%。更重要的是,使用公有云的61%的使用者去年只有51%,而使用Hadoop YARN的使用者則從去年的40%下滑到36%,這說明公有云的使用者正在持續的增長。分析原因,這或許是由於亞馬遜AWS S3這樣的雲服務產品正在變得越來越經濟,效能越來越穩定,易用性也越來越好。

2) 今年7月,我們釋出了Apache Spark 2.0版,這一版本針對Spark SQL和資料幀(Dataframes)在新款硬體的使用方面進行了較大的效能提升。值得一提的是,我們已經看到2.0版的使用率正在快速增長,目前大約有40%的叢集使用者正在使用它。這說明使用者需要對新硬體建立快速的支援。

來源:kdnuggets

編譯:雷鋒網