筆者從 2008 年開始工作到現在也有 11 個年頭了，一路走來都在和資料打交道，做過大資料底層框架核心的開發（Hadoop，Pig，Tez，Spark，Livy），也做過上層大資料應用開發（寫 MapReduce Job 做 ETL ，用 Hive 做 Ad hocquery，用 Tableau 做資料視覺化，用 R 做資料分析）。今天我想借此機會和大家聊聊我所理解的大資料現狀和未來。

首先讓我們來聊聊什麼是大資料。大資料這個概念已經出來很多年了（超過10年），但一直沒有一個準確的定義（也許也並不需要）。資料工程師（DataEngineer）對大資料的理解會更多從技術和系統的角度去理解，而資料分析人員（Data Analyst）對大資料理解會從產品的角度去理解，所以資料工程師（Data Engineer) 和資料分析人員（Data Analyst）所理解的大資料肯定是有差異的。我所理解的大資料是這樣的，大資料不是單一的一種技術或者產品，它是所有與資料相關的綜合學科。看大資料我會從 2 個維度來看，一個是資料流的維度（下圖的水平軸），另外一個是技術棧的維度（下圖的縱軸）。

其實我一直不太喜歡張口閉口講“大資料”，我更喜歡說“資料”。因為大資料的本質在於“資料”，而不是“大”。由於媒體一直重點宣揚大資料的“大”，所以有時候我們往往會忽然大資料的本質在“資料”，而不是“大”，“大”只是你看到的表相，本質還是資料自身。

在我們講清楚大資料的含義之後，我們來聊聊大資料目前到底處在一個什麼樣的位置。從歷史發展的角度來看，每一項新技術都會經歷下面這樣一個技術成熟度曲線。

當一項新技術剛出來的時候人們會非常樂觀，常常以為這項技術會給人類帶來巨大的變革，對此持有過高的期望，所以這項技術一開始會以非常快的速度受到大家追捧，然後到達一個頂峰，之後人們開始認識到這項新技術並沒有當初預想的那麼具有革命性，然後會過於悲觀，之後就會經歷泡沫階段。等沉寂一定階段之後，人們開始迴歸理性，正視這項技術的價值，然後開始正確的應用這項技術，從此這項技術開始走向穩步向前發展的道路。（題外話，筆者在看這幅圖的時候也聯想到了一個男人對婚姻看法的曲線圖，大家自己腦補）。

從大資料的歷史來看，大資料已經經歷了 2 個重要階段

兩個重要階段是指過高期望的峰值和泡沫化的底谷期。現在正處於穩步向前發展的階段。我們可以從 googletrend 上 big data 的曲線就能印證。大資料大約從 2009 年開始走向人們的視野，在 2015 年左右走向了頂峰，然後慢慢走向下降通道（當然這張曲線並不會和上面這張技術成熟度曲線完全擬合，比如技術曲線處在下降通道有可能會使討論這項技術的搜尋量增加）。

接下來我想講一下我對大資料領域未來趨勢的幾個判斷。

資料規模會繼續擴大，大資料將繼續發揚光大

前面已經提到過，大資料已經度過了過高期望的峰值和泡沫化的底谷期，現在正在穩步向前發展。做這樣判斷主要有以下 2 個原因：

上游資料規模會繼續增長，特別是由於 IOT 技術的發展和成熟，以及未來 5G 技術的鋪開。在可預測的未來，資料規模仍將繼續快速增長，這是能夠帶動大資料持續穩定向前發展的基本動力。
下游資料產業還有很多發展的空間，還有很多資料的價值我們沒有挖掘出來。

雖然現在人工智慧，區塊鏈搶去了大資料的風口位置，也許大資料成不了未來的主角，但大資料也絕對不是跑龍套的，大資料仍將扮演一個重要而基礎的角色。可以這麼說，只要有資料在，大資料就永遠不會過時。我想在大部分人的有生之年，我們都會見證大資料的持續向上發展。

資料的實時性需求將更加突出

之前大資料遇到的最大挑戰在於資料規模大（所以大家會稱之為“大資料”），經過工業界多年的努力和實踐，規模大這個問題基本已經解決了。接下來幾年，更大的挑戰在於速度，也就是實時性。而大資料的實時性並不是指簡單的傳輸資料或者處理資料的實時性，而是從端到端的實時，任何一個步驟速度慢了，就影響整個大資料系統的實時性。所以大資料的實時性，包括以下幾個方面：

快速獲取和傳輸資料
快速計算處理資料
實時視覺化資料
線上機器學習，實時更新機器學習模型

目前以 Kafka，Flink 為代表的流處理計算引擎已經為實時計算提供了堅實的底層技術支援，相信未來在實時視覺化資料以及線上機器學習方面會有更多優秀的產品湧現出來。當大資料的實時性增強之後，在資料消費端會產生更多有價值的資料，從而形成一個更高效的資料閉環，促進整個資料流的良性發展。

大資料基礎設施往雲上遷移勢不可擋

目前IT基礎設施往雲上遷移不再是一個大家還需要爭論的問題，這是大勢所趨。當然我這邊說的雲並不單單指公有云，也包括私有云，混合雲。因為由於每個企業的業務屬性不同，對資料安全性的要求不同，不可能把所有的大資料設施都部署在公有云上，但向雲上遷移這是一個未來註定的選擇。目前各大雲廠商都提供了各種各樣的大資料產品以滿足各種使用者需求，包括平臺型（PAAS) 的 EMR ，服務型 (SAAS) 的資料視覺化產品等等。

大資料基礎設施的雲化對大資料技術和產品產生也有相應的影響。大資料領域的框架和產品將更加 Cloud Native 。

計算和儲存的分離。我們知道每個公有云都有自己對應的分散式儲存，比如 AWS 的 S3 。 S3 在一些場合可以替換我們所熟知的 HDFS ，而且成本更低。而 S3 的物理儲存並不是在 EC2 上面，對 EC2 來說， S3 是 remote storage 。所以如果你要是 AWS 上面做大資料開發和應用，而且你的資料是在 S3 上，那麼你就自然而然用到了計算和儲存的分離。
擁抱容器，與 Kubernate 的整合大勢所趨，我們知道在雲環境中 Kuberneate 基本上已經是容器資源排程的標準。
更具有彈性（Elastic）。
與雲上其他產品和服務整合更加緊密。

大資料產品全鏈路化

全鏈路化是指提供端到端的全鏈路解決方案，而不是簡單的堆積一些大資料產品元件。以 Hadoop 為代表的大資料產品一直被人詬病的主要問題就是使用者使用門檻過高，二次開發成本太高。全鏈路化就是為了解決這一問題，使用者需要的並不是 Hadoop，Spark，Flink 等這些技術，而是要以這些技術為基礎的能解決業務問題的產品。 Cloudera 的從 Edge 到 AI 是我比較認同的方案。大資料的價值並不是資料本身，而是資料背後所隱藏的對業務有影響的資訊和知識。下面是一張摘自 wikipedia 的經典資料金字塔的圖。

大資料技術就是對最原始的資料進行不斷處理加工提煉，金字塔每上去一層，對應的資料量會越小，同時對業務的影響價值會更大更快。而要從資料（Data) 最終提煉出智慧（Wisdom），資料要經過一條很長的資料流鏈路，沒有一套完整的系統保證整條鏈路的高效運轉是很難保證最終從資料中提煉出來有價值的東西的，所以大資料未來產品全鏈路化是另外一個大的趨勢。

大資料技術往下游資料消費和應用端轉移

上面講到了大資料的全鏈路發展趨勢，那麼這條長長的資料鏈路目前的狀況是如何，未來又會有什麼樣的趨勢呢？

我的判斷是未來大資料技術的創新和發力會更多的轉移到下游資料消費和應用端。之前十多年大資料的發展主要集中在底層的框架，比如最開始引領大資料風潮的 Hadoop ，後來的計算引擎佼佼者 Spark，Flink 以及訊息中介軟體 Kafka ，資源排程器 Kubernetes 等等，每個細分領域都湧現出了一系列優秀的產品。總的來說，在底層技術框架這塊，大資料領域已經基本打好了基礎，接下來要做的是如何利用這些技術為企業提供最佳使用者體驗的產品，以解決使用者的實際業務問題，或者說未來大資料的側重點將從底層走向上層。之前的大資料創新更偏向於 IAAS 和 PAAS ，未來你將看到更多 SAAS 型別的大資料產品和創新。

從近期一些國外廠商的收購案例，我們可以略微看出一些端倪。

1、2019 年 6 月 7 日，谷歌宣佈以 26 億美元收購了資料分析公司 Looker，並將該公司併入 Google Cloud。
2、2019 年 6 月 10 日，Salesforce 宣佈以 157 億美元的全股票交易收購 Tableau ，旨在夯實在資料視覺化以及幫助企業解讀所使用和所積累的海量資料的其他工具方面的工作。
3、2019 年 9 月初，Cloudera 宣佈收購 Arcadia Data 。 Arcadia Data 是一家雲原生 AI 驅動的商業智慧實時分析廠商。

面對終端使用者的大資料產品將是未來大資料競爭的重點，我相信會未來大資料領域的創新也將來源於此，未來 5 年內大機率至少還會再出一個類似 Looker 這樣的公司，但是很難再出一個類似 Spark 的計算引擎。

底層技術的集中化和上層應用的全面開花

學習過大資料的人都會感嘆大資料領域的東西真是多，特別是底層技術，感覺學都學不來。經過多年的廝殺和競爭，很多優秀的產品已經脫穎而出，也有很多產品慢慢走向消亡。比如批處理領域的 Spark 引擎基本上已經成為批處理領域的佼佼者，傳統的 MapReduce 除了一些舊有的系統，基本不太可能會開發新的 MapReduce 應用。 Flink 也基本上成為低延遲流處理領域的不二選擇，原有的 Storm 系統也開始慢慢退出歷史舞臺。同樣 Kafka 也在訊息中介軟體領域基本上佔據了壟斷地位。未來的底層大資料生態圈中將不再有那麼多的新的技術和框架，每個細分領域都將優勝劣汰，走向成熟，更加集中化。未來更大的創新將更多來來自上層應用或者全鏈路的整合方面。在大資料的上層應用方面未來將會迎來有更多的創新和發展，比如基於大資料上的BI產品， AI 產品等等，某個垂直領域的大資料應用等等，我相信未來我們會看到更多這方面的創新和發展。

開源閉源並駕齊驅

大資料領域並不是只有 Hadoop，Spark，Flink 等這類大家耳熟能詳的開源產品，還有很多優秀的閉源產品，比如 AWS 上的 Redshift ，阿里的 MaxCompute 等等。這些產品雖然沒有開源產品那麼受開發者歡迎，但是他們對於很多非網際網路企業來說是非常受歡迎的。因為對於一個企業來說，採用哪種大資料產品有很多因素需要考慮，否開源並不是唯一標準。產品是否穩定，是否有商業公司支援，是否足夠安全，是否能和現有系統整合等等往往是某些企業更需要考慮的東西，而閉源產品往往在這類企業級產品特性上具有優勢。

最近幾年開源產品受公有云的影響非常大，公有云可以無償享受開源的成果，搶走了開源產品背後的商業公司很多市場份額，所以最近很多開源產品背後的商業公司開始改變策略，有些甚至修改了 Licence 。不過我覺得公有云廠商不會殺死那些開源產品背後的商業公司，否則就是殺雞取卵，殺死開源產品背後的商業公司，其實就是殺死開源產品的最大技術創新者，也就是殺死開源產品本身。我相信開源界和公有云廠商最終會取得一個平衡，開源仍然會是一個主流，仍然會是創新的主力，一些優秀的閉源產品同樣也會佔據一定的市場空間。

最後我想再次總結下本文的幾個要點：

1、目前大資料已經度過了最火的峰值期和泡沫化的底谷期，現在正處於穩步向前發展的階段。
2、資料規模會繼續擴大，大資料將繼續發揚光大
3、資料的實時性需求將更加突出
4、大資料基礎設施往雲上遷移勢不可擋
5、大資料產品全鏈路化
6、大資料技術往下游資料消費和應用端轉移
7、底層技術的集中化和上層應用的全面開花
8、開源閉源並駕齊驅

原文連結

本文為雲棲社群原創內容，未經允許不得轉載。

阿里巴巴高階技術專家章劍鋒：大資料發展的 8 個要點