本文轉自 | 過往記憶大資料

Hadoop

我先從一個悲觀的觀點說起：Hadoop 正在迅速失去市場，我們可以從 Google 趨勢走向看出這個現象：

Hadoop 氣數已盡？
如果想及時瞭解Spark、Hadoop或者HBase相關的文章，歡迎關注微信公眾號：iteblog_hadoop

下面的炒作生命週期表也上面的趨勢很類似：

Hadoop 氣數已盡？
如果想及時瞭解Spark、Hadoop或者HBase相關的文章，歡迎關注微信公眾號：iteblog_hadoop

看起來 Hadoop 正處於炒作圖的下坡軌道上，正在走向滅亡。我們都知道前段時間 Cloudera 已經收購了 Hortonworks，這意味著市場上最大的兩個 Hadoop 廠商現在只有一個。儘管收購成功進行了，但是 Cloudera 遠未在股市上取得成功，特別是6月6日 Cloudera 的股價幾乎腰斬：

Hadoop 氣數已盡？
如果想及時瞭解Spark、Hadoop或者HBase相關的文章，歡迎關注微信公眾號：iteblog_hadoop

從本質上講，市場上只剩下一個主要的 Hadoop 服務商 Cloudera。如果我告訴你 Cloudera 很久以前就不是主要搞 Hadoop 的呢？這是一個有趣的事情：根據網際網路檔案，過去幾年中 Cloudera 首頁（）上出現“Hadoop”這個詞的次數如下：

2008年 - 4次
2009年 - 11次
2010年 - 29次
2011年 - 37次
2012年 - 23次
2013年 - 9次
2014年 - 4次
2015年 - 8次
2016年 - 6次
2017年 - 1次
2018年 - 1次
2019年 - 2次

如今，Cloudera 在其網站首頁以粗體字寫著：“我們為任何資料提供企業資料雲，從 Edge 到 AI ”（We deliver an Enterprise Data Cloud for any data, anywhere, from the Edge to AI）。我們可以清楚地看到焦點的轉變 - 不再是 Hadoop 和 CDH，不再是大資料。現在他們做企業雲和人工智慧，只能在 “Quickstart VMs” 連線進入的頁面上找到對 CDH 相關的東西。

但是 Hadoop 真的很糟糕嗎？一點也不！事實上，這並不是 Hadoop 在走向終結，而是“大資料”的炒作。在介紹這個之前，讓我們先來看看 Apache Spark。

Apache Spark

Apache Spark 是搭上“大資料”最後一班車的成員，下面是 Apache Hadoop 和 Apache Spark 的 Google 全球搜尋趨勢：

Hadoop 氣數已盡？
如果想及時瞭解Spark、Hadoop或者HBase相關的文章，歡迎關注微信公眾號：iteblog_hadoop

從圖中可以看到，Spark 最近幾年迅速崛起，與 Hadoop 並列成為大資料最火的框架。基於此圖表，我們可以清楚地看到它已經達到了“大資料”市場的上限。這意味著沒有更多的水平增長空間，唯一的前進方法是垂直增長。這就是為什麼 2019 年我們不再有 Spark Summit，而出現一個閃亮的新 Spark + AI 峰會。

Big Data

大資料是處理大量資料的問題。但這個詞被大肆炒作，現在它有明顯的消極成份。在炒作的高峰時期，任何東西都可能被貼上“大資料”的標籤來提升銷量。然而，很明顯“大資料”本身並不是一件事，並且本身沒有任何價值。

“大資料”是 2000－2005 年幾個大型網際網路公司所面臨的問題。在那個時間點，這是一個非常具有挑戰性的問題。沒有關於如何處理它的知識，當然也沒有這樣做的開源解決方案。許多大型網際網路公司已成為該行業的領導者，並向我們贈送了我們現在稱之為“大資料”的東西：谷歌的 GFS，MapReduce 和 BigTable，雅虎的 Hadoop，Facebook 的 Cassandra 和 Hive，Twitter 的 Storm，LinkedIn 的 Kafka。大型網際網路公司透過發明新方法和工具來利用他們必須處理的大量資料來推動革命。它們中的許多公司都開源了它們的軟體，使得這些軟體可供全世界使用。這是一個關鍵時刻，因為它誕生了一系列創業公司，其使命是將所有這些解決方案出售給傳統企業。其中包括 Cloudera，Hortonworks，MapR 和其他許多公司。

圍繞“大資料”的炒作很大程度上是由於上述創業公司對其營銷的鉅額投資以及傳統企業中 IT 人員的短視而造成的。市場營銷已經利用了大型網際網路公司生產的“大資料”技術與該公司的成功之間的聯絡。他們的營銷材料並沒有直接說明這一點，但它的字面意思是“使用 Cassandra 並且像 Facebook 一樣成功”，“使用 Kafka 並達到 LinkedIn 的規模”，“使用 Hadoop 並變得像 Google 一樣富有”。總體而言，“大資料”並不是在銷售技術，而是將大型 IT 巨頭的成功賣給傳統公司。

不出所料，許多企業正在購買這些技術，並在其堆疊中實施這些技術。由於這一實施，他們通常大膽宣佈他們正在利用“大資料”的力量，他們的企業在這個問題上取得了進步。然而，通常實現本身更像是一個實驗 - 除了主要的資料處理管道之外，一些小而孤立的案例，甚至可能無法交付給生產並保留在 PoC 或 MVP 級別。

然而，許多小型企業正在購買大型企業的這一資訊及其成功案例，並將其資金和努力投入到“大資料”中。透過這種方式，大肆宣傳成為一種大雪球，越來越多的資深人士直言不諱或不能說出完整的真相，營銷人員利用他們的話語（有時會刪除重要的背景）來進一步推廣他們的解決方案。

一個時代的結束

所以，我並不是說一些新的突破性技術已經取代了“大資料”，我也不是說 Hadoop 不再是一種可行的技術，不再值得投資。我說的是“大資料”時代即將結束，從炒作的高峰下降到最低點。新的趨勢 AI 和 ML，已經取代它們，生命的迴圈再次開始，新的技術在炒作圖上攀升，營銷人員推銷新軟體，以科技巨頭的成功為代表，以及傳統企業購買這種軟體，消滅了下一個科技泡沫。

Hadoop 時代真的結束了嗎？

並沒有！Hadoop 是一項偉大的技術，但它本質上是一個很好的解決方案，但是隻有少數企業真正需要它。作為一項技術，它與提供替代大規模儲存解決方案的主要雲廠商競爭：AWS 包含 S3，GCP 包含雲端儲存，Microsoft 包含 Azure 儲存等。雲端計算一點一點地吞噬了自建部署市場，雲端計算提供商及其分散式儲存解決方案在我看來是 Hadoop 的主要競爭對手，Hadoop 未來將面臨更多的挑戰。

本文翻譯自：

Hadoop 氣數已盡？

相關文章