如何面對後Hadoop時代?

banq發表於2022-02-18

Apache Hadoop作為一個完整的開源大資料套件，在過去十年深刻影響了整個大資料世界。然而，隨著各種新興技術的發展，Hadoop生態系統發生了翻天覆地的變化。
2021 年 4 月，Apache 軟體基金會宣佈退出 13 個大資料相關專案，其中 10 個屬於 Hadoop 生態系統，如 Eagle、Sentry、Tajo 等。後來Apache Ambari 誕生，使命是管理 Hadoop 叢集，但卻成為第一個將於 2022 年退役的 Apache 專案。
Hadoop真的死了嗎？如果是這樣，什麼產品/技術將取代它？大資料分析的未來前景如何？
本文將分析 Hadoop的歷史，雲原生趨勢下的新興技術選擇，以及未來10年大資料分析的未來展望。

Hadoop為大資料而生
大量的人類資料和機器資料（日誌、物聯網裝置等）已被收集和儲存，其數量遠遠超過傳統的業務資料。海量資料與人類能力之間存在巨大的技術鴻溝，催生了各種大資料技術。在這樣的背景下，我們所說的大資料時代應運而生。
Hadoop就是這樣一個功能齊全的大資料處理平臺。它包含多種元件來滿足不同的功能需求，例如用於資料儲存的HDFS、用於資源管理的Yarn、用於資料計算和處理的MapReduce和Spark、用於關係資料收集的Sqoop、用於實時資料管道的Kafka、用於線上的HBase資料儲存和訪問，用於線上即席查詢的 Impala 等。
Hadoop 誕生後不久就使用叢集進行平行計算，打破了超級計算機保持的排序記錄。它已被實力雄厚的公司和各種組織廣泛採用。
得益於“大資料”和有影響力的開源軟體專案Apache社群，Hadoop迅速流行起來，湧現出許多商業公司。

市場上的頂級 Hadoop 分銷商包括三個供應商 ——Cloudera、Hortonworks 和 MapR。此外，公有云廠商還提供雲上託管的Hadoop服務，如AWS EMR、Azure HDinsight等，佔據了Hadoop大部分市場份額。

然而，2018年，市場經歷了劇烈的變化。一條重磅訊息震驚了 Hadoop 生態系統： Cloudera 和 Hortonworks 合併。
換言之，一號市場和二號市場參與者為了在市場中生存而相互擁抱。隨後，HPE 宣佈收購 MapR。這些併購表明，儘管Hadoop大受歡迎，但企業經營困難，賺錢困難。
合併 Hortonworks 後， Cloudera 宣佈將對所有產品線收費，包括之前的開源版本。開源產品不再對所有使用者開放，而只對付費使用者開放。
過去免費提供的 HDP 發行版不再維護且可供下載。未來將合併為一個統一的CDP平臺。

是什麼扼殺了 Hadoop？
谷歌趨勢顯示，對 Hadoop 的興趣在 2014 年至 2017 年期間達到了頂峰。在那之後，我們看到 Hadoop 的搜尋量明顯下降。

Hadoop沒落的原因是什麼？在我看來，三個主要因素共同導致了 Hadoop 的衰落：

資料分析和新興技術的新市場需求
快速增長的雲供應商和服務
Hadoop生態系統日益複雜

在當今，使用者對資料管理和分析有了新的需求，比如線上快速分析、儲存和計算分離，或者人工智慧和機器學習的AI/ML。在這些方面， Hadoop 只能提供有限的支援。在這方面，它無法與一些新興技術相提並論。比如近年來非常流行的Redis、Elastisearch、ClickHouse等，都可以應用於大資料分析。
對於客戶來說，只要單一技術就能滿足他們的需求，就不需要部署複雜的 Hadoop 平臺。
從另一個角度看，雲端計算在過去十年左右的時間裡發展迅猛，不僅擊敗了IBM、HP等傳統軟體廠商，也在一定程度上蠶食了Hadoop的大資料市場。

早期，雲廠商只在 IaaS 上部署 Hadoop，比如 AWS EMR（號稱是全球部署最多的 Hadoop 叢集）。對於使用者來說，託管在雲上的Hadoop服務可以隨時啟動和停止，資料可以安全地備份在雲廠商的資料服務平臺上，使用方便，節約成本。
此外，雲廠商針對特定場景提供一系列大資料服務，形成完整的生態系統，如AWS S3實現的持久化低成本資料儲存、KV資料儲存、Amazon DynamoDB、Athena實現的低延遲訪問，用於分析大資料的無伺服器查詢服務等。

如何面對後Hadoop時代?
Hadoop最終會被拋棄嗎？我相信這不會很快發生。畢竟，Hadoop 擁有大量的使用者，這意味著平臺和應用遷移的成本高昂。

因此，當前使用者會繼續使用它，但新使用者的數量會逐漸減少。這就是我們所說的“後Hadoop時代”。

首先，像 Cloudera/Hortonworks 這樣的技術供應商無法在市場上釋出高質量的免費產品。
其次，不要忘記 Hadoop 是一個由 Apache 基金會託管的開源專案。
就 Apache Hadoop 的潛在增長而言，上述路線圖來自 Hadoop 社群的一次聚會。 3.0 之後，Hadoop 的新特性顯然不再那麼好了。它們主要是關於與 K8s 和 Docker 的整合，這對大資料從業者來說並不那麼有吸引力。

後疫情時代，如何應對運維安全新挑戰？
2020-07-29
運維
後疫情時代：供應鏈如何應對“生死考驗”？
2020-12-21
後面試時代與 AI 刷題
2024-10-10
面試AI
Cirium：如何應對後疫情時代航空業復甦的新常態
2020-07-16
BERT時代與後時代的NLP（一）
2019-06-17
BERT時代與後時代的NLP（二）
2019-06-27
精益變革時如何面對阻抗？
2023-02-03
德勤諮詢：後疫情時代的人力資源與應對
2020-04-30
後IDFA時代，開發者該如何保障變現收益？
2021-03-18
後REST時代正在來臨
2018-11-20
REST
後“帝國”時代：微軟在《帝國時代2》之後的RTS嘗試
2020-04-08
微軟
直播預告|後疫情時代下對安全風控的思考與碰撞
2022-07-25
後疫情時代迎挑戰，金融業AI如何落地破局？
2020-07-28
AI
後Low Code時代：聚焦和突破
2021-02-15
後科技時代—賽博朋克2077
2020-12-15
對話偶數科技常雷：如何開啟實時湖倉一體時代？
2023-11-28
益普索Ipsos：後疫情時代對全球汽車消費的影響
2020-05-19
汽車製造商該如何面對新一代消費者？
2024-04-22
後流量時代，如何實現最佳的電商風控運營？
2018-07-07
5G時代一對一原始碼發展趨勢如何？
2021-11-03
原始碼
Facebook的“後IDFA時代”計劃：關閉針對iOS14的Audience Network？
2020-09-29
iOS
Spring Cloud在Netflix後時代的走向？
2019-04-10
SpringCloud
KOS：2022後疫情時代薪酬報告
2022-06-28
DoubleVerify：後cookie時代廣告策略和情緒是如何演變的
2024-01-15
Cookie
人工智慧豐收時代，傳統營銷企業如何應對？
2018-10-23
人工智慧
巨人網路吳萌：如何應對新時代下的人才挑戰
2020-12-18
Web時代安全如何突圍
2019-05-10
Web
面試”作弊“，不看絕對會後悔！
2020-10-12
面試
Hadoop面試題總結
2024-11-26
Hadoop面試題
Hadoop常見面試題
2022-01-09
Hadoop面試題
Hadoop面試題之HDFS
2021-12-23
Hadoop面試題
Hadoop叢集面試題
2021-12-23
Hadoop面試題
Hadoop面試題之MapReduce
2021-12-23
Hadoop面試題
Hadoop面試題（四）——YARN
2021-10-24
Hadoop面試題Yarn
後深度學習時代，計算機視覺技術如何走向未來？
2019-10-24
深度學習計算機視覺
麥肯錫：後疫情時代半導體產業如何崛起？（附下載）
2020-08-02
產業
尼爾森IQ：乳製品在後疫情時代如何跑贏未來？
2022-12-24
後疫情時代，如何破譯北京餐飲行業的“反轉密碼”？
2023-01-30
行業密碼

如何面對後Hadoop時代?

相關文章