如何面對後Hadoop時代?

banq發表於2022-02-18

Apache Hadoop作為一個完整的開源大資料套件,在過去十年深刻影響了整個大資料世界。然而,隨著各種新興技術的發展,Hadoop生態系統發生了翻天覆地的變化。
2021 年 4 月,Apache 軟體基金會宣佈退出 13 個大資料相關專案,其中 10 個屬於 Hadoop 生態系統,如 Eagle、Sentry、Tajo 等。後來Apache  Ambari 誕生,使命是管理 Hadoop 叢集,但卻成為第一個將於 2022 年退役的 Apache 專案。
 Hadoop真的死了嗎?如果是這樣,什麼產品/技術將取代它?大資料分析的未來前景如何?
本文將分析 Hadoop的歷史, 雲原生趨勢下 的 新興技術選擇,以及未來10年大資料分析的未來展望 。
 

Hadoop為大資料而生
 大量的人類資料和機器資料 (日誌、物聯網裝置等)已被收集和儲存,其數量遠遠超過傳統的業務資料。海量資料與人類能力之間存在巨大的技術鴻溝,催生了各種大資料技術。在這樣的背景下,我們所說 的大資料時代 應運而生。
Hadoop就是這樣一個功能齊全的大資料處理平臺。它包含多種元件來滿足不同的功能需求,例如用於資料儲存的HDFS、用於資源管理的Yarn、用於資料計算和處理的MapReduce和Spark、用於關係資料收集的Sqoop、用於實時資料管道的Kafka、用於線上的HBase資料儲存和訪問,用於線上即席查詢的 Impala 等。
Hadoop 誕生後不久就使用叢集進行平行計算,打破了超級計算機保持的排序記錄。 它已被實力雄厚的公司和各種組織廣泛採用。
得益於“大資料”和有影響力的開源軟體專案Apache社群,Hadoop迅速流行起來,湧現出許多商業公司。
 
市場上的頂級 Hadoop 分銷商包括三個供應商 ——Cloudera、Hortonworks 和 MapR。此外,公有云廠商還提供雲上託管的Hadoop服務,如AWS EMR、Azure HDinsight等,佔據了Hadoop大部分市場份額。
 
然而,2018年,市場經歷了劇烈的變化。一條重磅訊息震驚了 Hadoop 生態系統:  Cloudera 和 Hortonworks 合併。
換言之,一號市場和二號市場參與者為了在市場中生存而相互擁抱。隨後,HPE 宣佈收購 MapR。這些併購表明,儘管Hadoop大受歡迎, 但企業經營困難,賺錢困難。
合併 Hortonworks 後,  Cloudera 宣佈將對所有產品線收費,包括之前的開源版本。開源產品不再對所有使用者開放,而只對付費使用者開放。
過去免費提供的 HDP 發行版不再維護且可供下載。未來將合併為一個統一的CDP平臺。
 

是什麼扼殺了 Hadoop?
谷歌趨勢顯示,對 Hadoop 的興趣在 2014 年至 2017 年期間達到了 頂峰 。在那之後,我們看到 Hadoop 的搜尋量明顯下降。
 
Hadoop沒落的原因是什麼?在我看來,三個主要因素共同導致了 Hadoop 的衰落:

  •  資料分析和新興技術的新市場需求
  • 快速增長的雲供應商 和服務
  •  Hadoop生態系統日益複雜

在當今, 使用者對資料管理和分析有了新的需求, 比如線上快速分析、儲存和計算分離,或者人工智慧和機器學習的AI/ML。在這些方面, Hadoop 只能提供有限的支援。 在這方面,它無法與一些新興技術相提並論。比如近年來非常流行的Redis、Elastisearch、ClickHouse等,都可以應用於大資料分析。
對於客戶來說,只要單一技術就能滿足他們的需求,就不需要部署複雜的 Hadoop 平臺。
從另一個角度看,雲端計算在過去十年左右的時間裡發展迅猛,不僅擊敗了IBM、HP等傳統軟體廠商, 也在一定程度上蠶食了Hadoop的大資料市場。
 
早期,雲廠商只在 IaaS 上部署 Hadoop,比如 AWS EMR(號稱是全球部署最多的 Hadoop 叢集)。對於使用者來說,託管在雲上的Hadoop服務可以隨時啟動和停止,資料可以安全地備份在雲廠商的資料服務平臺上,使用方便,節約成本。
此外,雲廠商針對特定場景提供一系列大資料服務,形成完整的生態系統,如AWS S3實現的持久化低成本資料儲存、KV資料儲存、Amazon DynamoDB、Athena實現的低延遲訪問,用於分析大資料的無伺服器查詢服務等。
 

如何面對後Hadoop時代?
Hadoop最終會被拋棄嗎?我相信這不會很快發生。畢竟,Hadoop 擁有大量的使用者,這意味著平臺和應用遷移的成本高昂。
 
因此,當前使用者會繼續使用它,但新使用者的數量會逐漸減少。這就是我們所說的“後Hadoop時代”。

  • 首先,像 Cloudera/Hortonworks 這樣的技術供應商無法在市場上釋出高質量的免費產品。
  • 其次,不要忘記 Hadoop 是一個由 Apache 基金會託管的開源專案。
  • 就 Apache Hadoop 的潛在增長而言,上述路線圖來自 Hadoop 社群的一次聚會。 3.0 之後,Hadoop 的新特性顯然不再那麼好了。 它們主要是關於與 K8s 和 Docker 的整合,這對大資料從業者來說並不那麼有吸引力。


 

相關文章