如何面對後Hadoop時代?
Apache Hadoop作為一個完整的開源大資料套件,在過去十年深刻影響了整個大資料世界。然而,隨著各種新興技術的發展,Hadoop生態系統發生了翻天覆地的變化。
2021 年 4 月,Apache 軟體基金會宣佈退出 13 個大資料相關專案,其中 10 個屬於 Hadoop 生態系統,如 Eagle、Sentry、Tajo 等。後來Apache Ambari 誕生,使命是管理 Hadoop 叢集,但卻成為第一個將於 2022 年退役的 Apache 專案。
Hadoop真的死了嗎?如果是這樣,什麼產品/技術將取代它?大資料分析的未來前景如何?
本文將分析 Hadoop的歷史, 雲原生趨勢下 的 新興技術選擇,以及未來10年大資料分析的未來展望 。
Hadoop為大資料而生
大量的人類資料和機器資料 (日誌、物聯網裝置等)已被收集和儲存,其數量遠遠超過傳統的業務資料。海量資料與人類能力之間存在巨大的技術鴻溝,催生了各種大資料技術。在這樣的背景下,我們所說 的大資料時代 應運而生。
Hadoop就是這樣一個功能齊全的大資料處理平臺。它包含多種元件來滿足不同的功能需求,例如用於資料儲存的HDFS、用於資源管理的Yarn、用於資料計算和處理的MapReduce和Spark、用於關係資料收集的Sqoop、用於實時資料管道的Kafka、用於線上的HBase資料儲存和訪問,用於線上即席查詢的 Impala 等。
Hadoop 誕生後不久就使用叢集進行平行計算,打破了超級計算機保持的排序記錄。 它已被實力雄厚的公司和各種組織廣泛採用。
得益於“大資料”和有影響力的開源軟體專案Apache社群,Hadoop迅速流行起來,湧現出許多商業公司。
市場上的頂級 Hadoop 分銷商包括三個供應商 ——Cloudera、Hortonworks 和 MapR。此外,公有云廠商還提供雲上託管的Hadoop服務,如AWS EMR、Azure HDinsight等,佔據了Hadoop大部分市場份額。
然而,2018年,市場經歷了劇烈的變化。一條重磅訊息震驚了 Hadoop 生態系統: Cloudera 和 Hortonworks 合併。
換言之,一號市場和二號市場參與者為了在市場中生存而相互擁抱。隨後,HPE 宣佈收購 MapR。這些併購表明,儘管Hadoop大受歡迎, 但企業經營困難,賺錢困難。
合併 Hortonworks 後, Cloudera 宣佈將對所有產品線收費,包括之前的開源版本。開源產品不再對所有使用者開放,而只對付費使用者開放。
過去免費提供的 HDP 發行版不再維護且可供下載。未來將合併為一個統一的CDP平臺。
是什麼扼殺了 Hadoop?
谷歌趨勢顯示,對 Hadoop 的興趣在 2014 年至 2017 年期間達到了 頂峰 。在那之後,我們看到 Hadoop 的搜尋量明顯下降。
Hadoop沒落的原因是什麼?在我看來,三個主要因素共同導致了 Hadoop 的衰落:
- 資料分析和新興技術的新市場需求
- 快速增長的雲供應商 和服務
- Hadoop生態系統日益複雜
在當今, 使用者對資料管理和分析有了新的需求, 比如線上快速分析、儲存和計算分離,或者人工智慧和機器學習的AI/ML。在這些方面, Hadoop 只能提供有限的支援。 在這方面,它無法與一些新興技術相提並論。比如近年來非常流行的Redis、Elastisearch、ClickHouse等,都可以應用於大資料分析。
對於客戶來說,只要單一技術就能滿足他們的需求,就不需要部署複雜的 Hadoop 平臺。
從另一個角度看,雲端計算在過去十年左右的時間裡發展迅猛,不僅擊敗了IBM、HP等傳統軟體廠商, 也在一定程度上蠶食了Hadoop的大資料市場。
早期,雲廠商只在 IaaS 上部署 Hadoop,比如 AWS EMR(號稱是全球部署最多的 Hadoop 叢集)。對於使用者來說,託管在雲上的Hadoop服務可以隨時啟動和停止,資料可以安全地備份在雲廠商的資料服務平臺上,使用方便,節約成本。
此外,雲廠商針對特定場景提供一系列大資料服務,形成完整的生態系統,如AWS S3實現的持久化低成本資料儲存、KV資料儲存、Amazon DynamoDB、Athena實現的低延遲訪問,用於分析大資料的無伺服器查詢服務等。
如何面對後Hadoop時代?
Hadoop最終會被拋棄嗎?我相信這不會很快發生。畢竟,Hadoop 擁有大量的使用者,這意味著平臺和應用遷移的成本高昂。
因此,當前使用者會繼續使用它,但新使用者的數量會逐漸減少。這就是我們所說的“後Hadoop時代”。
- 首先,像 Cloudera/Hortonworks 這樣的技術供應商無法在市場上釋出高質量的免費產品。
- 其次,不要忘記 Hadoop 是一個由 Apache 基金會託管的開源專案。
- 就 Apache Hadoop 的潛在增長而言,上述路線圖來自 Hadoop 社群的一次聚會。 3.0 之後,Hadoop 的新特性顯然不再那麼好了。 它們主要是關於與 K8s 和 Docker 的整合,這對大資料從業者來說並不那麼有吸引力。
相關文章
- 後疫情時代,如何應對運維安全新挑戰?運維
- Hadoop進入2.0時代Hadoop
- 大資料時代之hadoop(一):hadoop安裝大資料Hadoop
- 面對勒索軟體攻擊,我們如何保護DT時代的企業資料資產?
- 後jQuery時代jQuery
- 大資料時代之hadoop(二):hadoop指令碼解析大資料Hadoop指令碼
- 大資料時代企業要如何應對大資料
- 後IDFA時代,開發者該如何保障變現收益?
- 後“稜鏡門”時代,郵件安全該如何保障
- 面對海量資料,如何才能查得更快?
- IT建設如何面對“短板”和“孤峰”?
- 大資料時代之hadoop(五):hadoop 分散式計算框架(MapReduce)大資料Hadoop分散式框架
- 大資料時代之hadoop(三):hadoop資料流(生命週期)大資料Hadoop
- 面對人生這道程式,該如何編碼?
- 面對親友,如何解釋人工智慧?人工智慧
- 如何對php網站頁面進行修改PHP網站
- PBOOTCMS網站訪問頁面提示:您訪問的頁面不存在,請核對後重試!如何改成自動404跳轉頁面boot網站
- 大資料時代之hadoop(四):hadoop 分散式檔案系統(HDFS)大資料Hadoop分散式
- 直播預告|後疫情時代下對安全風控的思考與碰撞
- 麥肯錫:後疫情時代半導體產業如何崛起?(附下載)產業
- 後流量時代,如何實現最佳的電商風控運營?
- Java如何面對無伺服器的挑戰?Java伺服器
- 如何面對JAVA架構師,和學習方法。Java架構
- 面對 20 億行程式碼,Google 如何管理?行程Go
- 專案管理:軟體企業如何面對(轉)專案管理
- 軟體企業如何面對專案管理(轉)專案管理
- “面對面”的網路暴力
- 前後端分離後的前端時代後端前端
- 後“帝國”時代:微軟在《帝國時代2》之後的RTS嘗試微軟
- 如何對Node應用"死後驗屍"
- 後端人員如何應對線上故障後端
- 後REST時代正在來臨REST
- 益普索Ipsos:後疫情時代對全球汽車消費的影響
- 後疫情時代迎挑戰,金融業AI如何落地破局?AI
- DoubleVerify:後cookie時代廣告策略和情緒是如何演變的Cookie
- 進入“資料密態時代”,面對資料安全、網路安全、資料確權
- 面對物件2物件
- 面對“套路貸”借貸寶是如何處理的?