阿里雲封神:Gartner看衰的並不是Hadoop生態

趙鈺瑩發表於2018-06-06

原文網址 : http://blog.itpub.net/31077337/viewspace-2155682/

在過去幾個月的走訪調研中，針對Gartner《2017年資料管理技術成熟度曲線》做出的Hadoop“即將在到達生產成熟期之前衰落”的結論，筆者詢問了數十位大資料領域技術專家的觀點，Hadoop在國內大資料市場的地位正如筆者所預料的一樣穩固。既然如此，那麼是Gartner的結論有誤嗎?我們應該如何正確解讀這份報告?拋開報告，Hadoop生態各元件到底表現如何呢？

　　本期採訪嘉賓：封神，09年加入阿里，9年來專注在分散式計算、儲存、資料庫領域。曾研發集團超過1w臺Hadoop叢集，萬臺規模的跨機房建設，並負責其中分散式排程及記憶體計算引擎Spark。曾研發集團超過5w臺的ODPS叢集，自主研發分散式記憶體引擎，處理超過PB級別資料的迭代計算，並把開源體系融合到內部ODPS體系之中。16年起，開始做雲產品，構建大資料資料庫服務，研究分散式檢索與原始資料的融合技術、研究行列混合、儲存計算分離、新硬體加速、統一SQL、彈性排程計算、時序、時空、圖資料等非結構化等技術，並負責計算與儲存產品化，目前為千百客戶提供專業儲存計算雲HBase服務。

　　Gartner看衰結論正確解讀：此“Hadoop”非彼“Hadoop”!

　　Gartner所做出的的看衰結論不假，但其主體範圍需要界定清楚。根據封神的介紹，Gartner所提及的Hadoop更多是狹義上的Hadoop一體化平臺，但我們通常意義上討論的是廣義Hadoop生態，整個生態包含了眾多元件，這個範圍與前者相差很大。

　　對於Hadoop生態的發展狀態，我們可以分層逐級解析。首先是HDFS分散式檔案系統層，封神表示，目前尚沒有任何一款開源產品足以完整替代HDFS，因此其生命力必定是旺盛的。目前看起來，有可能挑戰的是業務模式的變化，使用者上雲後，直接用物件儲存，做到儲存與計算分離，節約成本。

　　其次是Yarn所在的分散式排程層。作為大資料核心排程元件，Yarn的使用覆蓋率非常高。雖然在離線與線上資料混合方面表現欠缺，但Yarn一直在不斷改進。這一點也與Yarn的發展背景有關，支援Yarn的幾家公司主要做離線系統，對線上系統部署問題關注不夠。當然，目前市場已經有了存在一定競爭關係的產品，比如Mesos，但這兩大排程系統的設計目標並不完全相同，並且Yarn也在朝著Mesos的領域進軍。此外，從某種意義上講，Yarn與Hadoop生態體系中的一些元件包都可共享，貿然更換勢必面臨著適配問題。

　　在分散式檔案系統和分散式排程系統的基礎之上，各類元件的加入讓Hadoop生態更加豐富。在絕大多數使用者的認知中，Hive、MapReduce、熱議的Spark以及Flink的定位都只是Hadoop生態中的一個計算引擎，並不存在替代Hadoop生態的關係，Hadoop生態的整體生命力非常強，這一點也在連續幾個月的調研中得到了證實，Hadoop在大資料領域的標準地位遠比我們想象得要穩固。

阿里雲封神:Gartner看衰的並不是Hadoop生態

　　Hadoop生態圈元件生命力解析：替不替代取決於需求!

　　Hadoop生態圈元件繁多，元件替換是大多數企業對Hadoop生態圈進行改良的重要一步，但很多企業和技術人員對如何替換和挑選元件完全沒有頭緒。根據封神的介紹，雖然短期內Spark和Flink沒有能力替代整個Hadoop生態，但是它們有能力替代個別計算引擎。Spark的生態日益完善，其在機器學習、SQL以及Streaming方面的先天優勢明顯;Flink主攻流式處理，延遲較低，這兩大引擎目前的整體表現還是不錯的。雖然部分企業會嘗試使用Spark替換MapReduce，但在封神看來，這樣的元件替換需要從實際業務需求出發，如果看中穩定性，MapReduce略勝一籌;如果看中生態所提供的能力，自然是Spark更加完善。

　　此外，Hive也非常有競爭力，阿里內部PB級資料量的處理非Hive不可，因為其穩定性非常高，當資料量達到PB級別，一個任務要執行兩到三天時，沒有一個元件可以挑戰Hive的穩定性。作為開源分散式資料庫，HBase也是大多數企業的首選，本月釋出的HBase 2.0版本被稱為迄今為止最大的版本，共包含4551個Issues，對可用性和延遲均做出了優化。對於現在很多資料庫都在做的一寫多讀，HBase在1.X版本早期就具備該能力。其次，HBase非常適合雲端計算環境。不管是AWS還是阿里主推的關係型資料庫，其本質都是儲存計算分離，HBase誕生的第一天就是儲存計算分離的，現如今經過了多年在各大公司的磨鍊，HBase的儲存計算分離已經相當成熟。

　　Hadoop漸步成熟期，其可能替代品的生存現狀如何?

　　封神表示，就個人參加Hadoop大會的感受而言，Hadoop不是衰退了而是成熟了，現在的Hadoop大會更多的是在談人工智慧、區塊鏈和知識圖譜等新興技術，大家更關注的不再是Hadoop生態的底層實現，而是其上的應用，這就造成了使用者對Hadoop關注度降低的假象。

　　當然，任何一項技術發展了十餘年，總會出現一些挑戰者。封神談及，NewSQL確實是分散式，也能解決部分儲存相關的事情，具備儲存和併發能力，但它主要解決的是核心場景，比如金融級場景下的核心問題，並不擅長海量資料儲存且成本偏高。此外，Cassandra和Elasticsearch也能變相解決部分Hadoop問題，在工具的支撐下，使用者非常容易上手，但隨著規模的不斷擴大，最終還是要回到整個Hadoop生態。

　　綜上，封神認為Gartner所做出的的結論更偏向於Hadoop本身而非Hadoop生態，但在大多數使用者的認知中，我們在談論Hadoop時已經預設是Hadoop生態，因此我們沒必要對Gartner的結論太過苛責，畢竟目前國內的一線網際網路企業都在使用Hadoop生態，短期內我們並沒有看到改朝換代的跡象，反倒是其核心元件越來越成熟。如果不用Hadoop，你還可以做出什麼選擇呢?

▲點選參與大話IT討論活動，有機會獲得精美禮品

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31077337/viewspace-2155682/，如需轉載，請註明出處，否則將追究法律責任。

走訪Hadoop發行商:Gartner看衰論斷如何理解
2018-05-07
Hadoop
Gartner連續五年唱衰Hadoop,廠商不以為然!
2018-05-07
Hadoop
Hadoop演進與Hadoop生態
2020-09-20
Hadoop
秒雲獲得阿里雲首批產品生態整合認證，攜手阿里雲共建雲原生智慧運維生態服務
2022-08-23
阿里運維
初入Hadoop生態系統
2018-11-08
Hadoop
Hadoop 基礎之生態圈
2019-04-29
Hadoop
從建好到用好，阿里雲原生微服務生態的演進
2022-03-24
阿里微服務
揭開臉譜看封神：前言
2024-08-26
騫雲獲得阿里雲首批產品生態整合認證，攜手阿里雲共建新合作
2022-09-01
阿里
共建共享數字世界的根：阿里雲打造全面的雲原生開源生態
2022-08-12
阿里
Tapdata 獲得阿里雲首批產品生態整合認證，攜手阿里雲共建新合作
2022-08-29
阿里
硬之城獲阿里雲首批產品生態整合認證，攜手阿里雲共建新合作
2022-05-30
阿里
阿里騰訊生態破冰
2021-07-23
阿里
Hadoop系列002-從Hadoop框架討論大資料生態
2018-12-01
Hadoop框架大資料
Hadoop基礎（二）：從Hadoop框架討論大資料生態
2020-07-11
Hadoop框架大資料
幽默：軟體工程其實並不是理科生的天下
2021-12-31
軟體工程
Gartner首推機密計算：阿里雲名列其中
2019-09-04
阿里
阿里雲事件生態再升級：使用 EventBridge 驅動全量雲產品
2022-10-14
阿里事件
遠光軟體獲得阿里雲產品生態整合認證，攜手阿里雲共建新合作
2022-07-28
阿里
鼎茂科技獲得阿里雲首批產品生態整合認證，攜手阿里雲共建新合作
2022-11-15
阿里
BDA：Hadoop生態大資料工具的漏洞掃描器
2021-12-28
Hadoop大資料
阿里雲ECI不要使用，不是重點方向
2024-04-06
阿里
七成企業將部署混合雲，杉巖攜手阿里雲共建混合雲生態
2020-07-17
阿里
KubeBlocks完成阿里雲PolarDB資料庫產品生態整合認證
2023-10-25
BloC阿里資料庫
美創科技加入阿里雲飛天生態合作伙伴-服務生態合作計劃
2022-09-22
阿里
研究發現衛生間第一格並不是最髒的
2021-02-18
從《王國紀元》看SLG的生態玩法
2019-09-04
民生證券：聚焦抗衰的高階品牌，打造健康皮膚生態（附下載）
2023-01-30
Hadoop生態系統各元件與Yarn的相容性如何？
2018-09-11
Hadoop元件Yarn
阿里雲啟動影片雲V5計劃，全面賦能生態合作伙伴
2019-10-08
阿里
KubeBlocks 完成阿里雲 PolarDB 資料庫產品生態整合認證啦！
2023-12-27
BloC阿里資料庫
Hadoop將死？Cloudera CEO怒懟Gartner
2018-05-07
HadoopCloud
阿里雲RDS的高許可權不是真正的高許可權
2018-08-02
阿里
鴻翼雲生態大會之生態解決方案
2022-03-14
Gartner：阿里雲已位居全球雲資料庫市場份額第三
2019-06-28
阿里資料庫
Kubernetes 的 secret 並不是真正的 secret
2023-03-26
從業務元件庫看前端物料生態
2021-12-07
元件前端
阿里雲蔡英華：Landing Zone助力生態夥伴成為企業雲治理服務專家
2023-05-17
阿里

阿里雲封神:Gartner看衰的並不是Hadoop生態

相關文章