阿里雲封神:Gartner看衰的並不是Hadoop生態
在過去幾個月的走訪調研中,針對Gartner《2017年資料管理技術成熟度曲線》做出的Hadoop“即將在到達生產成熟期之前衰落”的結論,筆者詢問了數十位大資料領域技術專家的觀點,Hadoop在國內大資料市場的地位正如筆者所預料的一樣穩固。既然如此,那麼是Gartner的結論有誤嗎?我們應該如何正確解讀這份報告?拋開報告,Hadoop生態各元件到底表現如何呢?
本期採訪嘉賓:封神,09年加入阿里,9年來專注在分散式計算、儲存、資料庫領域。曾研發集團超過1w臺Hadoop叢集,萬臺規模的跨機房建設,並負責其中分散式排程及記憶體計算引擎Spark。曾研發集團超過5w臺的ODPS叢集,自主研發分散式記憶體引擎,處理超過PB級別資料的迭代計算,並把開源體系融合到內部ODPS體系之中。16年起,開始做雲產品,構建大資料資料庫服務,研究分散式檢索與原始資料的融合技術、研究行列混合、儲存計算分離、新硬體加速、統一SQL、彈性排程計算、時序、時空、圖資料等非結構化等技術,並負責計算與儲存產品化,目前為千百客戶提供專業儲存計算雲HBase服務。
Gartner看衰結論正確解讀:此“Hadoop”非彼“Hadoop”!
Gartner所做出的的看衰結論不假,但其主體範圍需要界定清楚。根據封神的介紹,Gartner所提及的Hadoop更多是狹義上的Hadoop一體化平臺,但我們通常意義上討論的是廣義Hadoop生態,整個生態包含了眾多元件,這個範圍與前者相差很大。
對於Hadoop生態的發展狀態,我們可以分層逐級解析。首先是HDFS分散式檔案系統層,封神表示,目前尚沒有任何一款開源產品足以完整替代HDFS,因此其生命力必定是旺盛的。目前看起來,有可能挑戰的是業務模式的變化,使用者上雲後,直接用物件儲存,做到儲存與計算分離,節約成本。
其次是Yarn所在的分散式排程層。作為大資料核心排程元件,Yarn的使用覆蓋率非常高。雖然在離線與線上資料混合方面表現欠缺,但Yarn一直在不斷改進。這一點也與Yarn的發展背景有關,支援Yarn的幾家公司主要做離線系統,對線上系統部署問題關注不夠。當然,目前市場已經有了存在一定競爭關係的產品,比如Mesos,但這兩大排程系統的設計目標並不完全相同,並且Yarn也在朝著Mesos的領域進軍。此外,從某種意義上講,Yarn與Hadoop生態體系中的一些元件包都可共享,貿然更換勢必面臨著適配問題。
在分散式檔案系統和分散式排程系統的基礎之上,各類元件的加入讓Hadoop生態更加豐富。在絕大多數使用者的認知中,Hive、MapReduce、熱議的Spark以及Flink的定位都只是Hadoop生態中的一個計算引擎,並不存在替代Hadoop生態的關係,Hadoop生態的整體生命力非常強,這一點也在連續幾個月的調研中得到了證實,Hadoop在大資料領域的標準地位遠比我們想象得要穩固。
Hadoop生態圈元件生命力解析:替不替代取決於需求!
Hadoop生態圈元件繁多,元件替換是大多數企業對Hadoop生態圈進行改良的重要一步,但很多企業和技術人員對如何替換和挑選元件完全沒有頭緒。根據封神的介紹,雖然短期內Spark和Flink沒有能力替代整個Hadoop生態,但是它們有能力替代個別計算引擎。Spark的生態日益完善,其在機器學習、SQL以及Streaming方面的先天優勢明顯;Flink主攻流式處理,延遲較低,這兩大引擎目前的整體表現還是不錯的。雖然部分企業會嘗試使用Spark替換MapReduce,但在封神看來,這樣的元件替換需要從實際業務需求出發,如果看中穩定性,MapReduce略勝一籌;如果看中生態所提供的能力,自然是Spark更加完善。
此外,Hive也非常有競爭力,阿里內部PB級資料量的處理非Hive不可,因為其穩定性非常高,當資料量達到PB級別,一個任務要執行兩到三天時,沒有一個元件可以挑戰Hive的穩定性。作為開源分散式資料庫,HBase也是大多數企業的首選,本月釋出的HBase 2.0版本被稱為迄今為止最大的版本,共包含4551個Issues,對可用性和延遲均做出了優化。對於現在很多資料庫都在做的一寫多讀,HBase在1.X版本早期就具備該能力。其次,HBase非常適合雲端計算環境。不管是AWS還是阿里主推的關係型資料庫,其本質都是儲存計算分離,HBase誕生的第一天就是儲存計算分離的,現如今經過了多年在各大公司的磨鍊,HBase的儲存計算分離已經相當成熟。
Hadoop漸步成熟期,其可能替代品的生存現狀如何?
封神表示,就個人參加Hadoop大會的感受而言,Hadoop不是衰退了而是成熟了,現在的Hadoop大會更多的是在談人工智慧、區塊鏈和知識圖譜等新興技術,大家更關注的不再是Hadoop生態的底層實現,而是其上的應用,這就造成了使用者對Hadoop關注度降低的假象。
當然,任何一項技術發展了十餘年,總會出現一些挑戰者。封神談及,NewSQL確實是分散式,也能解決部分儲存相關的事情,具備儲存和併發能力,但它主要解決的是核心場景,比如金融級場景下的核心問題,並不擅長海量資料儲存且成本偏高。此外,Cassandra和Elasticsearch也能變相解決部分Hadoop問題,在工具的支撐下,使用者非常容易上手,但隨著規模的不斷擴大,最終還是要回到整個Hadoop生態。
綜上,封神認為Gartner所做出的的結論更偏向於Hadoop本身而非Hadoop生態,但在大多數使用者的認知中,我們在談論Hadoop時已經預設是Hadoop生態,因此我們沒必要對Gartner的結論太過苛責,畢竟目前國內的一線網際網路企業都在使用Hadoop生態,短期內我們並沒有看到改朝換代的跡象,反倒是其核心元件越來越成熟。如果不用Hadoop,你還可以做出什麼選擇呢?
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2155682/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 走訪Hadoop發行商:Gartner看衰論斷如何理解Hadoop
- Gartner連續五年唱衰Hadoop,廠商不以為然!Hadoop
- Hadoop演進與Hadoop生態Hadoop
- 秒雲獲得阿里雲首批產品生態整合認證,攜手阿里雲共建雲原生智慧運維生態服務阿里運維
- 初入Hadoop生態系統Hadoop
- Hadoop 基礎之生態圈Hadoop
- 從建好到用好,阿里雲原生微服務生態的演進阿里微服務
- 揭開臉譜看封神:前言
- 騫雲獲得阿里雲首批產品生態整合認證,攜手阿里雲共建新合作阿里
- 共建共享數字世界的根:阿里雲打造全面的雲原生開源生態阿里
- Tapdata 獲得阿里雲首批產品生態整合認證,攜手阿里雲共建新合作阿里
- 硬之城獲阿里雲首批產品生態整合認證,攜手阿里雲共建新合作阿里
- 阿里騰訊生態破冰阿里
- Hadoop系列002-從Hadoop框架討論大資料生態Hadoop框架大資料
- Hadoop基礎(二):從Hadoop框架討論大資料生態Hadoop框架大資料
- 幽默:軟體工程其實並不是理科生的天下軟體工程
- Gartner首推機密計算:阿里雲名列其中阿里
- 阿里雲事件生態再升級:使用 EventBridge 驅動全量雲產品阿里事件
- 遠光軟體獲得阿里雲產品生態整合認證,攜手阿里雲共建新合作阿里
- 鼎茂科技獲得阿里雲首批產品生態整合認證,攜手阿里雲共建新合作阿里
- BDA:Hadoop生態大資料工具的漏洞掃描器Hadoop大資料
- 阿里雲ECI不要使用,不是重點方向阿里
- 七成企業將部署混合雲,杉巖攜手阿里雲共建混合雲生態阿里
- KubeBlocks完成阿里雲PolarDB資料庫產品生態整合認證BloC阿里資料庫
- 美創科技加入阿里雲飛天生態合作伙伴-服務生態合作計劃阿里
- 研究發現衛生間第一格並不是最髒的
- 從《王國紀元》看SLG的生態玩法
- 民生證券:聚焦抗衰的高階品牌,打造健康皮膚生態(附下載)
- Hadoop生態系統各元件與Yarn的相容性如何?Hadoop元件Yarn
- 阿里雲啟動影片雲V5計劃,全面賦能生態合作伙伴阿里
- KubeBlocks 完成阿里雲 PolarDB 資料庫產品生態整合認證啦!BloC阿里資料庫
- Hadoop將死?Cloudera CEO怒懟GartnerHadoopCloud
- 阿里雲RDS的高許可權不是真正的高許可權阿里
- 鴻翼雲生態大會之生態解決方案
- Gartner:阿里雲已位居全球雲資料庫市場份額第三阿里資料庫
- Kubernetes 的 secret 並不是真正的 secret
- 從業務元件庫看前端物料生態元件前端
- 阿里雲蔡英華:Landing Zone助力生態夥伴成為企業雲治理服務專家阿里