阿里雲封神:Gartner看衰的並不是Hadoop生態

趙鈺瑩發表於2018-06-06

  在過去幾個月的走訪調研中,針對Gartner《2017年資料管理技術成熟度曲線》做出的Hadoop“即將在到達生產成熟期之前衰落”的結論,筆者詢問了數十位大資料領域技術專家的觀點,Hadoop在國內大資料市場的地位正如筆者所預料的一樣穩固。既然如此,那麼是Gartner的結論有誤嗎?我們應該如何正確解讀這份報告?拋開報告,Hadoop生態各元件到底表現如何呢?

阿里雲封神:Gartner看衰的並不是Hadoop生態

  本期採訪嘉賓:封神,09年加入阿里,9年來專注在分散式計算、儲存、資料庫領域。曾研發集團超過1w臺Hadoop叢集,萬臺規模的跨機房建設,並負責其中分散式排程及記憶體計算引擎Spark。曾研發集團超過5w臺的ODPS叢集,自主研發分散式記憶體引擎,處理超過PB級別資料的迭代計算,並把開源體系融合到內部ODPS體系之中。16年起,開始做雲產品,構建大資料資料庫服務,研究分散式檢索與原始資料的融合技術、研究行列混合、儲存計算分離、新硬體加速、統一SQL、彈性排程計算、時序、時空、圖資料等非結構化等技術,並負責計算與儲存產品化,目前為千百客戶提供專業儲存計算雲HBase服務。

  Gartner看衰結論正確解讀:此“Hadoop”非彼“Hadoop”!

  Gartner所做出的的看衰結論不假,但其主體範圍需要界定清楚。根據封神的介紹,Gartner所提及的Hadoop更多是狹義上的Hadoop一體化平臺,但我們通常意義上討論的是廣義Hadoop生態,整個生態包含了眾多元件,這個範圍與前者相差很大。

  對於Hadoop生態的發展狀態,我們可以分層逐級解析。首先是HDFS分散式檔案系統層,封神表示,目前尚沒有任何一款開源產品足以完整替代HDFS,因此其生命力必定是旺盛的。目前看起來,有可能挑戰的是業務模式的變化,使用者上雲後,直接用物件儲存,做到儲存與計算分離,節約成本。

  其次是Yarn所在的分散式排程層。作為大資料核心排程元件,Yarn的使用覆蓋率非常高。雖然在離線與線上資料混合方面表現欠缺,但Yarn一直在不斷改進。這一點也與Yarn的發展背景有關,支援Yarn的幾家公司主要做離線系統,對線上系統部署問題關注不夠。當然,目前市場已經有了存在一定競爭關係的產品,比如Mesos,但這兩大排程系統的設計目標並不完全相同,並且Yarn也在朝著Mesos的領域進軍。此外,從某種意義上講,Yarn與Hadoop生態體系中的一些元件包都可共享,貿然更換勢必面臨著適配問題。

  在分散式檔案系統和分散式排程系統的基礎之上,各類元件的加入讓Hadoop生態更加豐富。在絕大多數使用者的認知中,Hive、MapReduce、熱議的Spark以及Flink的定位都只是Hadoop生態中的一個計算引擎,並不存在替代Hadoop生態的關係,Hadoop生態的整體生命力非常強,這一點也在連續幾個月的調研中得到了證實,Hadoop在大資料領域的標準地位遠比我們想象得要穩固。

阿里雲封神:Gartner看衰的並不是Hadoop生態

  Hadoop生態圈元件生命力解析:替不替代取決於需求!

  Hadoop生態圈元件繁多,元件替換是大多數企業對Hadoop生態圈進行改良的重要一步,但很多企業和技術人員對如何替換和挑選元件完全沒有頭緒。根據封神的介紹,雖然短期內Spark和Flink沒有能力替代整個Hadoop生態,但是它們有能力替代個別計算引擎。Spark的生態日益完善,其在機器學習、SQL以及Streaming方面的先天優勢明顯;Flink主攻流式處理,延遲較低,這兩大引擎目前的整體表現還是不錯的。雖然部分企業會嘗試使用Spark替換MapReduce,但在封神看來,這樣的元件替換需要從實際業務需求出發,如果看中穩定性,MapReduce略勝一籌;如果看中生態所提供的能力,自然是Spark更加完善。

  此外,Hive也非常有競爭力,阿里內部PB級資料量的處理非Hive不可,因為其穩定性非常高,當資料量達到PB級別,一個任務要執行兩到三天時,沒有一個元件可以挑戰Hive的穩定性。作為開源分散式資料庫,HBase也是大多數企業的首選,本月釋出的HBase 2.0版本被稱為迄今為止最大的版本,共包含4551個Issues,對可用性和延遲均做出了優化。對於現在很多資料庫都在做的一寫多讀,HBase在1.X版本早期就具備該能力。其次,HBase非常適合雲端計算環境。不管是AWS還是阿里主推的關係型資料庫,其本質都是儲存計算分離,HBase誕生的第一天就是儲存計算分離的,現如今經過了多年在各大公司的磨鍊,HBase的儲存計算分離已經相當成熟。

  Hadoop漸步成熟期,其可能替代品的生存現狀如何?

  封神表示,就個人參加Hadoop大會的感受而言,Hadoop不是衰退了而是成熟了,現在的Hadoop大會更多的是在談人工智慧、區塊鏈和知識圖譜等新興技術,大家更關注的不再是Hadoop生態的底層實現,而是其上的應用,這就造成了使用者對Hadoop關注度降低的假象。

  當然,任何一項技術發展了十餘年,總會出現一些挑戰者。封神談及,NewSQL確實是分散式,也能解決部分儲存相關的事情,具備儲存和併發能力,但它主要解決的是核心場景,比如金融級場景下的核心問題,並不擅長海量資料儲存且成本偏高。此外,Cassandra和Elasticsearch也能變相解決部分Hadoop問題,在工具的支撐下,使用者非常容易上手,但隨著規模的不斷擴大,最終還是要回到整個Hadoop生態。

  綜上,封神認為Gartner所做出的的結論更偏向於Hadoop本身而非Hadoop生態,但在大多數使用者的認知中,我們在談論Hadoop時已經預設是Hadoop生態,因此我們沒必要對Gartner的結論太過苛責,畢竟目前國內的一線網際網路企業都在使用Hadoop生態,短期內我們並沒有看到改朝換代的跡象,反倒是其核心元件越來越成熟。如果不用Hadoop,你還可以做出什麼選擇呢?

阿里雲封神:Gartner看衰的並不是Hadoop生態

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2155682/,如需轉載,請註明出處,否則將追究法律責任。

相關文章