阿里雲封神:Gartner看衰的並不是Hadoop生態
在過去幾個月的走訪調研中,針對Gartner《2017年資料管理技術成熟度曲線》做出的Hadoop“即將在到達生產成熟期之前衰落”的結論,筆者詢問了數十位大資料領域技術專家的觀點,Hadoop在國內大資料市場的地位正如筆者所預料的一樣穩固。既然如此,那麼是Gartner的結論有誤嗎?我們應該如何正確解讀這份報告?拋開報告,Hadoop生態各元件到底表現如何呢?
本期採訪嘉賓:封神,09年加入阿里,9年來專注在分散式計算、儲存、資料庫領域。曾研發集團超過1w臺Hadoop叢集,萬臺規模的跨機房建設,並負責其中分散式排程及記憶體計算引擎Spark。曾研發集團超過5w臺的ODPS叢集,自主研發分散式引擎,處理超過PB級別資料的迭代計算,並把開源體系融合到內部ODPS體系之中。16年起,開始做雲產品,構建大資料資料庫服務,研究分散式檢索與原始資料的融合技術、研究行列混合、儲存計算分離、新硬體加速、統一SQL、彈性排程計算、時序、時空、圖資料等非結構化等技術,並負責計算與儲存產品化,目前為千百客戶提供專業儲存計算雲HBase服務。
Gartner看衰結論正確解讀:此“Hadoop”非彼“Hadoop”!
Gartner所做出的的看衰結論不假,但其主體範圍需要界定清楚。根據封神的介紹,Gartner所提及的Hadoop更多是狹義上的Hadoop一體化平臺,但我們通常意義上討論的是廣義Hadoop生態,整個生態包含了眾多元件,這個範圍與前者相差很大。
對於Hadoop生態的發展狀態,我們可以分層逐級解析。首先是HDFS分散式檔案系統層,封神表示,目前尚沒有任何一款開源產品足以完整替代HDFS,因此其生命力必定是旺盛的。目前看起來,有可能挑戰的是業務模式的變化,使用者上雲後,直接用物件儲存,做到儲存與計算分離,節約成本。
其次是Yarn所在的分散式排程層。作為大資料核心排程元件,Yarn的使用覆蓋率非常高。雖然在離線與線上資料混合方面表現欠缺,但Yarn一直在不斷改進。這一點也與Yarn的發展背景有關,支援Yarn的幾家公司主要做離線系統,對線上系統部署問題關注不夠。當然,目前市場已經有了存在一定競爭關係的產品,比如Mesos,但這兩大排程系統的設計目標並不完全相同,並且Yarn也在朝著Mesos的領域進軍。此外,從某種意義上講,Yarn與Hadoop生態體系中的一些元件包都可共享,貿然更換勢必面臨著適配問題。
在分散式檔案系統和分散式排程系統的基礎之上,各類元件的加入讓Hadoop生態更加豐富。在絕大多數使用者的認知中,Hive、MapReduce、熱議的Spark以及Flink的定位都只是Hadoop生態中的一個計算引擎,並不存在替代Hadoop生態的關係,Hadoop生態的整體生命力非常強,這一點也在連續幾個月的調研中得到了證實,Hadoop在大資料領域的標準地位遠比我們想象得要穩固。
Hadoop生態圈元件生命力解析:替不替代取決於需求!
Hadoop生態圈元件繁多,元件替換是大多數企業對Hadoop生態圈進行改良的重要一步,但很多企業和技術人員對如何替換和挑選元件完全沒有頭緒。根據封神的介紹,雖然短期內Spark和Flink沒有能力替代整個Hadoop生態,但是它們有能力替代個別計算引擎。Spark的生態日益完善,其在機器學習、SQL以及Streaming方面的先天優勢明顯;Flink主攻流式處理,延遲較低,這兩大引擎目前的整體表現還是不錯的。雖然部分企業會嘗試使用Spark替換MapReduce,但在封神看來,這樣的元件替換需要從實際業務需求出發,如果看中穩定性,MapReduce略勝一籌;如果看中生態所提供的能力,自然是Spark更加完善。
此外,Hive也非常有競爭力,阿里內部PB級資料量的處理非Hive不可,因為其穩定性非常高,當資料量達到PB級別,一個任務要執行兩到三天時,沒有一個元件可以挑戰Hive的穩定性。作為開源分散式資料庫,HBase也是大多數企業的首選,本月釋出的HBase 2.0版本被稱為迄今為止最大的版本,共包含4551個Issues,對可用性和延遲均做出了最佳化。對於現在很多資料庫都在做的一寫多讀,HBase在1.X版本早期就具備該能力。其次,HBase非常適合雲端計算環境。不管是AWS還是阿里主推的關係型資料庫,其本質都是儲存計算分離,HBase誕生的第一天就是儲存計算分離的,現如今經過了多年在各大公司的磨鍊,HBase的儲存計算分離已經相當成熟。
Hadoop漸步成熟期,其可能替代品的生存現狀如何?
封神表示,就個人參加Hadoop大會的感受而言,Hadoop不是衰退了而是成熟了,現在的Hadoop大會更多的是在談人工智慧、區塊鏈和知識圖譜等新興技術,大家更關注的不再是Hadoop生態的底層實現,而是其上的應用,這就造成了使用者對Hadoop關注度降低的假象。
當然,任何一項技術發展了十餘年,總會出現一些挑戰者。封神談及,NewSQL確實是分散式,也能解決部分儲存相關的事情,具備儲存和併發能力,但它主要解決的是核心場景,比如金融級場景下的核心問題,並不擅長海量資料儲存且成本偏高。此外,Cassandra和Elasticsearch也能變相解決部分Hadoop問題,在工具的支撐下,使用者非常容易上手,但隨著規模的不斷擴大,最終還是要回到整個Hadoop生態。
綜上,封神認為Gartner所做出的的結論更偏向於Hadoop本身而非Hadoop生態,但在大多數使用者的認知中,我們在談論Hadoop時已經預設是Hadoop生態,因此我們沒必要對Gartner的結論太過苛責,畢竟目前國內的一線網際網路企業都在使用Hadoop生態,短期內我們並沒有看到改朝換代的跡象,反倒是其核心元件越來越成熟。如果不用Hadoop,你還可以做出什麼選擇呢?
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2155682/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 走訪Hadoop發行商:Gartner看衰論斷如何理解Hadoop
- Gartner連續五年唱衰Hadoop,廠商不以為然!Hadoop
- Hadoop演進與Hadoop生態Hadoop
- hadoop 之Hadoop生態系統Hadoop
- Hadoop 生態系統Hadoop
- hadoop生態系統Hadoop
- Hadoop生態圖譜Hadoop
- 揭開臉譜看封神:前言
- Hadoop的生態系統 - KEYWORDHadoop
- Hadoop生態圈一覽Hadoop
- Hadoop 基礎之生態圈Hadoop
- 初入Hadoop生態系統Hadoop
- Hadoop工具生態系統指南Hadoop
- Hadoop生態系統介紹Hadoop
- 幽默:軟體工程其實並不是理科生的天下軟體工程
- 一、hadoop生態圈搭建(資源)Hadoop
- 從業務元件庫看前端物料生態元件前端
- Hadoop基礎(二):從Hadoop框架討論大資料生態Hadoop框架大資料
- BDA:Hadoop生態大資料工具的漏洞掃描器Hadoop大資料
- Hadoop系列002-從Hadoop框架討論大資料生態Hadoop框架大資料
- hadoop生態圈綜合簡介及架構案例Hadoop架構
- 不是Java高手別看Java
- 【ERROR】有些錯誤並不是你想象的那樣(透過現象看本質)Error
- Gartner:阿里雲服務SWOT分析阿里
- Hadoop生態系統各元件與Yarn的相容性如何?Hadoop元件Yarn
- 從建好到用好,阿里雲原生微服務生態的演進阿里微服務
- 擁抱開源,共建生態 - 開源生態與效能提升專場 | CIF 精彩看點
- 你並不是程式碼
- [O'Reilly精品圖書推薦]Hadoop生態系統Hadoop
- Hadoop將死?Cloudera CEO怒懟GartnerHadoopCloud
- 秒雲獲得阿里雲首批產品生態整合認證,攜手阿里雲共建雲原生智慧運維生態服務阿里運維
- Rails並不是用Ruby編寫的AI
- 智慧手錶fitbit被看衰 竟是因為apple watchAPP
- 大資料時代之hadoop(六):hadoop 生態圈(pig,hive,hbase,ZooKeeper,Sqoop)大資料HadoopHive
- Hadoop周邊生態軟體和簡要工作原理(二)薦Hadoop
- 從AI加速器,看騰訊ToB生態的點、線與面AI
- Hadoop雖然強大 但不是萬能的Hadoop
- 轉-Hadoop雖強大,但不是萬能的Hadoop