十大國內外知名大資料專家探討:Hadoop是生是死?

趙鈺瑩發表於2018-08-15

2017年,Gartner釋出的《2017年資料管理技術成熟度曲線》將Hadoop掀上輿論巔峰,報告極其明顯的標識出Hadoop即將在到達生產成熟期之前進入淘汰席。Gartner預測,到2018年,70%的Hadoop部署無法實現節約成本和收入增長的目標。在今年年初,Hadoop被列為2018年大資料領域的“漸凍”趨勢之一,不少人將Hadoop稱作“倒下的大象”,比如Lucidworks執行長Will Hayes。

Gartner認為,Hadoop到達生產成熟期前即被淘汰

當然,國內很多人將這種現象歸結於國內外大資料領域發展狀況不平衡造成的,因此筆者耗費了半年時間,走訪了國內數家大資料廠商及技術專家,以下是10位技術專家的觀點彙總,這些技術專家涵蓋了國外的大資料廠商、銀行、國內網際網路公司以及國內大資料廠商,“Hadoop是生是死”一目瞭然。

1、任何IT技術發展到一定階段都會被挑戰,Hadoop也不例外!

採訪物件:王蘋,榮之聯解決方案架構師。曾就職於IBM大資料團隊,具有多年大資料平臺研發經驗。目前專注於大資料企業級應用的方案設計及技術選型,同時帶領團隊研發榮之聯大資料產品。

王蘋認為,企業之所以願意使用Hadoop,是因為其足以解決現階段企業使用者在大資料方面存在的問題,並且其開源社群成熟完善。企業使用者沒有網際網路公司樂於冒險,他們更願意選擇成熟穩定的解決方案,因此Hadoop的需求量還是很大。至於是否會失寵,在快節奏的IT圈,任何一種技術發展到一定階段都會被挑戰,Hadoop也不例外。當然,Hadoop自身確實存在一定的問題,也有很多新技術足以彌補其缺陷。但是,新技術如果不與已經在企業中站穩腳跟的Hadoop打配合,又何談市場呢?

2、Hadoop或衰落,但核心元件生命力旺盛!

採訪物件:劉譯璟,百分點集團技術副總裁兼首席架構師。

劉譯璟認為,單就Gartner報告,我們很難對Hadoop判死刑。畢竟,事實上,它已經存在於國內很多企業的大資料架構中,每天都會有成千上萬的任務執行在Hadoop之上,這其中不免核心任務。但是,Hadoop生態中的各元件生命力有很大差異,一旦其中的大部分元件都被替換掉,整個生態也很難稱之為“Hadoop生態”。

談到元件,他認為HBase、HDFS以及ZooKeeper這類元件的生命力還是挺長的,短期內不會消失。畢竟,類似HDFS這樣的基礎元件消失是很困難的,無論是Spark還是Flink,底層的檔案系統都是HDFS,很少有第三方廠商基於開源再造一個檔案系統,HDFS在某種程度上奠定了大資料的基礎。但是,MapReduce、Hive這類元件確實可能被Spark等替換掉,隨著硬體越來越成熟,Spark的最佳化工作越來越好,企業很可能傾向於在記憶體中計算。

此外,Hadoop在機器學習方面確實不太擅長,Mahout等元件表現不佳,成為不少企業選擇Spark的原因之一。最後,資源管理器Yarn與Hadoop的繫結過於緊,而實際上,我們有很多資源排程管理方法可供選擇,比如Kubernetes等,對各種應用的支援某種程度上比Yarn更完善,無論是外部型別應用,大資料應用還是機器學習應用均可處理。

3、Hadoop確實有問題,但不能成為“看衰”論斷的主要原因!

採訪物件:星環科技,星環Transwarp Data Hub是Gartner認可的Hadoop國際主流發行版。

有不少人認為Gartner報告中提到的Hadoop是指“Hadoop發行版”,如果是這樣,那麼星環科技相當有話語權,因為其創業團隊很早之前就在做Hadoop發行版的工作。在實際的使用中,星環也承認Hadoop有一些缺點,比如使用門檻略高,技術迭代快導致學習成本和運維成本升高。不過,這些缺點並不是致命的。至於Gartner的這一言論,星環科技認為這與Hadoop自身存在的問題以及國內外大資料環境的差異有關,一方面,Hadoop的使用有一定門檻,雖然過去幾年人才供應數量在不斷增加,但是企業對人才的需求增加速度更快,所以企業構建Hadoop團隊的人才成本較高,初次構建成本偏高。另一方面,Gartner的調查客戶主要集中在國外,而國外Hadoop廠商給客戶提供的功能無法完全取代傳統資料庫的地位,未能將Hadoop的優勢全部體現,導致國外使用者對Hadoop的應用比較簡單,未能充分體現新技術帶來的優勢,故容易得出Hadoop投入產出比較低、能力侷限較大的結論。國內使用者對Hadoop的認可度偏高,是因為國內使用Hadoop技術的資料量和應用場景的複雜度都遠超國外使用者,新技術替換舊技術的過程給國內使用者帶來的價值顯著,例如整體成本降低,效能提升,擴充套件方便,基於新技術進行的業務場景創新等,這些都讓國內使用者切實感受到Hadoop生態的強大。

4、Hadoop地位穩固,其他競爭者尚不具備叫板能力!

採訪物件:天雲大資料,天雲大資料是國內為數不多的大資料PaaS層元件研發廠商,其BDP(Beagledata Platform)平臺是一款基於Hadoop生態體系的企業級大資料中介軟體平臺。

天雲大資料認為,Hadoop未來發展還是泛生態的發展,它會是整個通用計算框架演進迭代的一個過程。企業與其花心思研究其元件級別的優劣,不如將更多精力放在Hadoop生態演進以及自我大資料架構的最佳化上。至於可能的競爭對手——Spark和Flink,天雲認為二者尚且不具備與Hadoop叫板的實力,未來更傾向於合作共贏的方式。

5、Gartner看衰結論正確解讀:此“Hadoop”非彼“Hadoop”!

採訪物件:封神,09年加入阿里,9年來專注在分散式計算、儲存、資料庫領域。曾研發集團超過1w臺Hadoop叢集,萬臺規模的跨機房建設,並負責其中分散式排程及記憶體計算引擎Spark。

封神認為,Gartner所提及的Hadoop更多是狹義上的Hadoop一體化平臺,但我們通常意義上討論的是廣義Hadoop生態,整個生態包含了眾多元件,這個範圍與前者相差很大。對於Hadoop生態的發展狀態,我們可以分層逐級解析。首先是HDFS分散式檔案系統層,目前尚沒有任何一款開源產品足以完整替代HDFS,因此其生命力必定是旺盛的;其次是Yarn所在的分散式排程層。作為大資料核心排程元件,Yarn的使用覆蓋率非常高。雖然在離線與線上資料混合方面表現欠缺,但Yarn一直在不斷改進。此外,從某種意義上講,Yarn與Hadoop生態體系中的一些元件包都可共享,貿然更換勢必面臨著適配問題。在分散式檔案系統和分散式排程系統的基礎之上,各類元件的加入讓Hadoop生態更加豐富。在絕大多數使用者的認知中,Hive、MapReduce、熱議的Spark以及Flink的定位都只是Hadoop生態中的一個計算引擎,並不存在替代Hadoop生態的關係,Hadoop生態的整體生命力非常強。

6、Hadoop失寵前提是出現更強大的替代品!

採訪物件:蘇寧易購,其大資料平臺基於Hadoop構建。

對於Gartner的唱衰論調,蘇寧易購認為,Hadoop就好比日常生活中的水電煤,因為太普遍反而引不起特別關注,或者,Gartner報告中所說的Hadoop是指狹義上的Hadoop,也就是原始的HDFS和MapReduce組合。如果單看這兩大元件的發展,MapReduce確實在逐漸退出舞臺,被Spark/Flink所取代。蘇寧易購認為,Hadoop失寵前提一定是出現更強大的可替代大資料解決方案,現在來看,並沒有這樣的方案出現。

7、Hadoop已經展現出極強的年代感,並且其在機器學習方面是有欠缺的!

採訪物件:Ness SES的CTO Moshe Kranc

Ness SES的CTO Moshe Kranc認為,Hadoop已經展示出了其年代感,不管是Hadoop的HDFS、MapReduce還是它的機器學習元件Mahout。在這一方面,Spark似乎表現更加優異,Spark不斷從Hadoop的經歷中學習,具有更通用和可擴充套件的程式設計模型,易於分析且擁有強大的圖形資料庫(Graphx)和全功能資料科學庫(MLib)。當然,如果企業自己具備生態整合的能力,那麼這個問題可能就不存在了。

8、很多企業都低估了部署Hadoop的複雜度!

採訪物件:Silicon Valley Data Science的CTO John Akred

Silicon Valley Data Science的CTO John Akred表示,在國外,無論是醫療保健、製造業還是金融領域,公司在部署Hadoop這樣的分散式系統時一般會選擇從初始用例也就是簡單用例開始,以便了解整個Hadoop的工作流程。公司可能會開始嘗試將部分資料收集並執行到Hadoop之上,透過簡單的測試證明,確實可以使用Hadoop來儲存大量非結構化資料,到這裡所有步驟似乎都沒有問題,但這真的對業務產生價值了嗎?如果企業並沒有透過部署Hadoop而對業務產生價值,那麼這一決策的意義是什麼呢?

其次,很多企業會低估Hadoop的操作複雜性,無法清晰認知習慣了使用IBM Db2和Oracle等傳統資料技術的人在使用Hadoop方面會面臨多少轉型問題。

9、企業使用者對資料湖需求旺盛,但對Hadoop接受意願較低!

採訪物件:Teradata天睿公司策略性產品管理高階副總裁Tim Henry

Tim Henry認為,Hadoop更直接的使用者是企業使用者而不是大資料廠商,雖然資料湖或Hub的概念最初由大資料廠商提出,但真正的大規模應用還是在企業內部。這些企業很可能並不會選擇Hadoop,因為Hadoop的管理相當困難,尤其是技術層面。要想使用Hadoop進行資料治理,企業員工必須對Hadoop的整體運作流程以及各大元件非常熟悉,否則無法從眾多元件中挑選出符合業務需求的組合,導致無法發揮Hadoop的真正價值。企業並不是對資料湖沒有需求,而是對Hadoop的接受意願較低,這也同樣契合了Gartner的結論。

10、我們非常看好Hadoop的未來發展,不知道Gartner的這一結論從何說起!

採訪物件:Cloudera創始人Mike Olson

Cloudera創始人Mike Olson在國外接受採訪時,對Gartne報告中關於Hadoop的觀點進行了駁斥,並談到了他的看法。Mike Olson表示並不認同Gartner對Hadoop的結論,有很多客戶在其平臺上執行關鍵業務,他不清楚Gartner到底跟誰討論得出的這一結論。他表示,Cloudera不僅是看好,更為重要的是已經在一些方面已經取得了很大成功。例如:透過使用Impala等工具進行高效能分析查詢,企業可以在擴充套件平臺上為其傳統關係工作負載的某些部分提供替代方案。

他坦言,不得不懷疑Gartner是否看到的是10年前的Hadoop,而非現在。早期的Hadoop只有MapReduce和HDFS,確實非常有限,但它並不是Hadoop的全部,現在有26個不同的開源專案,包括Spark,其中有18種是Cloudera建立的,這是一個比過去更廣闊、更有能力的生態系統。

結論

從上述多位技術專家的言論中不難看出,Hadoop在國內之所以流行是因為國內很多大資料廠商為企業省去了部署Hadoop解決方案的麻煩,而國內的網際網路企業具備自己搭建並改進的技術實力,如果這些問題都得到了解決,那我們自然願意享有Hadoop帶來的優勢。但是,國外的技術專家卻是非常一致的不看好,除了Mike Olson,這與國外的大資料環境也有關,國外很多企業所擁有的資料量可能尚未達到使用Hadoop的級別,國外大資料廠商所提供的服務可能沒有國內廠商深入,這或許就是Gartner這一報告的癥結所在。

當然,對於Gartner報告中所提及的Hadoop到底是Hadoop發行版,Hadoop一體化商業模式還是Hadoop生態似乎各種說法都有,但其報告中(如頭圖)使用的“Hadoop Distributions”似乎更傾向於Hadoop發行版。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2200142/,如需轉載,請註明出處,否則將追究法律責任。

相關文章