走訪Hadoop發行商:Gartner看衰論斷如何理解

趙鈺瑩發表於2018-05-07

  2013年,Gartner研究總監Svetlana Sicular在其部落格發表了一篇題為“大資料光環的幻滅”的文章,暗指Hadoop即將過時,大資料泡沫即將隨著使用者失敗案例的增多而破裂。

  隨後,Ovum(一家在世界電信產業界富有權威性的中立諮詢顧問公司)釋出報告,證明在分析了220萬條與大資料相關的推文後發現,對大資料廠商正面評價的推文是負面的三倍,大資料廠商口碑極佳,使用者依舊對大資料充滿熱情並表示認可。


走訪Hadoop發行商:Gartner看衰論斷如何理解
▲Svetlana Sicular當時給出的變化曲線


  2015年,Gartner研究總監Svetlana Sicular再次釋出題為“大資料七大失敗案例”的報告,對包括谷歌在內的眾多公司在大資料專案上的失敗案例進行了總結。

  2017年,Gartner釋出的《2017年資料管理技術成熟度曲線》再次將Hadoop掀上輿論巔峰,報告極其明顯的標識出Hadoop即將進入淘汰席。Gartner預測,到2018年,70%的Hadoop部署無法實現節約成本和收入增長的目標。對於這一系列“Hadoop將死”的斷言,國內的Hadoop服務廠商如何看待呢?

走訪Hadoop發行商:Gartner看衰論斷如何理解

  本期走訪廠商——星環科技(以下簡稱:星環),星環Transwarp Data Hub是Gartner認可的Hadoop國際主流發行版。對於Hadoop的命運,星環是如何理解的呢?

  Hadoop確實有問題,但不能成為“看衰”論斷的主要原因!

  星環的創業團隊很早之前就在做Hadoop發行版的工作,選定Hadoop是因為看到了它的優點,比如可擴充套件性,容錯性,支援從GB到PB級別多種業務的需求,支援PB級別海量資料批處理的需求。

  在使用中,星環也承認Hadoop有一些缺點,比如使用門檻略高,技術迭代快導致學習成本和運維成本升高。不過,這些缺點並不是致命的。星環選定的技術路線是基於Hadoop以及Spark技術的解決方案,這可以有效解決開源Hadoop的相關問題,提供更高效能、高可靠、易於使用(業內SQL相容支援第一,圖形化互動介面)的大資料平臺。

  透過之前的調研,筆者發現多數大資料服務廠商都會選擇自己的方式對開源Hadoop進行改良以規避其自身的一些問題,因此這些問題並不是“Hadoop衰落”的主要原因。既然可以規避,那麼客戶部署失敗的原因會是什麼呢?

  星環TDH是目前國內落地案例最多的一站式Hadoop發行版,客戶幾乎覆蓋全行業,比如金融、能源、交通、運營商、零售、物流等等。幹得多了自然見識得也多,星環認為這些客戶大致可以分為兩種,一種是原來不具有或者放棄已有資料庫平臺的;另一種則是延用已有資料庫平臺的;前者全盤接收星環提供的大資料和人工智慧平臺一站式服務,這樣的部署失敗率自然極低。後者涉及的問題就十分複雜了,情況不同,原有平臺的使用程度和選購廠商也各有不同,需要一段時間磨合才能成功投入使用。

  Gartner論斷主要針對國外使用者,國外廠商未發揮Hadoop全部優勢!

  Gartner連續多年堅持“Hadoop將死”的觀點,肯定不是空口無憑。星環認為原因可以歸結為兩個方面:

  1、Hadoop方面的問題。Hadoop的使用有一定門檻,雖然過去幾年人才供應數量在不斷增加,但是企業對人才的需求增加速度更快,所以企業構建Hadoop團隊的人才成本較高,初次構建成本偏高。

  2、國內外大資料環境的差異。Gartner的調查客戶主要集中在國外,而國外Hadoop廠商給客戶提供的功能,無法完全取代傳統資料庫的地位,未能將Hadoop的優勢全部體現,導致國外使用者對Hadoop的應用比較簡單,未能充分體現新技術帶來的優勢,故容易得出Hadoop投入產出比較低、能力侷限較大的結論。

  對於Gartner的這一結論,國內的輿論多數認為Hadoop地位穩固,無需擔心。確實,Hadoop生態系統在國內大資料平臺處於主流地位,已經成為大資料領域的事實標準,目前已有大量企業基於Hadoop構建資料生態圈。

  國內使用者對Hadoop的認可度偏高,是因為國內使用Hadoop技術時,無論是資料量還是應用場景,複雜度都遠超國外使用者,譬如資料量比國外使用者至少高一個數量級,帶來的技術難度也是成倍增加。另外在應用場景方面,國內使用者不僅將Hadoop用於批處理等簡單場景,更多的是用於構建資料倉儲、實時流處理,全文搜尋,機器學習,拓撲圖分析等。

  新技術替換舊技術的過程給國內使用者帶來的價值顯著,例如整體成本降低,效能提升,擴充套件方便,基於新技術進行的業務場景創新等,這些都讓國內使用者切實感受到Hadoop生態的強大。

  叫好的Spark、Flink未來會和Hadoop以哪種方式相處?

  Gartner不看好Hadoop倒也不是完全否定大資料解決方案,反而認為企業對大資料解決方案的需求將會不斷增長,只是隨之增長的會是Spark等新興解決方案,而Spark生態將逐漸成熟以脫離Hadoop完全獨立執行。

  星環認為這是因為國外公有云的滲透率非常高,因此不少Spark服務都基於S3作為儲存,而國內目前這方面還比較少,所以Spark大部分情況下是與Hadoop配合出現,Spark作為通用計算引擎,而Hadoop提供儲存和資源管理框架等服務。除此之外,Hadoop中也有不少表現不佳的元件,星環就選擇用Kubernetes替換YARN作為資源管理引擎,用Spark替換被認為是Hadoop生態增長瓶頸的MapReduce,這種元件替換現象在國內非常普遍。

  對於目前國內正處於火熱狀態的Flink,星環認為Flink只是一種實時計算引擎,概念上無法與Hadoop完全匹配,譬如沒有儲存服務、NoSQL或者資源管理服務,現階段的Flink生態並不成熟,不對Hadoop構成替代關係。

  未來,Hadoop負責底層儲存、管理等服務,Flink和Spark都可以成為它的領域計算引擎,如Flink負責實時類業務的計算引擎,而Spark作為批處理或者機器學習領域的計算引擎,三者配合將會有非常不錯的效果。此外,雲和AI技術與大資料相輔相成,因此,Hadoop未來的技術發展可與雲、AI技術互相結合,更大地方便使用者開發資料服務。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2154116/,如需轉載,請註明出處,否則將追究法律責任。

相關文章