Hadoop或衰落,但核心元件生命力旺盛!

趙鈺瑩發表於2018-05-07

  關於Hadoop生死的討論已經進入後半場,KPI當前,企業繼續專注自己的業務發展,廠商繼續包裝自己的產品,重心都不再是Hadoop的命運走向。在這之中,我們可能忽略了一些問題,比如Hadoop核心元件與邊緣元件的邊界正在變得越來越清晰;Spark、Flink正在逐漸成長,生態漸漸龐大;可供選擇的元件越來越多,企業對於如何選擇毫無頭緒。

  本期走訪嘉賓:劉譯璟,百分點集團技術副總裁兼首席架構師。作為Hadoop生態的直接使用者,百分點對Hadoop的命運如何看待?層出不窮的Hadoop生態元件,百分點是如何選擇的呢?

  所謂專注:Hadoop的優勢恰恰是它最大的劣勢!

  2011年,Hadoop在百分點正式上線。起初,百分點主要是應用MapReduce、Hive和HDFS三大核心元件做資料倉儲相關的工作。隨後,元件越來越豐富,功能也越來越強大。但總體來講,Hadoop在百分點大資料架構中還是扮演著一個基礎平臺的角色。

  基於多年Hadoop生態的應用經驗,劉譯璟認為,Hadoop最大的優勢就是可處理的資料量龐大且執行穩定。在節點資源不增加的情況下,Hadoop的執行速度雖然不佔優勢,但卻是十分穩定的。在海量資料處理方面,Hadoop依舊是目前為止可以找到的最合適的解決方案。

  既是優勢也是劣勢,Hadoop在批處理方面的強大無法掩蓋其在實時處理以及流處理方面的缺憾。作為後來者的Spark和Flink正是彌補了Hadoop的這些劣勢,才在大資料市場分得了一方天下。

  與其討論龐大的Hadoop生態的命運,不如先看看各元件都過得如何!

  Gartner在《2017年資料管理技術成熟度曲線》中指出,儘管企業對大資料解決方案的需求在不斷增長,但對Hadoop的需求並沒有像預期那樣加速,企業對Hadoop的熱情很低。劉譯璟認為,企業對Hadoop的關注度降低是正常的,概念炒作階段結束,企業將關注點移回業務和解決方案本身,部分廠商又開始將焦點對準下一輪新興技術,準備著新一波的技術炒作。

Hadoop或衰落,但核心元件生命力旺盛!
▲Gartner認為,Hadoop到達生產成熟期前即被淘汰

  單就Gartner報告,我們很難對Hadoop判死刑。畢竟,事實上,它已經存在於國內很多企業的大資料架構中,每天都會有成千上萬的任務執行在Hadoop之上,這其中不免核心任務。既然我們對龐大的Hadoop生態的命運搖擺不定,不如先來看看Hadoop各大元件的生存現狀,一旦這些元件逐漸被外來者替換,整個生態自然無法稱之為“Hadoop生態”。

  雖然,Hadoop生態歷史悠久且成熟,企業沒有必要將執行良好的整個底層架構替換掉。但是,Hadoop生態中各個元件的可替換性還是很高的,Hadoop生態的概念被慢慢淡化是有可能的。比如,不少企業會在機器學習任務中使用Spark或者Tensorflow,甚至嘗試類似Flink這樣的新技術。

  至於各大元件的生命力,劉譯璟認為企業需要判斷元件之間的差異性,選擇生命力相對較長的元件。他表示,HBase、HDFS以及ZooKeeper這類元件的生命力還是挺長的,短期內不會消失。畢竟,類似HDFS這樣的基礎元件消失是很困難的,無論是Spark還是Flink,底層的檔案系統都是HDFS,很少有第三方廠商基於開源再造一個檔案系統,HDFS在某種程度上奠定了大資料的基礎。

  其次,應用極其廣泛的Hive也是Hadoop生態表現比較好的元件之一,類SQL的做法易於學習,企業可進一步增加自定義的函式和方法。

  最後,ZooKeeper和HBase也是可以放心的兩個選擇。目前,不少系統整合了ZooKeeper,因為它是分散式應用程式協調服務很關鍵的工具。在海量資料儲存方面,劉譯璟認為,目前看起來比較靠譜的方案依舊是HBase。無論是時間序列資料庫還是圖資料庫底層往往都是HBase,這也說明其效能的優異。

Hadoop或衰落,但核心元件生命力旺盛!

  但是,MapReduce、Hive這類元件確實可能被Spark等替換掉,隨著硬體越來越成熟,Spark的最佳化工作越來越好,企業很可能傾向於在記憶體中計算。此外,Hadoop在機器學習方面確實不太擅長,Mahout等元件表現不佳,成為不少企業選擇Spark的原因之一。最後,資源管理器Yarn與Hadoop的繫結過於緊,而實際上,我們有很多資源排程管理方法可供選擇,比如Kubernetes等,對各種應用的支援某種程度上比Yarn更完善,無論是外部型別應用,大資料應用還是機器學習應用均可處理。

Hadoop或衰落,但核心元件生命力旺盛!

  不少使用者都在討論:這麼多元件,企業如何搭配才是正確的。其實,元件的選取肯定與具體完成的業務相關,除上述討論,劉譯璟也分享了百分點的大資料作業系統圖,希望對從業者有所幫助。

Hadoop或衰落,但核心元件生命力旺盛!

  大資料天下咋分?被熱捧的Spark和Flink或許會先大戰一場!

  對於現在比較熱門的兩大Hadoop替補隊員——Spark和Flink,劉譯璟認為,整體來看,Spark確實還有很大的發展空間。作為後來者,Spark在功能與效果上確實比Hadoop更好。隨著Flink的逐漸完善,Spark與Flink之間的競爭關係會更為直接明顯,因為二者的理念和方法十分相像,都彌補了Hadoop在實時處理和流式處理方面的缺憾。

  但是,一項技術要想真正發展起來不單單取決於技術本身的價值。想要與Hadoop平起平坐,Flink和Spark還需要來自廠商、開發者甚至是資本方面的支援,暫時無法預測未來的大資料市場會是什麼樣的現象。

  總之,Hadoop生態可能走向衰落,但核心元件的生命力依然旺盛!

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2154117/,如需轉載,請註明出處,否則將追究法律責任。

相關文章