Hadoop或衰落,但核心元件生命力旺盛!
關於Hadoop生死的討論已經進入後半場,KPI當前,企業繼續專注自己的業務發展,廠商繼續包裝自己的產品,重心都不再是Hadoop的命運走向。在這之中,我們可能忽略了一些問題,比如Hadoop核心元件與邊緣元件的邊界正在變得越來越清晰;Spark、Flink正在逐漸成長,生態漸漸龐大;可供選擇的元件越來越多,企業對於如何選擇毫無頭緒。
本期走訪嘉賓:劉譯璟,百分點集團技術副總裁兼首席架構師。作為Hadoop生態的直接使用者,百分點對Hadoop的命運如何看待?層出不窮的Hadoop生態元件,百分點是如何選擇的呢?
所謂專注:Hadoop的優勢恰恰是它最大的劣勢!
2011年,Hadoop在百分點正式上線。起初,百分點主要是應用MapReduce、Hive和HDFS三大核心元件做資料倉儲相關的工作。隨後,元件越來越豐富,功能也越來越強大。但總體來講,Hadoop在百分點大資料架構中還是扮演著一個基礎平臺的角色。
基於多年Hadoop生態的應用經驗,劉譯璟認為,Hadoop最大的優勢就是可處理的資料量龐大且執行穩定。在節點資源不增加的情況下,Hadoop的執行速度雖然不佔優勢,但卻是十分穩定的。在海量資料處理方面,Hadoop依舊是目前為止可以找到的最合適的解決方案。
既是優勢也是劣勢,Hadoop在批處理方面的強大無法掩蓋其在實時處理以及流處理方面的缺憾。作為後來者的Spark和Flink正是彌補了Hadoop的這些劣勢,才在大資料市場分得了一方天下。
與其討論龐大的Hadoop生態的命運,不如先看看各元件都過得如何!
Gartner在《2017年資料管理技術成熟度曲線》中指出,儘管企業對大資料解決方案的需求在不斷增長,但對Hadoop的需求並沒有像預期那樣加速,企業對Hadoop的熱情很低。劉譯璟認為,企業對Hadoop的關注度降低是正常的,概念炒作階段結束,企業將關注點移回業務和解決方案本身,部分廠商又開始將焦點對準下一輪新興技術,準備著新一波的技術炒作。
單就Gartner報告,我們很難對Hadoop判死刑。畢竟,事實上,它已經存在於國內很多企業的大資料架構中,每天都會有成千上萬的任務執行在Hadoop之上,這其中不免核心任務。既然我們對龐大的Hadoop生態的命運搖擺不定,不如先來看看Hadoop各大元件的生存現狀,一旦這些元件逐漸被外來者替換,整個生態自然無法稱之為“Hadoop生態”。
雖然,Hadoop生態歷史悠久且成熟,企業沒有必要將執行良好的整個底層架構替換掉。但是,Hadoop生態中各個元件的可替換性還是很高的,Hadoop生態的概念被慢慢淡化是有可能的。比如,不少企業會在機器學習任務中使用Spark或者Tensorflow,甚至嘗試類似Flink這樣的新技術。
至於各大元件的生命力,劉譯璟認為企業需要判斷元件之間的差異性,選擇生命力相對較長的元件。他表示,HBase、HDFS以及ZooKeeper這類元件的生命力還是挺長的,短期內不會消失。畢竟,類似HDFS這樣的基礎元件消失是很困難的,無論是Spark還是Flink,底層的檔案系統都是HDFS,很少有第三方廠商基於開源再造一個檔案系統,HDFS在某種程度上奠定了大資料的基礎。
其次,應用極其廣泛的Hive也是Hadoop生態表現比較好的元件之一,類SQL的做法易於學習,企業可進一步增加自定義的函式和方法。
最後,ZooKeeper和HBase也是可以放心的兩個選擇。目前,不少系統整合了ZooKeeper,因為它是分散式應用程式協調服務很關鍵的工具。在海量資料儲存方面,劉譯璟認為,目前看起來比較靠譜的方案依舊是HBase。無論是時間序列資料庫還是圖資料庫底層往往都是HBase,這也說明其效能的優異。
但是,MapReduce、Hive這類元件確實可能被Spark等替換掉,隨著硬體越來越成熟,Spark的優化工作越來越好,企業很可能傾向於在記憶體中計算。此外,Hadoop在機器學習方面確實不太擅長,Mahout等元件表現不佳,成為不少企業選擇Spark的原因之一。最後,資源管理器Yarn與Hadoop的繫結過於緊,而實際上,我們有很多資源排程管理方法可供選擇,比如Kubernetes等,對各種應用的支援某種程度上比Yarn更完善,無論是外部型別應用,大資料應用還是機器學習應用均可處理。
不少使用者都在討論:這麼多元件,企業如何搭配才是正確的。其實,元件的選取肯定與具體完成的業務相關,除上述討論,劉譯璟也分享了百分點的大資料作業系統圖,希望對從業者有所幫助。
大資料天下咋分?被熱捧的Spark和Flink或許會先大戰一場!
對於現在比較熱門的兩大Hadoop替補隊員——Spark和Flink,劉譯璟認為,整體來看,Spark確實還有很大的發展空間。作為後來者,Spark在功能與效果上確實比Hadoop更好。隨著Flink的逐漸完善,Spark與Flink之間的競爭關係會更為直接明顯,因為二者的理念和方法十分相像,都彌補了Hadoop在實時處理和流式處理方面的缺憾。
但是,一項技術要想真正發展起來不單單取決於技術本身的價值。想要與Hadoop平起平坐,Flink和Spark還需要來自廠商、開發者甚至是資本方面的支援,暫時無法預測未來的大資料市場會是什麼樣的現象。
總之,Hadoop生態可能走向衰落,但核心元件的生命力依然旺盛!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2154117/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Hadoop 入門筆記—核心元件 YARNHadoop筆記元件Yarn
- Hadoop 入門筆記—核心元件 MapRuduceHadoop筆記元件
- Hadoop 入門筆記—核心元件 HDFSHadoop筆記元件
- Hadoop元件Hadoop元件
- Hadoop(一)Hadoop核心架構與安裝Hadoop架構
- 【Hadoop】HBase元件配置Hadoop元件
- 【Hadoop】9、Sqoop元件Hadoop元件
- hadoop三大元件Hadoop元件
- Ceph核心元件元件
- Kafka核心元件詳解Kafka元件
- 淺析Spring Security 核心元件Spring元件
- 【詳解】核心元件之UserDetailService元件AI
- k8s-核心元件K8S元件
- 再談RTS(上):RTS的衰落
- Spring Cloud底層原理(核心元件)SpringCloud元件
- openStack核心元件的工作流程元件
- xenomai核心解析---核心物件登錄檔—xnregistry(重要元件)AI物件元件
- 大資料入門:Hadoop Yarn元件基礎解析大資料HadoopYarn元件
- PC帝國是如何走向衰落的?
- Knative 核心概念介紹:Build、Serving 和 Eventing 三大核心元件UI元件
- 理解Spring Cloud微服務框架核心元件SpringCloud微服務框架元件
- RabbitMQ核心元件及應用場景MQ元件
- 10個你或許不瞭解但實用的PHP函式PHP函式
- 淺談SAP諮詢行業的衰落行業
- Linux--程序繫結NUMA節點或cpu核心Linux
- 一文理解:Java NIO 核心元件Java元件
- 深入理解Vue元件3大核心概念Vue元件
- Flink 核心元件 內部原理 多圖剖析元件
- Dataxis:線性電視仍有生命力
- 無線通道-路徑損失以及通道衰落
- 漫話docker的衰落與kubernetes的興起Docker
- 區塊鏈或成為核心技術突破口區塊鏈
- 認識Tomcat核心元件及其啟動引數Tomcat元件
- Vue核心思想:資料驅動、元件化Vue元件化
- 一文搞懂AQS及其元件的核心原理AQS元件
- Scrapy原始碼閱讀分析_3_核心元件原始碼元件
- 萬字剖析Ribbon核心元件以及執行原理元件
- 勇者鬥惡龍: “Your Story”失敗,但“Your RPG”或將續寫傳奇