耗時兩個月調研,國內傳統企業對Hadoop到底什麼態度?

趙鈺瑩發表於2018-08-06

年初,筆者開始調研Hadoop在國內企業的應用現狀,在前期的網際網路企業應用現狀調研中,筆者發現目前比較知名的網際網路企業基本都在使用Hadoop,其生態元件,比如HDFS、Zookeeper、MapReduce等出現頻率極高(完整調研可在文末獲取連結)。但是,Hadoop在國外卻接連遇冷,前有Gartner報告對Hadoop發行版的看衰論斷,後有加拿大皇家銀行和美國富國銀行對Hadoop應用的不看好(詳細內容見文末連結),到底國內傳統企業對Hadoop持什麼態度?是否與國內的網際網路企業一致呢?Hadoop生態中哪些元件獲一致好評?哪些元件被群嘲?


本次調研共耗時兩個月(具體話題詳見文末連結),共吸引17865人次點選(截至發文時),眾多使用者圍繞Hadoop生存現狀主要討論了以下三大問題:

1、您對Gartner的報告結論如何看待?就國內現狀而言,Hadoop在傳統企業的受歡迎程度會和網際網路企業相同嗎?

2、您認為Hadoop生態最大的優勢和劣勢分別是什麼?Spark生態也在漸漸完善,其機器學習方面的能力更強,未來與Hadoop生態的關係會是什麼樣的?

3、您認為Hadoop生態中表現最好、生命力最旺盛的元件有哪些?為什麼?最容易被替換、表現欠佳的元件又有哪些呢?為什麼?

(注:為了防止因行業不同而對事情的理解造成偏差,每位答題者被要求給出所屬行業,以供使用者結合行業屬性參考)

一、國內傳統行業對Hadoop態度如何?是否與網際網路企業一致?

Itpub網友jieforest(製造業): Gartner的調查報告一向有比較高的可信度和權威性,但是Gartner報告未必明確指出Hadoop將在什麼時間淘汰。我雖然未讀Gartner報告,但我估計其報告應該是講述當前大資料平臺的技術發展趨勢。從趨勢上看,Hadoop在未來可能會被更好的技術所取代,未來會面臨淘汰的風險。

結合今年福布斯大資料市場預測,到2022年,Hadoop市場預計將達到99.31億美元,複合年增長率為42.1%。從福布斯的資料來看,Hadoop還將興旺好些年。Hadoop解決方案這些年在國內經過了各公司的檢驗,大家逐步認識到它是一個成熟靠譜的解決方案,確實能解決企業大資料過程面臨的問題,但Hadoop也並非包治百病,有些需求很容易搞定,而有些則很難搞定或者需要另謀別的解決方案。

傳統企業往往喜歡採用比較成熟的解決方案,因此Hadoop還將在國內有比較長的生命週期。就像Java語言,現在已經是第10版了,但很多傳統企業仍然堅持使用Java SE 6.0。

Itpub網友ceo_lxy(傳統制造行業): 在傳統制造行業,Hadoop大資料方案感覺實用不強,不是很受歡迎,原因有以下三點:一是傳統制造行業沒有這麼大的資料量,都是內部運營資料及少量供應商和客戶資料;二是Hadoop技術更新快且成本較高,製造業利潤普遍不高的前提下,Hadoop技術短期帶來不了直接回報;三是傳統制造行業更青睞成熟的技術方案,而不僅僅是開源。

Itpub網友luckyrandom: 各自面對和專注的領域不同,開發設計也有不同的立場、角度,Hadoop是個更通用的框架和平臺。就好像即使MySQL如此流行,但Oracle和SQL Server還是有自己的市場,真正適合使用者需求的產品才是好產品,這個產品會包括產品本身質量、發展勢頭、生態鏈等。傳統企業的量級難以達到“大資料”的級別,除了極少數之外,網際網路企業才是Hadoop應用主角。

Itpub網友13572******(金融行業): 大資料殺熟的新聞曝光後,傳統企業對大資料的信任度有所下降,大資料的缺點一下子就暴露了出來,只有加強大資料在製造業、農業等領域的應用監管,才可以避免此類投機取巧事件的發生。

Itpub網友aloki(服務業): 我認為Gartner報告有點危言聳聽,Hadoop即使在使用過程存在問題,但並不是沒辦法解決。就國內現狀而言,Hadoop在傳統企業的受歡迎程度與網際網路企業相同,幾乎覆蓋全行業。

Itpub網友help01(資訊服務): Gartner的報告應該還是可信的。在國內,Hadoop應用主要以網際網路公司為主,由此可以推斷Hadoop在網際網路企業比在傳統企業更受歡迎。

Itpub網友renxiao2003(傳統醫療製造): 上世紀70年代發明的C語言,好多機構和“專家”都曾斷言C語言會死,但直到今天C語言依舊是一個流行和不可或缺的開發語言。所以我們不能盲目的去相信報告,要客觀的分析和處理。至於Hadoop在傳統企業的受歡迎程度和網際網路企業肯定是不同的。

二、Hadoop生態目前最大的優勢和劣勢是什麼?未來與Spark的關係更傾向於哪一種方式?

Itpub網友aloki(服務業): Hadoop的優勢是可擴充套件性和容錯性,支援從GB到PB級別多種業務需求,支援PB級別海量資料批處理需求;劣勢是使用門檻略高,技術迭代快導致學習成本和運維成本升高。Spark大部分情況下與Hadoop配合出現,Spark作為通用計算引擎,而Hadoop提供儲存和資源管理框架等服務。

Itpub網友jieforest (製造業) Hadoop和Apache Spark都是大資料框架,但它們的實現目標有所不同。Hadoop本質上是一個分散式資料基礎架構,在大量商品伺服器的多個節點上分發海量資料集合,這意味著使用者不需要購買和維護昂貴的定製硬體,它還對這些資料進行索引和跟蹤,使大資料處理和分析能夠比以前更有效。

Spark沒有自己的檔案管理系統,Spark可以看成是一種資料處理工具,可以對這些分散式資料集進行操作,但其自身不會做分散式儲存。Hadoop不僅包含一個稱為Hadoop分散式檔案系統的儲存元件(HDFS),還包含一個名為MapReduce的處理元件,因此不需要Spark即可完成大資料處理。

Itpub網友help01(資訊服務): Hadoop的優勢有以下幾方面,高可靠性:按位儲存和處理資料的能力值得信賴;高擴充套件性:在可用的計算機集簇間分配資料並完成計算任務,這些集簇可以方便地擴充套件到數以千計的節點;高效性:Hadoop能夠在節點之間動態移動資料,並保證各個節點的動態平衡,因此處理速度非常快;高容錯性:Hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配。

劣勢:

  • 不適合低延遲資料訪問;

  • 無法高效儲存大量小檔案;

  • 不支援多使用者寫入及任意修改檔案。

Spark目前在國內的大型網際網路公司中也得到了積極推廣,百度、阿里巴巴、奇虎360、騰訊以及中國移動等都有使用,預計Spark未來會融合到Hadoop生態當中。

Itpub網友renxiao2003 (傳統醫療製造) Hadoop 可以一種可靠、高效、可伸縮的方式進行資料處理。Hadoop 是可靠的,因為它假設計算元素和儲存會失敗,因此它維護多個工作資料副本,確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的,因為它以並行的方式工作,透過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級資料。此外,Hadoop 依賴於社群服務,因此它的成本比較低,任何人都可以使用。

不足之處:

  • 全量場景,任務內序列

  • 重吞吐量,響應時間完全沒有保證

  • 中間結果不可見,不可分享

  • 單輸入單輸出,鏈式浪費嚴重

  • 鏈式MR不能並行

  • 粗粒度容錯,可能會造成陷阱

  • 圖計算不友好

  • 迭代計算不友好

Hadoop和Spark解決問題的層面不一樣:Hadoop和Apache Spark都是大資料框架,但是各自存在的目的不盡相同。Hadoop實質上更多的是一個分散式資料基礎設施,它將巨大的資料集分派到由普通計算機組成的叢集中的多個節點進行儲存,意味著使用者不需要購買和維護昂貴的伺服器硬體。Spark專門用於對分散式儲存資料進行處理,並不會進行分散式資料儲存。

Hadoop和Spark可合可分:Hadoop除了提供HDFS之外,還提供了叫做MapReduce的資料處理功能,因此可以完全拋開Spark進行資料處理。相反,Spark也不是非要依附在Hadoop身上才能生存。如上所述,畢竟它沒有提供檔案管理系統,所以,它必須和其他分散式檔案系統整合才能運作。

三、Hadoop生態中哪些元件表現較好?哪些是時候淘汰了?

總結

大部分使用者認可Hadoop在國內傳統企業的應用狀況與網際網路企業不同,並更傾向於傳統企業不如網際網路企業應用廣泛的觀點,主要考慮到傳統企業的資料量不如網際網路企業多,且傳統企業部署Hadoop的成本較高。至於Hadoop與Spark的關係,大多數網友傾向於將Spark與Hadoop整合,以彌補Hadoop的劣勢,但是相比較而言,Hadoop略佔上風,Spark需要在HDFS之上執行,雖然找到一個替代HDFS的元件並不難,但要想完全還原甚至超越其功能的元件目前還未曾出現在大規模生產驗證環境中。

附參考連結:

《Hadoop生態系統應用狀況大調查:網際網路篇! 》文章連結: http://blog.itpub.net/31077337/viewspace-2154077/

《國外兩大知名銀行Hadoop採用現狀調查,Gartner所言非虛!》文章連結:http://blog.itpub.net/31077337/viewspace-2155333/

因文章篇幅有限,所以並未選取所有使用者的完整回答,要想獲取完整版請訪問話題頁面:http://www.itpub.net/thread-2102561-1-1.html

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2199273/,如需轉載,請註明出處,否則將追究法律責任。

相關文章