Gartner連續五年唱衰Hadoop,廠商不以為然!

趙鈺瑩發表於2018-05-07

  前不久,筆者調研了國內一線網際網路公司的大資料架構(《Hadoop生態系統應用狀況大調查:網際網路篇!》),Hadoop在其中佔據了極其重要的位置,很多人都不看好的MapReduce更是出現在各大網際網路公司的大資料架構中。

  本文調查了國內部分提供大資料服務的廠商,看看Gartner連續五年唱衰 Hadoop的情況下,他們的大資料平臺是如何搭建的?是否基於Hadoop生態系統?Hadoop生態中各元件的存在感有多高?這些架構具備哪些共同特點?(本文內容來源於公開資料整理)

  星環科技

  星環科技Transwarp Data Hub(簡稱TDH)是國內落地案例最多的一站式Hadoop發行版,也是Gartner認可的Hadoop國際主流發行版本。說白了,就是Hadoop商業版的發行商之一。TDH解決了Hadoop的效能問題,解決了企業需要MPP或混合架構的問題。對於現在還不太成熟的Spark生態而言,唯一的優勢可能就是速度夠快,但穩定性不足,企業很難嘗試。TDH解決了Hadoop的速度問題,讓Spark失去了抗衡條件。

Gartner連續五年唱衰Hadoop,廠商不以為然!

  除了Hadoop生態元件,機器學習基本成為大資料平臺的標配。Transwarp Discover就是一個分散式的機器學習平臺,包含了不少分散式演算法庫。

  目前這個大資料平臺已經在廣東移動、廣東電信、江蘇銀行、恆豐銀行、中泰證券等電信運營商、金融證券、醫療衛生、郵政快遞等幾大行業應用。

  榮之聯

  榮之聯的DataZoo整體分為三層,最底層的基礎層基於Hadoop搭建,上層自研了五大引擎,整體加入了自然語言處理的能力。

Gartner連續五年唱衰Hadoop,廠商不以為然!

  底層應用的Hadoop生態系統元件基本與星環科技一致,上層的實時流處理引擎也有異曲同工之妙。在對榮之聯大資料專家的走訪中,筆者瞭解到不少企業使用者對實時流處理具有很高的需求,這在很多網際網路公司的大資料架構圖中也有體現,這也成為很多大資料廠商共同的發力點。

  目前DataZoo已應用於公安、證券、電商、新媒體、車聯網及生物醫療等多個行業。

  新華三

  新華三的H3C DataEngine平臺產品同樣基於Hadoop生態,整合了MapReduce、Spark、Storm、Tez等多種計算引擎,利用YARN資源管理元件統一管理排程。

  此外,該大資料平臺產品在資料分析挖掘方面同樣提供了機器學習的能力。支援R語言、整合機器學習演算法庫Mahout和Spark MLlib,包括一些常用的聚類分析、分類演算法等機器學習演算法;流式計算引擎同樣是標配。

  目前看起來似乎僅僅應用在政務、公安和高校三個領域。

  百分點

  百分點是國內大資料和人工智慧技術與應用服務商,百分點的大資料作業系統(BD-OS)架構模組化清晰,機器學習、分散式資料庫KHan和資料服務都是可獨立使用的模組:

Gartner連續五年唱衰Hadoop,廠商不以為然!

  底層的大資料技術平臺基本可以分為Hadoop生態元件和機器學習元件,中間層同樣加入了實時處理能力,上層也提供機器學習的能力。百分點最大的特點在於它的模組之間非常靈活,企業使用者可以各取所需。其他廠商或多或少都具備這項能力,只是沒有在架構圖中一目瞭然的體現出來。

  目前主要應用於銀行、政府部門、酒店、百貨、Wi-Fi、媒體、製造業等行業。

  聯想

  2011年8月,聯想正式啟動大資料建設。聯想的企業級大資料分析平臺主要包括6大產品線:大資料分析應用套件、大資料能力開放平臺、大資料計算平臺、資料採集轉換套件、資料資產管理平臺以及系統運維監控中心。

Gartner連續五年唱衰Hadoop,廠商不以為然!

  整體同樣基於開源生態搭建,其中的計算平臺 Descartes基於Hadoop生態系統。在早期的平臺資料中,我們只能看到這六大產品線的介紹。現在LEAP同樣內建深度最佳化的機器學習框架及演算法庫,具備批次、實時計算技術。

  由於並沒有尋到聯想大資料平臺更詳細的架構圖,所以此處對整體架構不做過多分析。

  探碼科技

  探碼科技屬於初創企業中的黑馬,其Datale大資料應用平臺是一款基於Hadoop的開源計算框架,整合了社群幾十個成熟的Hadoop子專案。

Gartner連續五年唱衰Hadoop,廠商不以為然!

  探碼科技的大資料架構層次比較清晰,同時新增了機器學習引擎和自然語言處理引擎。但是,整體架構似乎與前幾家廠商的有些不同。據悉,探碼科技的優勢市場在國外,比如美國的律師平臺、醫生平臺和酒店等等,現在也在努力開拓中國市場。

  浪潮

  浪潮是一家老牌的雲端計算和大資料廠商,其雲海Insight大資料解決方案同樣提供主流的Hadoop、Spark、MPP等架構套件。

Gartner連續五年唱衰Hadoop,廠商不以為然!

  標配的流式計算和機器學習同樣出現在浪潮的大資料平臺架構圖中,目前主要應用領域仍然是金融、電信、政務、醫療等行業。

  用友

  用友大資料處理平臺UDH基於Hadoop開源產品體系,從其官網公佈的架構圖不難看出,Hadoop佔據了用友大資料平臺的重要位置:

Gartner連續五年唱衰Hadoop,廠商不以為然!

  用友最擅長的是金融財務方向,其大資料平臺雖然功能不多,但針對報表展現、資料分析方面進行了不少最佳化,明顯是有領域傾向性。

  總結

  從上述幾個大資料服務廠商的架構圖不難看出:Hadoop、實時流處理以及機器學習能力幾乎成為標配,每一個大資料架構都基於龐大的Hadoop生態元件,只看底層的話,各大廠商的區別還真不大,只有上層才會有一些區分。

  其次,企業使用者與網際網路公司對實時流處理都具備極高的需求,這在各自的架構圖中都有所體現。很多大資料廠商也不過只是Hadoop生態的使用者,相比於調整Hadoop,他們或許更希望在應用層做文章。

  最後,機器學習成為了大資料廠商樂於提供的一大功能,很多廠商甚至可以單獨提供機器學習或自然語言處理的模組。

  無論是大資料廠商還是網際網路企業,Hadoop都是穩穩的基礎層,好像沒有人糾結其他選擇,也沒有人對此有過異議,也沒有廠商將關注點放在Hadoop的替代品研究上,難道Hadoop壟斷時代就此形成?

  你對Hadoop有什麼看法?你所在公司目前的大資料平臺是否同樣基於Hadoop?Hadoop壟斷時代到來,你同意這個看法嗎?

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2154092/,如需轉載,請註明出處,否則將追究法律責任。

相關文章