替代品不少,大家堅持用Hadoop的原因是什麼?
前不久,筆者整理了部分一線網際網路公司的大資料平臺架構圖(感興趣可自行檢視《摸底10餘家一線網際網路公司大資料架構圖:Hadoop滲透力太強!》),引來不少使用者的關注。從文章可以看出:Hadoop生態系統對網際網路公司大資料平臺架構的滲透力是極其強大的。
我們似乎習慣了在提到大資料的時候想起Hadoop,但是為什麼企業(當然,不單指網際網路公司)都在用Hadoop?沒有其他更合適更完美的解決方案嗎?Spark生態日趨完善,頻頻叫囂Hadoop,Hadoop會陷入危機嗎?
針對上述問題,筆者將對有代表性的大資料服務廠商的一線技術專家進行走訪,瞭解他們對Hadoop的選擇意願以及原因、搭建大資料平臺時最看重哪些因素、對Hadoop的未來持何種態度。
本期嘉賓:
王蘋,榮之聯解決方案架構師。曾就職於IBM大資料團隊,具有多年大資料平臺研發經驗。目前專注於大資料企業級應用的方案設計及技術選型,同時帶領團隊研發榮之聯大資料產品。
地位堪比晶片:為什麼企業願意使用Hadoop?
榮之聯對企業使用者提供大資料平臺產品DataZoo,最底層的基礎層基於Hadoop開源生態構建,目前已在公安,證券、電商,新媒體、車聯網和生物醫療幾大領域落地。速度上明顯落後Spark的Hadoop到底有什麼優點?榮之聯為什麼這樣選擇?企業使用者對大資料平臺有哪些需求?
榮之聯選擇Hadoop的原因很簡單:Hado平臺研發op足以解決現階段企業使用者的大資料問題;Hadoop生態成熟完整,成功案例眾多,站在巨人的肩膀上看得更遠;我們有相關人才,具有大資料能力的專業團隊。
想必正在使用Hadoop的廠商和榮之聯有不少共鳴。除了Hadoop自身的優勢,人才也是重要因素。當Hadoop工程師開始慢慢增多,國內的Hadoop生態發展進入升溫階段。
企業使用者願意用Hadoop,原因也很簡單:滿足需求,支援全面。大多數時候,企業使用者沒有網際網路公司樂於冒險,他們更願意選擇成熟穩定的解決方案。王蘋透露,企業使用者往往很看重效能指標,還有易用性、穩定性等。Spark雖然速度足夠快,但穩定性上遠遠不如Mapreduce,二者合作使用是很受歡迎的方案。
此外,Hadoop的支援十分成熟完善,有來自開源社群的支援還有像榮之聯這類大資料服務廠商的支援。隨著資訊科技的發展,越來越多的傳統企業開始擁有自己的資訊化團隊,相比昂貴的商用解決方案,他們更傾向於基於開源基礎搭建,Hadoop生態系統中的元件豐富使之成為優先選擇物件,國內大資料服務廠商的技術支援也讓他們有了底氣。當然,不具備資訊化團隊的企業同樣可以通過全盤接收榮之聯等廠商的大資料服務享受到Hadoop的優勢,這類企業在選擇時會更加謹慎,更加傾向於應用企業較多的解決方案。
綜上,這些原因造成企業使用者大批量選擇Hadoop,大資料服務類廠商使用Hadoop的現狀。
王蘋認為,Hadoop足以解決目前企業使用者面臨的大資料問題,並且也是目前最合適的解決方案。
Gartner:25%的Spark正在脫離Hadoop生態單獨執行!
Gartner報告其實是該系列調查的導火索。在早前的報告中,Gartner曾指出,儘管企業對大資料解決方案的需求不斷增長,但對Hadoop的需求沒有像預期那樣加速。同時,25%的Spark已經開始脫離Hadoop生態單獨執行。
這在預示著Spark的崛起和Hadoop的衰落嗎?
作為一線大資料工程師,王蘋認為在快節奏的IT圈,任何一種技術發展到一定階段都會被挑戰。當然,無風不起浪,Hadoop作為分散式系統基礎架構,本身確實有一定問題,但這並不代表新興技術已經具備抗衡Hadoop的能力,新技術的挑釁恰恰會促進Hadoop的發展。Gartner肯定了大資料解決方案仍然是目前的熱門領域,而Hadoop已經進入成熟期。
對,沒錯,是成熟期。王蘋解釋道,企業做大資料是價值導向,通過資料驅動業務。正是因為Hadoop已經進入成熟期,國內外企業基本已經佈局完成,對Hadoop的關注度才會下降,對Hadoop的需求也會相應減少,這就比如現在都在關注人工智慧,因為那是未來。
Hadoop當然不是完美的,但它在大資料平臺中的地位是標誌性的。Spark生態確實日漸成熟,它早已不是單槍匹馬的戰鬥了。對於資料量較小、儲存需求較小的企業而言,單獨構建Spark系統架構是可以的,但Spark面臨的問題遠比Hadoop要多。
總之,Spark與Hadoop本可成為最默契的戰友,相互配合完成一場漂亮的防禦戰,沒必要成為商業廝殺的武器。
大資料領域,即便出現新技術,不與Hadoop打配合,何談市場?
眾所周知,Hadoop源於谷歌描述GFS和MapReduce的研究論文,Hadoop社群很多優秀的工程師座標也都在國外,對Hadoop叫囂最猛烈的浪潮基本也來自國外。曾經,谷歌造就了Hadoop,之後,谷歌又找到了Caffeine、Dremel等開始替代Hadoop生態系統中的元件。
王蘋對谷歌的做法並不意外,也並不慌亂。她認為,谷歌作為技術領先型的網際網路企業,追求技術創新很正常,但這與國內企業使用者的需求並不完全吻合。就現狀而來,Hadoop的未來應該是逐漸成熟,而不是走向衰落。
即便Hadoop有一天真的失寵了,那就意味著一定有新的足以接手Hadoop的技術出現。反過來想,現在的大資料領域,任何新技術的出現恐怕都會考慮與Hadoop的相容性,否則市場將很難開展。
採訪最後,王蘋表示,即便Hadoop真的不行了,榮之聯也不併擔心。DataZoo的基礎層可以隨時抽出替換新的技術。
企業不妨想想,你目前應用的大資料架構是否具備未雨綢繆的能力呢?
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2154086/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- ERP商談,你在堅持什麼?
- 面對TypeScript,堅持JS的理由是什麼?TypeScriptJS
- 我們為什麼很難堅持下去
- 這麼多年來,你值得驕傲堅持的是什麼?
- 主宰遊戲屆,任天堂在堅持什麼?遊戲
- 為什麼要堅持寫技術博文
- 人工智慧為什麼用Python?原因是什麼?人工智慧Python
- 代理IP被廣泛應用的原因是什麼?
- FMEA失效的原因是什麼?
- 程式設計師 為什麼要堅持寫部落格程式設計師
- RESTful API的流行的原因是什麼?RESTAPI
- 什麼是Godaddy?站長使用它的原因是什麼Go
- Python為什麼會這麼火呢?原因是什麼?Python
- 我兩年的堅持,值了!
- 阿里失敗的最大原因是什麼?阿里
- ssl證書無效的原因是什麼?
- 我該用 Java 12 還是堅持 Java 11?Java
- CRM系統用不起來的原因是什麼?
- erp體系不穩定的原因是什麼?
- 精益生產難成功的原因是什麼
- 3.每天堅持要做的事情
- 堅持“使用者企業”主張的造車新勢力:究竟做對了什麼?
- 大資料之hadoop / hive / hbase 的區別是什麼?有什麼應用場景?大資料HadoopHive
- Python程式閃退的原因是什麼?如何解決?Python
- 今天的IT如此複雜,其背後原因是什麼?
- 伺服器出現卡頓的原因是什麼伺服器
- 面試官:聊聊索引失效?失效的原因是什麼?面試索引
- 中小型企業引入erp的原因是什麼?
- Linux中建立檔案失敗的原因是什麼?Linux
- 騰訊怎麼玩體育:堅持媒體定位
- 為什麼大家都在用 WebP?Web
- 大家開發 RN 都用什麼?
- 《消逝的光芒2》遲遲不能上市的原因是什麼
- SSL證書校驗失敗的可能原因是什麼?
- 在網上配置部署SSL證書的原因是什麼
- Python成為爬蟲常用語言的原因是什麼?Python爬蟲
- 短影片直播系統經久不衰的原因是什麼?
- 【2024-05-23】堅持中庸