Hadoop架構已凋謝?!

技術小能手發表於2018-11-19

Hadoop架構的人氣在下滑,這可能歸咎於幾個不同的因素,尤其是機器學習的興起。

過去這幾年,HDFS的使用量一直在下降,這種基於Java的檔案系統已幾乎成為所謂的大資料革命的代名詞。這主要歸因於市場對Hadoop普遍缺乏興趣。但是導致Hadoop被大規模拋棄的Hadoop架構方面又如何呢?要知道,就在不久前Hadoop還大有希望。

坦率地說,Hadoop走下坡路似乎找不到一個最根本的理由。相反,Hadoop架構人氣下滑可能歸咎於幾個不同的因素。

一些IT專業人員對於自己無法在Hadoop叢集上執行任何有意義的資料分析頗為沮喪。一種常見的觀點是,Hadoop非常適合儲存大量資料,但是對於需要終端使用者可以直接處理這些資料的那些企業來說,它又往往不是最佳解決方案。

幾家供應商已經開發了SQL on Hadoop解決方案,讓客戶可以針對駐留在Hadoop上的資料執行SQL查詢。即便如此,這些工具也不是天生一模一樣,每家SQL on Hadoop供應商都似乎為特定的使用場合設計其工具。不難想象眾多企業組織痛苦地發現:它們購買的SQL on Hadoop引擎其實並不是很適合自己的大資料專案。

不僅僅是很難讓Hadoop完成企業組織需要它完成的任務這個因素導致Hadoop的使用量減少。導致Hadoop日漸式微的偶爾提到的另一個原因是,Hadoop與目前的IT趨勢不相合拍。

大資料革命似乎在一夜之間就立穩了腳跟;大資料蔚然成風時,Hadoop完全準備好了響應號召。畢竟,據Hortonworks聲稱,HDFS檔案系統“已表明了它具有在生產環境下支援200 PB儲存的可擴充套件性”,而4500臺伺服器組成的單單一個叢集就能支援“近10億個檔案和塊”。很顯然,HDFS處理得了大資料。

可問題是,大資料潮流似乎已翻篇了。儘管IT部門仍然在搞可能歸屬大資料這個大類的專案,但這個術語用得越來越少。相反,當下的IT潮流似乎是機器學習;當然,Hadoop並不直接支援機器學習。市面上有一些第三方工具(比如Apache Mahout)能夠做到讓Hadoop支援機器學習,但可能數量太少、動作太晚。

然而,Hadoop使用量下降的最大原因可能是亞馬遜AWS和微軟Azure等IaaS雲日漸成熟。公共雲對於企業組織遠離Hadoop起到了重要的作用,這出於幾個不同的原因。

第一個原因是純粹的感知或看法。我們生活在一個雲優先的世界。公共雲提供商在說服人們相信在雲端執行工作負載比在本地執行同樣那些工作負載要省錢得多這方面做得很到位。

另外,外頭往往認為繼續在本地環境部署新工作負載的企業多少落後於時代。

公共雲提供商慢慢促使Hadoop衰落的第二個原因是,雲提供商實際上構建了一個更管用的捕鼠器。雖然值得一提的是,亞馬遜確實通過亞馬遜EMR支援Hadoop和Spark,但對於需要大資料分析功能的企業組織而言,EMR並非亞馬遜的唯一解決方案。亞馬遜還提供Athena和Elasticsearch,前者可用於分析儲存在亞馬遜S3中PB級的資料,後者支援PB級的日誌分析、文字搜尋和應用程式監控功能。

我料想,Hadoop和HDFS檔案系統根本不會完全消失,至少在短期內不會消失。我認為,將來可能總是需要使用商用硬體的大容量儲存。此外,將大量資料上傳到公共雲可能成本過高,還可能帶來購置、維護和運輸等保障方面的問題。

話雖如此,新的大資料專案誕生於雲端顯得越來越常見,IT專業人員日益發現雲原生大資料工具比Hadoop來得更易於使用、更有效。


原文釋出時間為:2018-11-19

本文來自雲棲社群合作伙伴“網際網路架構師”,瞭解相關資訊可以關注“網際網路架構師”。


相關文章