Hadoop真的要死了嗎?

weixin_33858249發表於2018-11-13

10月3日,Hortonworks宣佈將與其主要競爭對手Cloudera合作建立一家年收入約為7.3億美元、擁有2,500名客戶、市場估值達52億美元的公司,這令很多人感到意外。

\"image\"

Splice Machine執行長Monte Zweben表示:“我認為對於我們來說,這是個好訊息。我們已經看到了運營由這兩家公司和其他公司部署的所有資料湖的巨大機會,而這樣的機會在兩年前可能連想都不敢想”。

Confluent的執行長兼Apache Kafka聯合創始人Jay Kreps告訴ZDNet:“這是一個聰明的舉動。過去,這兩家公司在同一產品上展開競爭,但具有諷刺意味的是,這卻讓競爭變得更加激烈”。

Unravel Data執行長Kunal Agarwal說:“我認為這是件好事。我認為這兩家公司在將他們的技術整合在一起,而不是試圖相互攻擊。他們現在可以專注於提供合適的機器學習工具、物聯網平臺和AI工具”。

但並非所有的反應都是積極正向的。 自由科技記者Virginia Backaitis在他的一片文章中寫道:“我比較擔心新的Cloudera(或者可能是單獨的Cloudera和Hortonworks)是否會像管理團隊和投資人所期望的那樣快速增長”。

Bloomberg Opinion專欄作家Shira Ovide同樣不看好,他將這兩家公司的合併說成是“兩家水下公司的航海聯盟”。

Teradata營運長Oliver Ratzesberger告訴Datanami:“這是一種Sears-K-Mart式的合併,這是他們唯一能夠生存下來的方式。Hadoop本身就變得無關緊要了”。

Anaconda產品和營銷高階副總裁Mathew Lodge在VentureBeat上釋出的一篇文章中指出,大資料的中心已經從Hadoop轉移到了雲端,在物件儲存系統(如亞馬遜S3、微軟Azure Blob Storage和Google Cloud Storage)中儲存資料比在HDFS中便宜了五倍。

“領先的雲端計算公司並沒有在Cloudera和Hortonworks上執行大型的Hadoop/Spark叢集,相反,他們在容器基礎設施上執行分散式雲規模資料庫和應用程式。現在是時候讓Hadoop和Spark與時俱進了”。

讓Hadoop更像雲

事實上,Apache Hadoop社群一直都在積極應對來自公有云供應商的威脅,包括像Databricks和Snowflake這樣的初創公司。它們通過採用物件儲存和容器技術讓雲端的大資料分析變得更便宜和更容易,並在上週獲得了來自風險資本的4.5億投資,

在今年早些時候釋出的Hadoop 3中,使用者可以選擇使用擦除編碼(erasure coding),這是S3等物件儲存系統使用的資料保護技術,可將儲存效率提高50%。Hadoop 3.1將為YARN中的Docker帶來更強勁的支援。在宣佈合併之前,Cloudera和Hortonworks都在努力讓他們的Hadoop發行版支援Kubernetes。

但是,對於Hadoop社群來說,他們還有很多工作要做。上個月,Cloudera首席戰略官Mike Olson告訴Datanami,社群還需要12到24個月才能在開源的Apache Hadoop專案中提供Kubernetes支援。

Olson說:“YARN擅長長期執行的批次作業排程,但要作為通用的叢集資源管理框架,它還需要精心的設計和改進。未來Kubernetes將會入駐,並接管其中的一大部分內容”。

於是問題來了:當YARN被Kubernetes取代,並且HDFS被替換為任何相容S3的物件儲存系統時,Hadoop還會是原來的Hadoop嗎? 如果你認為Hadoop只是40個開源專案的集合——HBase、Spark、Hive、Impala、Kafka、Flink、MapReduce、Presto、Drill、Pig、Kudu,等等——那麼也許這個問題就問得沒有什麼實際意義……

從實際角度來看,客戶不可能因為兩個最大的Hadoop發行商的整合而突然關閉多年來部署的數百萬個Hadoop節點。對於已經建立了Hadoop資料湖的數千家公司而言,它們的重點將保持不變:從資料中獲取價值。

儘管Hadoop可能已經變成了一項傳統技術,但社群仍然有動力去調整它,以便支援新興的需求,就像IBM對其大型機平臺所做的那樣。問題是它是否能夠以足夠快的速度讓已部署的基礎設施不斷增長。

簡化Hadoop

\"image\"

自從十多年前第一個MapReduce程式上線以來,開發人員一直對Hadoop的複雜性頗有微詞。即使像Facebook這樣大的公司在使用Hadoop時也感到不便,特別是當他們需要通過底層的Java程式設計技能從Hadoop中及時獲取資訊時。

從那時起的一個發展趨勢,就是消除這種複雜性,但Hadoop社群沒能及時取得進展,因此未能阻止雲供應商通過推出更簡單的產品搶走市場份額。

Splice Machine的Zweben表示:“我認為這是Hadoop的一次轉型。軟體供應商會使用越來越多的引擎,但從長遠來看,不會有普通的企業會用它們……對於全球2000大企業來說,在揹負Hadoop的重壓之下很難做到這點”。

Unravel Data公司的Agarawal表示,現在Cloudera和Hortonworks的工程師將齊心協力,以更好地應對構建系統方面的挑戰,這些系統可以以本地、雲端和混合的方式執行。“這是一個巨大的專案,仍然需要大量的工程師投入時間,把它打造成Kubernetes之上的一個成功的平臺。他們還有很多開發工作要做”。

如果說在隧道盡頭有一盞燈,那它就是:如果新Cloudera可以將Hadoop重新打造成一個混合的容器化平臺,位於Kubernetes之上,並且可以將資料儲存在任何與S3相容的物件儲存中,那麼它就有可能實現部分目標,並佔領一部分市場。 IDC認為這是一個價值650億美元的機會。

Agarwal說:“我認為Cloudera手裡握有一張雲供應商所沒有的王牌,那就是他們的混合策略。 根據我們與這些財富1000強公司合作的經驗來看,他們不會直接進入雲端。他們想要的是這種混合策略。因此,我認為這將成為為這些客戶創造價值的一條可行之路”。

從幻滅到生產力

\"image\"

從一開始,Hadoop基本上就是大資料的代名詞。如果你遇到需要用大資料來解決的問題,那麼答案肯定就是Hadoop。

這當然是不對的,很多人都這麼說——但這卻是Hadoop多年來的一個營銷口號。

Teradata技術長史Steven Brobst說,為解決複雜問題而尋找銀彈是人類的天性。“人們傾向於相信新技術將解決他們所有的問題,它會為你做所有的事情,甚至包括在早上給你端來一杯咖啡”。

Hadoop曾經是被過度熱炒的一項技術,而到了今天,這個頭銜被AI拿走了。 Brobst說:“當你的期望過度膨脹時,最終結果只會是失敗。當技術被設定了不恰當的預期,就會跌落到幻滅的低谷”。

Brobst繼續說道:“我們現在所看到的Hadoop就正在經歷這樣的一個過程。Hadoop正處於幻滅的低谷。‘放棄它吧,它已經不管用了!’其實它之所以不管用,是因為我們期望它能夠完成所有的事情。對於這樣不切實際的期望,除了失望之外,沒有其他可能性”。

Brobst說,雖然人們一直在Hadoop上掙扎,但這並不意味著Hadoop沒有價值。相反,它意味著組織和使用者應該要重新設定他們的期望,並問問自己它應該用在什麼地方會更好。

他說:“Hadoop和大資料終將走出Gartner炒作週期的幻滅低谷,然後進入生產力高原。這不是一個大資料戰略,而是一個資料戰略……它將成為生態系統的一部分,但不會解決所有問題”。

另外,InfoQ在兩年前策劃過“Hadoop十年”的迷你書,迷你書以Hadoop十年發展為主線,系統梳理了Hadoop這十年的變化以及技術圈的生態狀況。

同時,如果你對大資料感興趣,或者想進一步瞭解學習大資料,可以關注極客時間App出品的《從0開始學大資料》專欄。

英文原文:https://www.datanami.com/2018/10/18/is-hadoop-officially-dead/

相關文章