Hadoop 真的要死了嗎?

首席資料師發表於2018-12-13

10 月 3 日,Hortonworks 宣佈將與其主要競爭對手 Cloudera 合作建立一家年收入約為 7.3 億美元、擁有 2,500 名客戶、市場估值達 52 億美元的公司,這令很多人感到意外。

 

Splice Machine 執行長 Monte Zweben 表示:“我認為對於我們來說,這是個好訊息。我們已經看到了運營由這兩家公司和其他公司部署的所有資料湖的巨大機會,而這樣的機會在兩年前可能連想都不敢想”。

Confluent 的執行長兼 Apache Kafka 聯合創始人 Jay Kreps 告訴 ZDNet:“這是一個聰明的舉動。過去,這兩家公司在同一產品上展開競爭,但具有諷刺意味的是,這卻讓競爭變得更加激烈”。

Unravel Data 執行長 Kunal Agarwal 說:“我認為這是件好事。我認為這兩家公司在將他們的技術整合在一起,而不是試圖相互攻擊。他們現在可以專注於提供合適的機器學習工具、物聯網平臺和 AI 工具”。有一起學大資料的可以加群大資料資料分享群834325294,這是大資料學習交流的地方,不管你是小白還是大牛,小編都歡迎,不定期分享乾貨,包括我整理的一份適合大資料零基礎學習大資料進階資料。image

但並非所有的反應都是積極正向的。 自由科技記者 Virginia Backaitis 在他的一片文章中寫道:“我比較擔心新的 Cloudera(或者可能是單獨的 Cloudera 和 Hortonworks)是否會像管理團隊和投資人所期望的那樣快速增長”。

Bloomberg Opinion 專欄作家 Shira Ovide 同樣不看好,他將這兩家公司的合併說成是“兩家水下公司的航海聯盟”。

Teradata 營運長 Oliver Ratzesberger 告訴 Datanami:“這是一種 Sears-K-Mart 式的合併,這是他們唯一能夠生存下來的方式。Hadoop 本身就變得無關緊要了”。

Anaconda 產品和營銷高階副總裁 Mathew Lodge 在 VentureBeat 上釋出的一篇文章中指出,大資料的中心已經從 Hadoop 轉移到了雲端,在物件儲存系統(如亞馬遜 S3、微軟 Azure Blob Storage 和 Google Cloud Storage)中儲存資料比在 HDFS 中便宜了五倍。

“領先的雲端計算公司並沒有在 Cloudera 和 Hortonworks 上執行大型的 Hadoop/Spark 叢集,相反,他們在容器基礎設施上執行分散式雲規模資料庫和應用程式。現在是時候讓 Hadoop 和 Spark 與時俱進了”。

讓 Hadoop 更像雲

事實上,Apache Hadoop 社群一直都在積極應對來自公有云供應商的威脅,包括像 Databricks 和 Snowflake 這樣的初創公司。它們通過採用物件儲存和容器技術讓雲端的大資料分析變得更便宜和更容易,並在上週獲得了來自風險資本的 4.5 億投資,

在今年早些時候釋出的 Hadoop 3 中,使用者可以選擇使用擦除編碼(erasure coding),需要大資料資料的加qun; 83,43,25,294這是 S3 等物件儲存系統使用的資料保護技術,可將儲存效率提高 50%。Hadoop 3.1 將為 YARN 中的 Docker 帶來更強勁的支援。在宣佈合併之前,Cloudera 和 Hortonworks 都在努力讓他們的 Hadoop 發行版支援 Kubernetes。

但是,對於 Hadoop 社群來說,他們還有很多工作要做。上個月,Cloudera 首席戰略官 Mike Olson 告訴 Datanami,社群還需要 12 到 24 個月才能在開源的 Apache Hadoop 專案中提供 Kubernetes 支援。

Olson 說:“YARN 擅長長期執行的批次作業排程,但要作為通用的叢集資源管理框架,它還需要精心的設計和改進。未來 Kubernetes 將會入駐,並接管其中的一大部分內容”。

於是問題來了:當 YARN 被 Kubernetes 取代,並且 HDFS 被替換為任何相容 S3 的物件儲存系統時,Hadoop 還會是原來的 Hadoop 嗎? 如果你認為 Hadoop 只是 40 個開源專案的集合——HBase、Spark、Hive、Impala、Kafka、Flink、MapReduce、Presto、Drill、Pig、Kudu,等等——那麼也許這個問題就問得沒有什麼實際意義……

從實際角度來看,客戶不可能因為兩個最大的 Hadoop 發行商的整合而突然關閉多年來部署的數百萬個 Hadoop 節點。對於已經建立了 Hadoop 資料湖的數千家公司而言,它們的重點將保持不變:從資料中獲取價值。

儘管 Hadoop 可能已經變成了一項傳統技術,但社群仍然有動力去調整它,以便支援新興的需求,就像 IBM 對其大型機平臺所做的那樣。問題是它是否能夠以足夠快的速度讓已部署的基礎設施不斷增長。

簡化 Hadoop

image

自從十多年前第一個 MapReduce 程式上線以來,開發人員一直對 Hadoop 的複雜性頗有微詞。即使像 Facebook 這樣大的公司在使用 Hadoop 時也感到不便,特別是當他們需要通過底層的 Java 程式設計技能從 Hadoop 中及時獲取資訊時。

從那時起的一個發展趨勢,就是消除這種複雜性,但 Hadoop 社群沒能及時取得進展,因此未能阻止雲供應商通過推出更簡單的產品搶走市場份額。

Splice Machine 的 Zweben 表示:“我認為這是 Hadoop 的一次轉型。軟體供應商會使用越來越多的引擎,但從長遠來看,不會有普通的企業會用它們……對於全球 2000 大企業來說,在揹負 Hadoop 的重壓之下很難做到這點”。

Unravel Data 公司的 Agarawal 表示,現在 Cloudera 和 Hortonworks 的工程師將齊心協力,以更好地應對構建系統方面的挑戰,這些系統可以以本地、雲端和混合的方式執行。“這是一個巨大的專案,仍然需要大量的工程師投入時間,把它打造成 Kubernetes 之上的一個成功的平臺。他們還有很多開發工作要做”。

如果說在隧道盡頭有一盞燈,那它就是:如果新 Cloudera 可以將 Hadoop 重新打造成一個混合的容器化平臺,位於 Kubernetes 之上,並且可以將資料儲存在任何與 S3 相容的物件儲存中,那麼它就有可能實現部分目標,並佔領一部分市場。 IDC 認為這是一個價值 650 億美元的機會。

Agarwal 說:“我認為Cloudera 手裡握有一張雲供應商所沒有的王牌,那就是他們的混合策略。 根據我們與這些財富 1000 強公司合作的經驗來看,他們不會直接進入雲端。他們想要的是這種混合策略。因此,我認為這將成為為這些客戶創造價值的一條可行之路”。

從幻滅到生產力

image

從一開始,Hadoop 基本上就是大資料的代名詞。如果你遇到需要用大資料來解決的問題,那麼答案肯定就是 Hadoop。

這當然是不對的,很多人都這麼說——但這卻是 Hadoop 多年來的一個營銷口號。

Teradata 技術長史 Steven Brobst 說,為解決複雜問題而尋找銀彈是人類的天性。“人們傾向於相信新技術將解決他們所有的問題,它會為你做所有的事情,甚至包括在早上給你端來一杯咖啡”。

Hadoop 曾經是被過度熱炒的一項技術,而到了今天,這個頭銜被 AI 拿走了。 Brobst 說:“當你的期望過度膨脹時,最終結果只會是失敗。當技術被設定了不恰當的預期,就會跌落到幻滅的低谷”。

Brobst 繼續說道:“我們現在所看到的 Hadoop 就正在經歷這樣的一個過程。Hadoop 正處於幻滅的低谷。‘放棄它吧,它已經不管用了!’其實它之所以不管用,是因為我們期望它能夠完成所有的事情。對於這樣不切實際的期望,除了失望之外,沒有其他可能性”。

Brobst 說,雖然人們一直在 Hadoop 上掙扎,但這並不意味著 Hadoop 沒有價值。相反,它意味著組織和使用者應該要重新設定他們的期望,並問問自己它應該用在什麼地方會更好。

他說:“Hadoop 和大資料終將走出 Gartner 炒作週期的幻滅低谷,然後進入生產力高原。這不是一個大資料戰略,而是一個資料戰略……它將成為生態系統的一部分,但不會解決所有問題”。

另外,InfoQ 在兩年前策劃過“Hadoop 十年”的迷你書,迷你書以 Hadoop 十年發展為主線,系統梳理了 Hadoop 這十年的變化以及技術圈的生態狀況。

有一起學大資料的可以加群大資料資料分享群834325294,這是大資料學習交流的地方,不管你是小白還是大牛,小編都歡迎,不定期分享乾貨,包括我整理的一份適合大資料零基礎學習大資料進階資料

相關文章