Cloudera和Hortonworks宣佈合併:對Hadoop的一記重創!

大資料頻道發表於2018-10-09

國慶期間,大資料領域的兩大巨頭公司Cloudera和Hortonworks宣佈平等合併,Cloudera以股票方式收購Hortonworks,Cloudera股東最終獲得合併公司60%的股份。 這筆交易意味著Hadoop市場再也無法維持兩大競爭對手對峙的狀態了。

在Hadoop的世界中,規模最大、知名度最高的公司就是Cloudera。Cloudera努力為開源Hadoop提供支援,同時將資料處理框架延伸到一個全面的“企業資料中心”範疇。Hortonworks也是企業級全球資料管理平臺,同時也是服務和解決方案的領先供應商,為100強企業中的一多半提供‘任何型別資料’的可操作資訊。此次最大的兩家資料服務商Cloudera和Hortonworks宣佈合併,表示要建立世界領先的資料平臺。

本次交易要點:

1、建立世界領先的資料平臺,增加規模和資源,提供業界第一個企業級資料雲,提高公共雲的易用性和靈活性;

2、制定清晰的行業標準;

3、加速市場發展,推動物聯網、流媒體、資料倉儲、混合雲、機器學習、人工智慧等領域的創新

4、利用補充產品擴大市場機會,包括Hortonworks DataFlow和Cloudera Data Science Workbench

5、加強與公共雲供應商和系統整合商的夥伴關係

6、預計將產生重大的經濟利益並改善利潤率:

  • 收入約為7.2億美元

  • 超過2,500名客戶

  • 800多名客戶超過$ 100,000 ARR

  • 超過120家客戶的ARR超過100萬美元

  • 超過1.25億美元的年度成本協同增效

  • CY20的現金流超過1.5億美元

  • 超過5億美元的現金,沒有債務

顧問、管理層以及董事會等動向

交易完成後,Cloudera的執行長Tom Reilly將擔任執行長;Hortonworks的營運長Scott Davidson將擔任營運長;Hortonworks的首席產品官Arun C.Murthy將擔任合併後公司的首席產品官;Cloudera的首席財務官Jim Frankola將擔任合併後公司的首席財務官。Hortonworks的執行長RobBearden將加入董事會。現任Cloudera董事會成員MartyCole將擔任董事會主席。

新成立公司的董事會最初將由九名董事組成。包括Bearden先生在內的四位董事將來自Hortonworks現有的董事會。包括Reilly先生在內的五位董事將來自Cloudera現有的董事會。合併後的董事會將選出第十名董事。

其中,Morgan Stanley&Co.LLC擔任Cloudera的財務顧問,Fenwick&West.LLP擔任其法律顧問。Qatalyst Partners擔任Hortonworks的財務顧問,Latham&Watkins.LLP擔任其法律顧問。

Hadoop多年來一直是大資料的代名詞,但市場和客戶需求已經發生了變化,此次兩大公司合併無疑會是對Hadoop的一記重創。在幾大趨勢的推動下,Hadoop的影響正在逐漸降低!

公有云浪潮正在上升

第一個大趨勢是企業向公有云的轉變。各種規模的公司都在增加對AWS、Azure和Google Cloud服務的採用,而犧牲了內部部署基礎架構和軟體。根據IDC和Gartner的報告,企業伺服器收入連續下降。前三大雲提供商(佔雲市場份額的90%)提供自己的託管Hadoop/Spark服務,例如亞馬遜的Elastic Map Reduce(EMR)。這些都是完全整合的產品,具有較低的購置成本並且更便宜。 如果企業正在轉向雲端計算,那麼選擇這類將Hadoop產品視為其中一部分的雲平臺既省時又省力,這幾乎是一個很自然的決策。並且,具有諷刺意味的是,Cloudera並沒有加入雲時代,這個在Hadoop上優勢明顯的公司並未發掘這一先機。

儲存成本 降低

第二大趨勢是什麼?雲端儲存的經濟性正在碾壓Hadoop的儲存成本。 在2005年推出時,Hadoop分散式檔案系統(HDFS)是革命性的一大改進,它將伺服器與普通硬碟驅動器結合,並將它們轉變為能夠由Java應用程式相容並行IO的分散式儲存系統。當時,我們沒有類似的東西可以選擇,它就是一個關鍵元件,允許並行處理不適合單個機器執行的大規模資料集。但那是13年前的事了, 如今有許多便宜得多的替代品,主要是物件儲存服務,如AWS S3,Azure Blob儲存和Google雲端儲存。 一個TB的雲物件儲存成本約每月20美元,而HDFS每月約100美元(不包括運營成本)。 例如,谷歌的HDFS服務僅僅是將HDFS操作轉換為物件儲存操作,但價格卻便宜了5倍。

更快,更好,更便宜的雲資料庫

Hadoop的問題並不止於此,因為它不僅受到雲供應商Hadoop/Spark服務和物件儲存服務的直接競爭。第三大趨勢是“無伺服器”,它的出現完全消除了執行Hadoop或Spark的需要。Spark的一個常見用例是為使用者處理ad-hoc分散式SQL查詢。谷歌率先在2011年推出了名為BigQuery的革命性服務,以完全不同的方式解決了同樣的問題。它允許對儲存在其物件儲存服務中的任何資料量執行即席查詢(無需將其載入到HDFS等特殊儲存中),使用者只需為計算時間付費:如果需要1,000個core,只需3.5秒即可執行查詢,這就是所支付的全部費用。企業無需配置伺服器、安裝作業系統、安裝軟體、配置所有內容以將叢集擴充套件到1,000個節點,以及像Hadoop/Spark一樣提供和關注叢集。谷歌做了所有這些繁瑣的工作,因此這個名字叫“無伺服器”。有些銀行執行著2000個節點的Hadoop/Spark叢集,由數十名IT人員操作和維護,無法與BigQuery的靈活性、速度和規模相匹敵,還必須支付所有硬體、軟體和人員費用才能執行和維護Hadoop。

BigQuery就是一個例子。 其他雲資料庫服務同樣具有大規模,高度靈活,全球分佈等特點。初創公司Snowflake,Google Big Table,AWS Aurora和Microsoft Cosmos等,他們所提供的服務比安裝Hadoop/Spark更容易使用,使用者可以在5分鐘內啟動並執行,整個過程只需要數十美元,不需要50萬美元的採購訂單和數週的安裝、配置和培訓。

容器、Kubernetes和機器學習

第四大趨勢是容器和Kubernetes。 Hadoop / Spark不僅僅是一個儲存環境,也是一個計算環境。同樣,早在2005年,Hadoop的另一個革命性產品誕生,這就是MapReduce,Map-Reduce方法為Java應用程式的平行計算提供了框架。但Cloudera和Hortonworks基礎設施以Java為中心(以Scala為中心的Spark)與今天的資料科學家在Python和R中進行機器學習是不一致的。企業需要不斷迭代和改進機器學習模型並讓其學習生產資料,這就意味著Python和R模型是本地部署所必需的,如果你希望藉助機器學習的能力。

容器和Kubernetes與Python和R一樣,為分散式計算提供了更加靈活和強大框架。無論如何,這些都是軟體開發團隊的目標,他們或許並不打算在Hadoop/Spark之上分發新的微服務應用程式,因為這過於複雜和有所限制。

經過了近10年,Cloudera和Hortonworks才得以成為大資料世界的中心,然而,如今大資料的重心已經轉移到其他地方。領先的雲端計算公司沒有像Cloudera和Hortonworks一樣執行大型Hadoop/Spark叢集,他們更喜歡在容器等之上執行分散式雲資料庫和應用程式。他們使用Python,R和其他非Java語言進行機器學習。越來越多的企業正在轉向類似的方法,因為他們希望獲得相同的速度和規模效益。

本文作者

Mathew Lodge是Anaconda的產品和營銷高階副總裁。他在雲端計算和產品方面擁有20多年的豐富經驗。在加入Anaconda之前,他曾擔任Weaveworks的營運長,Weaveworks是容器和微服務網路和管理初創公司; 他曾擔任VMware雲服務部門的副總裁,並共同創立了VMware的vCloud Air IaaS服務。

來自 “ https://venturebeat.com/2018/10/06/cloudera-and-ho ”,原文連結:http://blog.itpub.net/31545816/viewspace-2215651/,如需轉載,請註明出處,否則將追究法律責任。

相關文章