Hadoop的故事

banq發表於2022-01-18

今天雲原生技術的大資料中心取代了Hadoop,Kubernetes 取代了 YARN 作為工作負載編排器,亞馬遜S3 相容的物件儲存取代了 HDFS 來儲存海量資料。但是在 2011 年,Hadoop是大資料酷炫的前沿。
Hadoop(當時稱為 Nutch)由 Doug Cutting 和 Mike Cafarella於 2004 年建立,作為 Google 檔案系統和 MapReduce 計算框架的基於 Java 的實現。該產品解決了一個非常緊迫的問題:雅虎的全球資訊網索引不再適合單臺計算機,因此該公司需要一個低成本的資料儲存和處理框架。
Cut 和 Cafarella 在 2006 年啟動了開源 Hadoop 專案,很快矽谷的網路巨頭(當時還沒有那麼巨大)注意到了這一點。Facebook、Twitter 和 LinkedIn 採用 Hadoop 來解決他們自己迅速增長的資料需求,並且他們對 Cassandra、Hive、Kafka 和 Storm 等技術做出了自己的調整。計算世界的其他人都想參與其中,Cloudera 做出了回應。
Cloudera 成立於 2008 年,是第一個 Hadoop 分銷商。該公司於2011 年 11 月開始擴大業務,當時它籌集了 4000 萬美元的風險投資,這預示著 9 億美元的鉅額投資將在三年後的 Hadoop 鼎盛時期發生。
但是隨著Hadoop 生態系統的發展,Cloudera 的競爭對手MapR Technologies 成立於 2009 年,在 2011 年完成了 2000 萬美元的融資,因為它的 40 多名員工構建了一個專有版本的 Hadoop,除了 HDFS 之外還支援 NFS。然後在 2011 年 6 月,當雅虎剝離 Hortonworks 時,Cloudera 又遇到了另一個競爭對手。與 Cloudera 或 MapR 相比,Hortonworks 擁有大約 20 名從事雅虎 Hadoop 系統工作的工程師,旨在更緊密地與開源 Apache Hadoop 專案保持一致。
當時絕大多數 Hadoop 部署都是本地部署,因為公有云的概念仍在形成(請記住,亞馬遜網路服務直到 2006 年才建立)。但亞馬遜讓我們一睹 Elastic MapReduce (EMR) 的發展前景,這是它在 2009 年推出的託管 Hadoop 服務。在 Cloudera 和 MapR 在零售和金融服務領域獲得客戶的同時,AWS 吹噓其技術含量高的客戶名單,其中包括 Etsy、Foursquare、Clickstream 和 Yelp 等名稱。
雖然 Hadoop 在今天被認為是一種傳統技術,但由於分離計算和儲存的雲原生架構的興起,Hadoop 的影響力仍然存在。

相關文章