大象的崛起:Hadoop七年發展風雨錄

發表於2011-09-12

在網際網路這個領域一直有這樣的說法:“如果老二無法戰勝老大,那麼就把老大賴以生存的東西開源吧”。當年Yahoo!與Google還是處在強烈競 爭關係時候,招聘了Doug(Hadoop創始人),把Google老大賴以生存的DFS與Map-Reduce開源了,開始了Hadoop的童年時期。 差不多在2008年的時候,Hadoop才算逐漸成熟。

從初創到現在,Hadoop經過了至少7年的積累,現在的Hadoop不僅是當年的老二Yahoo的專用產品了,從Hadoop長長的使用者名稱單中, 可以看到Facebook、Linkedin、Amazon,可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple、 HP…國內的公司有淘寶、百度等等。

本文將對Hadoop七年(2004-2011)的發展歷程進行梳理。讀完本文後,將不難看出,Hadoop的發展基本上經歷了這樣一個過程:從一個開源的Apache基金會專案,隨著越來越多的使用者的加入,不斷地 使用、貢獻和完善,形成一個強大的生態系統,從2009年開始,隨著雲端計算和大資料的發展,Hadoop作為海量資料分析的最佳解決方案,開始受到許多 IT廠商的關注,從而出現了許多Hadoop的商業版以及支援Hadoop的產品,包括軟體和硬體。

  • 2004年,Google發表論文,向全世界介紹了MapReduce。
  • 2005年初,為了支援Nutch搜尋引擎專案,Nutch的開發者基於Google釋出的MapReduce報告,在Nutch上開發了一個可工作的MapReduce應用。
  • 2005年年中,所有主要的Nutch演算法被移植到使用MapReduce和NDFS(Nutch Distributed File System )來執行。
  • 2006年1月,Doug Cutting加入雅虎,Yahoo!提供一個專門的團隊和資源將Hadoop發展成一個可在網路上執行的系統。
  • 2006年2月,Apache Hadoop專案正式啟動以支援MapReduce和HDFS的獨立發展。
  • 2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop叢集用作日誌處理。
  • 2007年,中國移動開始在“大雲”研究中使用Hadoop技術,規模超過1000臺。
  • 2008年,淘寶開始投入研究基於Hadoop的系統——雲梯,並將其用於處理電子商務相關資料。雲梯1的總容量大概為9.3PB,包含了1100臺機器,每天處理約18000道作業,掃描500TB資料。
  • 2008年1月,Hadoop成為Apache頂級專案。
  • 2008年2月,Yahoo!宣佈其搜尋引擎產品部署在一個擁有1萬個核心的Hadoop叢集上。
  • 2008年7月,Hadoop打破1TB資料排序基準測試記錄。Yahoo!的一個Hadoop叢集用209秒完成1TB資料的排序 ,比上一年的紀錄保持者保持的297秒快了將近90秒。
  • 2009 年 3 月,Cloudera推出CDH(Cloudera’s Distribution including Apache Hadoop)平臺,完全由開放原始碼軟體組成,目前已經進入第3版。
  • 2009年5月,Yahoo的團隊使用Hadoop對1 TB的資料進行排序只花了62秒時間。
  • 2009年7月 ,Hadoop Core專案更名為Hadoop Common;
  • 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成為Hadoop專案的獨立子專案。
  • 2009年7月 ,Avro 和 Chukwa 成為Hadoop新的子專案。
  • 2010年5月 ,Avro脫離Hadoop專案,成為Apache頂級專案。
  • 2010年5月 ,HBase脫離Hadoop專案,成為Apache頂級專案。
  • 2010年5月,IBM提供了基於Hadoop 的大資料分析軟體——InfoSphere BigInsights,包括基礎版和企業版。
  • 2010年9月,Hive( Facebook) 脫離Hadoop,成為Apache頂級專案。
  • 2010年9月,Pig脫離Hadoop,成為Apache頂級專案。
  • 2011年1月,ZooKeeper 脫離Hadoop,成為Apache頂級專案。
  • 2011年3月,Apache Hadoop獲得Media Guardian Innovation Awards 。
  • 2011年3月, Platform Computing 宣佈在它的Symphony軟體中支援Hadoop MapReduce API。
  • 2011年5月,Mapr Technologies公司推出分散式檔案系統和MapReduce引擎——MapR Distribution for Apache Hadoop。
  • 2011年5月,HCatalog 1.0釋出。該專案由Hortonworks 在2010年3月份提出,HCatalog主要用於解決資料儲存、後設資料的問題,主要解決HDFS的瓶頸,它提供了一個地方來儲存資料的狀態資訊,這使得 資料清理和歸檔工具可以很容易的進行處理。
  • 2011年4月,SGI( Silicon Graphics International )基於SGI Rackable和CloudRack伺服器產品線提供Hadoop優化的解決方案。
  • 2011年5月,EMC為客戶推出一種新的基於開源Hadoop解決方案的資料中心裝置——GreenPlum HD,以助其滿足客戶日益增長的資料分析需求並加快利用開源資料分析軟體。Greenplum是EMC在2010年7月收購的一家開源資料倉儲公司。
  • 2011年5月,在收購了Engenio之後, NetApp推出與Hadoop應用結合的產品E5400儲存系統。
  • 2011年6月,Calxeda公司(之前公司的名字是Smooth-Stone)發起了“開拓者行動”,一個由10家軟體公司組成的團隊將為基於Calxeda即將推出的ARM系統上晶片設計的伺服器提供支援。併為Hadoop提供低功耗伺服器技術。
  • 2011年6月,資料整合供應商Informatica釋出了其旗艦產品,產品設計初衷是處理當今事務和社會媒體所產生的海量資料,同時支援Hadoop。
  • 2011年7月,Yahoo!和矽谷風險投資公司 Benchmark Capital建立了Hortonworks 公司,旨在讓Hadoop更加魯棒(可靠),並讓企業使用者更容易安裝、管理和使用Hadoop。
  • 2011年8月,Cloudera公佈了一項有益於合作伙伴生態系統的計劃——建立一個生態系統,以便硬體供應商、軟體供應商以及系統整合商可以一起探索如何使用Hadoop更好的洞察資料。
  • 2011年8月,Dell與Cloudera聯合推出Hadoop解決方案——Cloudera Enterprise。Cloudera Enterprise基於Dell PowerEdge C2100機架伺服器以及Dell PowerConnect 6248乙太網交換機 。

在梳理的過程中,筆者發現了上圖,它很好地展現了Hadoop生態系統是如何在使用中一步一步成長起來的。

相關文章