Hadoop發展史以及編年史

chenfeng發表於2016-03-31
2002年10月,Doug Cutting和Mike Cafarella建立了開源網頁爬蟲專案Nutch。
2003年10月,Google發表Google File System論文。
2004年7月,Doug Cutting和Mike Cafarella在Nutch中實現了類似GFS的功能,即後來HDFS的前身。
2004年10月,Google發表了MapReduce論文。
2005年2月,Mike Cafarella在Nutch中實現了MapReduce的最初版本。
2005年12月,開源搜尋專案Nutch移植到新框架,使用MapReduce和NDFS(Nutch Distributed File System )來執行,在20個節點穩定執行。
2006年1月,Doug Cutting加入雅虎,Yahoo!提供一個專門的團隊和資源將Hadoop發展成一個可在網路上執行的系統。
2006年2月,Apache Hadoop專案正式啟動以支援MapReduce和HDFS的獨立發展。
2006年2月,Yahoo!的網格計算團隊採用Hadoop。
2006年3月,Yahoo!建設了第一個Hadoop叢集用於開發。
2006年4月,第一個Apache Hadoop釋出。
2006年4月,在188個節點上(每個節點10GB)執行排序測試集需要47.9個小時。
2006年5月,Yahoo!建立了一個300個節點的Hadoop研究叢集。
2006年5月,在500個節點上執行排序測試集需要42個小時(硬體配置比4月的更好)。
2006年11月,研究叢集增加到600個節點。
2006年11月,Google發表了Bigtable論文,這最終激發了HBase的建立。
2006年12月,排序測試集在20個節點上執行1.8個小時,100個節點上執行3.3小時,500個節點上執行5.2小時,900個節點上執行7.8個小時。
2007年1月,研究叢集增加到900個節點。
2007年4月,研究叢集增加到兩個1000個節點的叢集。
2007年10月,第一個Hadoop使用者組會議召開,社群貢獻開始急劇上升。
2007年,百度開始使用Hadoop做離線處理。
2007年,中國移動開始在“大雲”研究中使用Hadoop技術。
2008年,淘寶開始投入研究基於Hadoop的系統——雲梯,並將其用於處理電子商務相關資料。
2008年1月,Hadoop成為Apache頂級專案。
2008年2月,Yahoo!執行了世界上最大的Hadoop應用,宣佈其搜尋引擎產品部署在一個擁有1萬個核心的Hadoop叢集上。
2008年4月,在900個節點上執行1TB排序測試集僅需209秒,成為世界最快。
2008年6月,Hadoop的第一個SQL框架——Hive成為了Hadoop的子專案。
2008年7月,Hadoop打破1TB資料排序基準測試記錄。Yahoo!的一個Hadoop叢集用209秒完成1TB資料的排序 ,比上一年的紀錄保持者保持的297秒快了將近90秒。
2008年8月,第一個Hadoop商業化公司Cloudera成立。
2008年10月,研究叢集每天裝載10TB的資料。
2008年11月,Apache Pig的最初版本釋出。
2009年3月,17個叢集總共24000臺機器。
2009 年3月,Cloudera推出世界上首個Hadoop發行版——CDH(Cloudera's Distribution including Apache Hadoop)平臺,完全由開放原始碼軟體組成。
2009年4月,贏得每分鐘排序,59秒內排序500GB(在1400個節點上)和173分鐘內排序100TB資料(在3400個節點上)。
2009年5月,Yahoo的團隊使用Hadoop對1 TB的資料進行排序只花了62秒時間。
2009年6月,Cloudera的工程師Tom White編寫的《Hadoop權威指南》初版出版,後被譽為Hadoop聖經。
2009年7月 ,Hadoop Core專案更名為Hadoop Common;
2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成為Hadoop專案的獨立子專案。
2009年7月 ,Avro 和 Chukwa 成為Hadoop新的子專案。
2009年8月,Hadoop創始人Doug Cutting加入Cloudera擔任首席架構師。
2009年10月,首屆Hadoop World大會在紐約召開。
2010年5月 ,Avro脫離Hadoop專案,成為Apache頂級專案。
2010年5月 ,HBase脫離Hadoop專案,成為Apache頂級專案。
2010年5月,IBM提供了基於Hadoop 的大資料分析軟體——InfoSphere BigInsights,包括基礎版和企業版。
2010年9月,Hive( Facebook) 脫離Hadoop,成為Apache頂級專案。
2010年9月,Pig脫離Hadoop,成為Apache頂級專案。
2010年-2011年,擴大的Hadoop社群忙於建立大量的新元件(Crunch,Sqoop,Flume,Oozie等)來擴充套件Hadoop的使用場景和可用性。
2011年1月,ZooKeeper 脫離Hadoop,成為Apache頂級專案。
2011年3月,Apache Hadoop獲得Media Guardian Innovation Awards 。
2011年3月, Platform Computing 宣佈在它的Symphony軟體中支援Hadoop MapReduce API。
2011年5月,Mapr Technologies公司推出分散式檔案系統和MapReduce引擎——MapR Distribution for Apache Hadoop。
2011年5月,HCatalog 1.0釋出。該專案由Hortonworks 在2010年3月份提出,HCatalog主要用於解決資料儲存、後設資料的問題,主要解決HDFS的瓶頸,它提供了一個地方來儲存資料的狀態資訊,這使得 資料清理和歸檔工具可以很容易的進行處理。
2011年4月,SGI(Silicon Graphics International)基於SGI Rackable和CloudRack伺服器產品線提供Hadoop最佳化的解決方案。
2011年5月,EMC為客戶推出一種新的基於開源Hadoop解決方案的資料中心裝置——GreenPlum HD,以助其滿足客戶日益增長的資料分析需求並加快利用開源資料分析軟體。Greenplum是EMC在2010年7月收購的一家開源資料倉儲公司。
2011年5月,在收購了Engenio之後, NetApp推出與Hadoop應用結合的產品E5400儲存系統。
2011年6月,Calxeda公司發起了“開拓者行動”,一個由10家軟體公司組成的團隊將為基於Calxeda即將推出的ARM系統上晶片設計的伺服器提供支援。併為Hadoop提供低功耗伺服器技術。
2011年6月,資料整合供應商Informatica釋出了其旗艦產品,產品設計初衷是處理當今事務和社會媒體所產生的海量資料,同時支援Hadoop。
2011年7月,Yahoo!和矽谷風險投資公司 Benchmark Capital建立了Hortonworks 公司,旨在讓Hadoop更加可靠,並讓企業使用者更容易安裝、管理和使用Hadoop。
2011年8月,Cloudera公佈了一項有益於合作伙伴生態系統的計劃——建立一個生態系統,以便硬體供應商、軟體供應商以及系統整合商可以一起探索如何使用Hadoop更好的洞察資料。
2011年8月,Dell與Cloudera聯合推出Hadoop解決方案——Cloudera Enterprise。Cloudera Enterprise基於Dell PowerEdge C2100機架伺服器以及Dell PowerConnect 6248乙太網交換機。
2012年3月,企業必須的重要功能HDFS NameNode HA被加入Hadoop主版本。
2012年8月,另外一個重要的企業適用功能YARN成為Hadoop子專案。
2012年10月,第一個Hadoop原生MPP查詢引擎Impala加入到了Hadoop生態圈。
2014年2月,Spark逐漸代替MapReduce成為Hadoop的預設執行引擎,併成為Apache基金會頂級專案。
2015年2月,Hortonworks和Pivotal抱團提出“Open Data Platform”的倡議,受到傳統企業如Microsoft、IBM等企業支援,但其它兩大Hadoop廠商Cloudera和MapR拒絕參與。
2015年10月,Cloudera公佈繼HBase以後的第一個Hadoop原生儲存替代方案——Kudu。
2015年12月,Cloudera發起的Impala和Kudu專案加入Apache孵化器。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/15498/viewspace-2073035/,如需轉載,請註明出處,否則將追究法律責任。

相關文章