零基礎學習大資料Hadoop需要什麼準備?Hadoop如何發展起來的?

大資料學習發表於2019-06-17
Hadoop是一個由Apache基金會所開發的分散式系統基礎架構,是用Java語言開發的一個開源分散式計算平臺,適合大資料的分散式儲存和計算平臺。今天加米穀大資料就來簡單介紹一下Hadoop的簡史,以及學習Hadoop前要做哪些準備。

狹義上,Hadoop就是單獨指代Hadoop這個軟體;

廣義上,Hadoop指代大資料的一個生態圈,包括很多其他的軟體。

零基礎學習大資料Hadoop需要什麼準備?Hadoop如何發展起來的?

Hadoop的起源

1、2001年,Nutch問世。Nutch的設計目標是構建一個大型的全網搜尋引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴充套件性問題;

2、2003-2004年,Google釋出論文:GFS、MapReduce,受此啟發的Doug Cutting等人實現了NDFS(HDFS的前身)和MapReduce機制,使Nutch效能飆升;

GFS:Google的分散式檔案系統Google File System

MapReduce:Google的MapReduce開源分散式平行計算框架

3、2005年,Hadoop作為Lucene的子專案Nutch的一部分正式引入Apache基金會;

4、2006年,Hadoop(HDFS+MapReduce)從Nutch中剝離成為獨立專案。Doug Cutting加入Yahoo,領導Hadoop的開發。

.在入門學大資料的過程當中有遇見學習,行業,缺乏系統學習路線,系統學習規劃,歡迎你加入我的大資料學習交流裙:529867072 ,裙檔案有我這幾年整理的大資料學習手冊,開發工具,PDF文件書籍,你可以自行下載。

Hadoop的發展簡史

5、2006年,Apache Hadoop專案正式啟動以支援MapReduce和HDFS的獨立發展;Yahoo建設了第一個Hadoop叢集用於開發;4月,第一個Apache Hadoop釋出;11月,Google發表了Bigtable論文,Hbase的建立的靈感來源;

BigTable:一個大型的分散式資料庫

演變關係:

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

6、2007年,第一個Hadoop使用者組會議召開,社群貢獻開始急劇上升;同年,Facebook開始使用Hadoop,百度開始使用Hadoop做離線處理,中國移動開始研究使用Hadoop;

7、2008年,Hive、HBase問世,Hadoop成為Apache頂級專案。8月,第一個Hadoop商業化公司Cloudera成立。同年,淘寶開始使用Hadoop;

8、2009年-2012年,Hadoop不斷髮展。

2009年Cloudera推出CDH平臺(首個Hadoop發行版),完全由開放原始碼軟體組成。《Hadoop權威指南》初版出版(被譽為Hadoop聖經);2010年,HBase、Hive( Facebook) 、Pig脫離Hadoop,均成為Apache頂級專案;Hadoop社群建立大量新元件(Crunch,Sqoop,Flume,Oozie等)來擴充套件Hadoop的使用場景和可用性;2011年,ZooKeeper 脫離Hadoop,成為Apache頂級專案;加米穀大資料培訓機構,6月大資料開發0基礎班、提高班,即將開課,預報名中... 2012年,Yarn成為Hadoop子專案;

9、2014年,Spark逐漸代替MapReduce成為Hadoop的預設執行引擎,併成為Apache基金會頂級專案。

Hadoop能幹什麼?

大資料儲存:分散式儲存

日誌處理:擅長日誌分析

ETL:資料抽取到oracle、mysql、DB2、mongdb及主流資料庫

機器學習: 比如Apache Mahout專案

搜尋引擎:Hadoop + lucene實現

資料探勘:目前比較流行的廣告推薦,個性化廣告推薦

Hadoop是專為離線和大規模資料分析而設計的,並不適合那種對幾個記錄隨機讀寫的線上事務處理模式。

學習Hadoop前的準備:

準備電腦(用於學習):記憶體最少8G、CPU起碼四核(cpu i5 系列)

支援平臺:Linux(CentOS)(產品開發和執行的平臺)

所需軟體:以Linux為例

  1. Java8.0,必須安裝,建議選擇Oracle公司發行的Java版本。
  2. ssh  必須安裝並且保證  sshd 一直執行,以便用Hadoop 指令碼管理遠端Hadoop守護程式。

安裝所需軟體:以Linux為例

$ sudo yum install ssh

$ sudo yum install rsync

下載Hadoop的發行版並解壓安裝


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2647851/,如需轉載,請註明出處,否則將追究法律責任。

相關文章