零基礎學習大資料Hadoop需要什麼準備?Hadoop如何發展起來的?
Hadoop是一個由Apache基金會所開發的分散式系統基礎架構,是用Java語言開發的一個開源分散式計算平臺,適合大資料的分散式儲存和計算平臺。今天加米穀大資料就來簡單介紹一下Hadoop的簡史,以及學習Hadoop前要做哪些準備。
狹義上,Hadoop就是單獨指代Hadoop這個軟體;
廣義上,Hadoop指代大資料的一個生態圈,包括很多其他的軟體。
Hadoop的起源
1、2001年,Nutch問世。Nutch的設計目標是構建一個大型的全網搜尋引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴充套件性問題;
2、2003-2004年,Google釋出論文:GFS、MapReduce,受此啟發的Doug Cutting等人實現了NDFS(HDFS的前身)和MapReduce機制,使Nutch效能飆升;
GFS:Google的分散式檔案系統Google File System
MapReduce:Google的MapReduce開源分散式平行計算框架
3、2005年,Hadoop作為Lucene的子專案Nutch的一部分正式引入Apache基金會;
4、2006年,Hadoop(HDFS+MapReduce)從Nutch中剝離成為獨立專案。Doug Cutting加入Yahoo,領導Hadoop的開發。
.在入門學大資料的過程當中有遇見學習,行業,缺乏系統學習路線,系統學習規劃,歡迎你加入我的大資料學習交流裙:529867072 ,裙檔案有我這幾年整理的大資料學習手冊,開發工具,PDF文件書籍,你可以自行下載。
Hadoop的發展簡史
5、2006年,Apache Hadoop專案正式啟動以支援MapReduce和HDFS的獨立發展;Yahoo建設了第一個Hadoop叢集用於開發;4月,第一個Apache Hadoop釋出;11月,Google發表了Bigtable論文,Hbase的建立的靈感來源;
BigTable:一個大型的分散式資料庫
演變關係:
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase
6、2007年,第一個Hadoop使用者組會議召開,社群貢獻開始急劇上升;同年,Facebook開始使用Hadoop,百度開始使用Hadoop做離線處理,中國移動開始研究使用Hadoop;
7、2008年,Hive、HBase問世,Hadoop成為Apache頂級專案。8月,第一個Hadoop商業化公司Cloudera成立。同年,淘寶開始使用Hadoop;
8、2009年-2012年,Hadoop不斷髮展。
2009年Cloudera推出CDH平臺(首個Hadoop發行版),完全由開放原始碼軟體組成。《Hadoop權威指南》初版出版(被譽為Hadoop聖經);2010年,HBase、Hive( Facebook) 、Pig脫離Hadoop,均成為Apache頂級專案;Hadoop社群建立大量新元件(Crunch,Sqoop,Flume,Oozie等)來擴充套件Hadoop的使用場景和可用性;2011年,ZooKeeper 脫離Hadoop,成為Apache頂級專案;加米穀大資料培訓機構,6月大資料開發0基礎班、提高班,即將開課,預報名中... 2012年,Yarn成為Hadoop子專案;
9、2014年,Spark逐漸代替MapReduce成為Hadoop的預設執行引擎,併成為Apache基金會頂級專案。
Hadoop能幹什麼?
大資料儲存:分散式儲存
日誌處理:擅長日誌分析
ETL:資料抽取到oracle、mysql、DB2、mongdb及主流資料庫
機器學習: 比如Apache Mahout專案
搜尋引擎:Hadoop + lucene實現
資料探勘:目前比較流行的廣告推薦,個性化廣告推薦
Hadoop是專為離線和大規模資料分析而設計的,並不適合那種對幾個記錄隨機讀寫的線上事務處理模式。
學習Hadoop前的準備:
準備電腦(用於學習):記憶體最少8G、CPU起碼四核(cpu i5 系列)
支援平臺:Linux(CentOS)(產品開發和執行的平臺)
所需軟體:以Linux為例
- Java8.0,必須安裝,建議選擇Oracle公司發行的Java版本。
- ssh 必須安裝並且保證 sshd 一直執行,以便用Hadoop 指令碼管理遠端Hadoop守護程式。
安裝所需軟體:以Linux為例
$ sudo yum install ssh
$ sudo yum install rsync
下載Hadoop的發行版並解壓安裝
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2647851/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 零基礎學習hadoop開發需要的必備的技能Hadoop
- 學習hadoop需要什麼基礎?Hadoop
- 大資料和Hadoop什麼關係?為什麼大資料要學習Hadoop?大資料Hadoop
- ios零基礎學習 準備什麼,如何去學習iOS
- 好程式設計師大資料分享零基礎學習Hadoop該如何下手程式設計師大資料Hadoop
- Hadoop大資料開發框架學習Hadoop大資料框架
- 學雲端計算前景如何?零基礎學習雲端計算需要準備什麼?
- 什麼是大資料?零基礎如何學習大資料?(附學習路線)大資料
- 零基礎如何學好大資料?必備需要學習知識大資料
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 大資料之 Hadoop學習筆記大資料Hadoop筆記
- 想轉行大資料,如何開始學習 Hadoop?大資料Hadoop
- 零基礎學習hadoop開發先明白這層關係Hadoop
- 零基礎學Java需要做哪些準備?Java
- 如何學習HadoopHadoop
- 小白學習大資料測試之hadoop大資料Hadoop
- 大資料開發需要學習什麼?大資料平臺是什麼?大資料
- 學習大資料需要什麼基礎?大資料要學哪些內容?大資料
- 零基礎學習大資料為什麼找不到工作?大資料
- 學習web前端需要做什麼樣的準備?Web前端
- Hadoop基礎(二):從Hadoop框架討論大資料生態Hadoop框架大資料
- Linux可以零基礎學習嗎?需要學什麼?Linux
- 大資料開發學習Hadoop路線圖(詳細篇)大資料Hadoop
- 零基礎學習Python需要注意什麼Python
- 大資料hadoop資料大資料Hadoop
- 零基礎學習 Python 之前期準備Python
- 大資料與Hadoop之間是什麼關係?大資料Hadoop
- 大資料Hadoop系統性學習路線圖大資料Hadoop
- Hadoop技術內幕:深入解析Hadoop和HDFS 1.3準備 Hadoop 原始碼Hadoop原始碼
- Hadoop大資料部署Hadoop大資料
- 大資料hadoop工具大資料Hadoop
- 初學者入門大資料,學習Hadoop的5個理由大資料Hadoop
- 0基礎學網路安全需要做什麼準備?
- 零基礎大資料學習框架大資料框架
- Hadoop - 企業級大資料管理平臺CDH(介紹和準備工作)Hadoop大資料
- 零基礎學習UI設計到底需要學些什麼?UI
- 轉型進入IT行業,0基礎學習大資料開發需要什麼基礎?行業大資料
- Hadoop學習Hadoop