大資料技術之Hadoop（入門）第2章從Hadoop框架討論大資料生態

尚矽谷鐵桿粉絲發表於2018-08-08

原文網址 : https://blog.csdn.net/sggtgfs/article/details/81502703

大資料Hadoop框架

2.1 Hadoop是什麼

1）Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。

2）主要解決，海量資料的儲存和海量資料的分析計算問題。

3）廣義上來說，HADOOP通常是指一個更廣泛的概念——HADOOP生態圈。

2.2 Hadoop發展歷史

1）Lucene是Doug Cutting開創的開源軟體，用java書寫程式碼，實現與Google類似的全文搜尋功能，它提供了全文檢索引擎的架構，包括完整的查詢引擎和索引引擎

2）2001年年底成為Apache基金會的一個子專案

3）對於大數量的場景，Lucene面對與Google同樣的困難

4）學習和模仿Google解決這些問題的辦法：微型版Nutch

5）可以說Google是hadoop的思想之源(Google在大資料方面的三篇論文)

GFS --->HDFS

Map-Reduce --->MR

BigTable --->Hbase

6）2003-2004年，Google公開了部分GFS和Mapreduce思想的細節，以此為基礎Doug Cutting等人用了2年業餘時間實現了DFS和Mapreduce機制，使Nutch效能飆升

7）2005 年Hadoop 作為 Lucene的子專案 Nutch的一部分正式引入Apache基金會。2006 年 3 月份，Map-Reduce和Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的專案中

8）名字來源於Doug Cutting兒子的玩具大象

9）Hadoop就此誕生並迅速發展，標誌這雲端計算時代來臨

2.3 Hadoop三大發行版本

Hadoop三大發行版本：Apache、Cloudera、Hortonworks。

Apache版本最原始（最基礎）的版本，對於入門學習最好。

Cloudera在大型網際網路企業中用的較多。

Hortonworks文件較好。

1）Apache Hadoop

官網地址：http://hadoop.apache.org/releases.html

下載地址：https://archive.apache.org/dist/hadoop/common/

2）Cloudera Hadoop

官網地址：https://www.cloudera.com/downloads/cdh/5-10-0.html

下載地址：http://archive-primary.cloudera.com/cdh5/cdh/5/

（1）2008年成立的Cloudera是最早將Hadoop商用的公司，為合作伙伴提供Hadoop的商用解決方案，主要是包括支援、諮詢服務、培訓。

（2）2009年Hadoop的創始人Doug Cutting也加盟Cloudera公司。Cloudera產品主要為CDH，Cloudera Manager，Cloudera Support

（3）CDH是Cloudera的Hadoop發行版，完全開源，比Apache Hadoop在相容性，安全性，穩定性上有所增強。

（4）Cloudera Manager是叢集的軟體分發及管理監控平臺，可以在幾個小時內部署好一個Hadoop叢集，並對叢集的節點及服務進行實時監控。Cloudera Support即是對Hadoop的技術支援。

（5）Cloudera的標價為每年每個節點4000美元。Cloudera開發並貢獻了可實時處理大資料的Impala專案。

3）Hortonworks Hadoop

官網地址：https://hortonworks.com/products/data-center/hdp/

下載地址：https://hortonworks.com/downloads/#data-platform

（1）2011年成立的Hortonworks是雅虎與矽谷風投公司Benchmark Capital合資組建。

（2）公司成立之初就吸納了大約25名至30名專門研究Hadoop的雅虎工程師，上述工程師均在2005年開始協助雅虎開發Hadoop，貢獻了Hadoop80%的程式碼。

（3）雅虎工程副總裁、雅虎Hadoop開發團隊負責人Eric Baldeschwieler出任Hortonworks的執行長。

（4）Hortonworks的主打產品是Hortonworks Data Platform（HDP），也同樣是100%開源的產品，HDP除常見的專案外還包括了Ambari，一款開源的安裝和管理系統。

（5）HCatalog，一個後設資料管理系統，HCatalog現已整合到Facebook開源的Hive中。Hortonworks的Stinger開創性的極大的優化了Hive專案。Hortonworks為入門提供了一個非常好的，易於使用的沙盒。

（6）Hortonworks開發了很多增強特性並提交至核心主幹，這使得Apache Hadoop能夠在包括Window Server和Windows Azure在內的microsoft Windows平臺上本地執行。定價以叢集為基礎，每10個節點每年為12500美元。

2.4 Hadoop的優勢

1）高可靠性：Hadoop底層維護多個資料副本，所以即使Hadoop某個計算元素或儲存出現故障，也不會導致資料的丟失。

2）高擴充套件性：在叢集間分配任務資料，可方便的擴充套件數以千計的節點。

3）高效性：在MapReduce的思想下，Hadoop是並行工作的，以加快任務處理速度。

4）高容錯性：能夠自動將失敗的任務重新分配。

2.5 Hadoop組成

在Hadoop1.x時代，Hadoop中的MapReduce同時處理業務邏輯運算和資源的排程，耦合性較大。

在Hadoop2.x時代，增加了Yarn。Yarn只負責資源的排程，MapReduce只負責運算。

2.5.1 HDFS架構概述

2.5.2 YARN架構概述

2.5.3 MapReduce架構概述

MapReduce將計算過程分為兩個階段：Map和Reduce

1）Map階段並行處理輸入資料

2）Reduce階段對Map結果進行彙總

2.6 大資料技術生態體系

圖中涉及的技術名詞解釋如下：

1）Sqoop：sqoop是一款開源的工具，主要用於在Hadoop(Hive)與傳統的資料庫(mysql)間進行資料的傳遞，可以將一個關係型資料庫（例如： MySQL ,Oracle 等）中的資料導進到Hadoop的HDFS中，也可以將HDFS的資料導進到關係型資料庫中。

2）Flume：Flume是Cloudera提供的一個高可用的，高可靠的，分散式的海量日誌採集、聚合和傳輸的系統，Flume支援在日誌系統中定製各類資料傳送方，用於收集資料；同時，Flume提供對資料進行簡單處理，並寫到各種資料接受方（可定製）的能力。

3）Kafka：Kafka是一種高吞吐量的分散式釋出訂閱訊息系統，有如下特性：

（1）通過O(1)的磁碟資料結構提供訊息的持久化，這種結構對於即使數以TB的訊息儲存也能夠保持長時間的穩定效能。

（2）高吞吐量：即使是非常普通的硬體Kafka也可以支援每秒數百萬的訊息。

（3）支援通過Kafka伺服器和消費機叢集來分割槽訊息。

（4）支援Hadoop並行資料載入。

4）Storm：Storm為分散式實時計算提供了一組通用原語，可被用於“流處理”之中，實時處理訊息並更新資料庫。這是管理佇列及工作者叢集的另一種方式。 Storm也可被用於“連續計算”（continuous computation），對資料流做連續查詢，在計算時就將結果以流的形式輸出給使用者。

5）Spark：Spark是當前最流行的開源大資料記憶體計算框架。可以基於Hadoop上儲存的大資料進行計算。

6）Oozie：Oozie是一個管理Hdoop作業（job）的工作流程排程管理系統。Oozie協調作業就是通過時間（頻率）和有效資料觸發當前的Oozie工作流程。

7）Hbase：HBase是一個分散式的、面向列的開源資料庫。HBase不同於一般的關聯式資料庫，它是一個適合於非結構化資料儲存的資料庫。

8）Hive：hive是基於Hadoop的一個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行執行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合資料倉儲的統計分析。

10）R語言：R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、原始碼開放的軟體，它是一個用於統計計算和統計製圖的優秀工具。

11）Mahout:

Apache Mahout是個可擴充套件的機器學習和資料探勘庫，當前Mahout支援主要的4個用例：

推薦挖掘：蒐集使用者動作並以此給使用者推薦可能喜歡的事物。

聚集：收集檔案並進行相關檔案分組。

分類：從現有的分類文件中學習，尋找文件中的相似特徵，併為無標籤的文件進行正確的歸類。

頻繁項集挖掘：將一組項分組，並識別哪些個別項會經常一起出現。

12）ZooKeeper：Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分散式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分散式同步、組服務等。ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務，將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。

2.7 推薦系統框架圖

本教程由尚矽谷教育大資料研究院出品，如需轉載請註明來源。

Hadoop系列002-從Hadoop框架討論大資料生態
2018-12-01
Hadoop框架大資料
Hadoop基礎（二）：從Hadoop框架討論大資料生態
2020-07-11
Hadoop框架大資料
大資料技術之Hadoop（入門）第1章大資料概論
2018-08-08
大資料Hadoop
大資料技術之Hadoop（入門）第3章 Hadoop執行環境搭建
2018-08-09
大資料Hadoop
大資料入門學習之Hadoop技術優缺點
2019-06-05
大資料Hadoop
Hadoop v3.1 大資料技術快速入門
2022-06-21
Hadoop大資料
大資料hadoop入門之hadoop家族產品詳解
2018-12-26
大資料Hadoop
《Hadoop大資料分析技術》簡介
2022-11-25
Hadoop大資料
淺析大資料框架 Hadoop
2021-07-27
大資料框架Hadoop
大資料技術與Hadoop之間的關係
2020-12-03
大資料Hadoop
Hadoop大資料探勘從入門到進階實戰
2018-06-22
Hadoop大資料
大資料hadoop資料
2018-08-03
大資料Hadoop
好程式設計師大資料入門學習之Hadoop技術優缺點
2019-03-29
程式設計師大資料Hadoop
大資料生態圈技術框架總攬
2019-01-07
大資料框架
大資料入門：Hadoop Yarn元件基礎解析
2020-11-26
大資料HadoopYarn元件
Hadoop大資料部署
2018-11-02
Hadoop大資料
大資料hadoop工具
2018-12-20
大資料Hadoop
Hadoop系列001-大資料概論
2018-12-01
Hadoop大資料
Hadoop大資料開發框架學習
2018-08-31
Hadoop大資料框架
大資料測試之hadoop初探
2019-08-07
大資料Hadoop
Hadoop大資料實戰系列文章之安裝Hadoop
2020-11-05
Hadoop大資料
Hadoop高階資料分析使用Hadoop生態系統設計和構建大資料系統
2018-11-28
Hadoop大資料
BDA：Hadoop生態大資料工具的漏洞掃描器
2021-12-28
Hadoop大資料
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
**大資料hadoop瞭解**
2018-12-18
大資料Hadoop
大資料之 Hadoop學習筆記
2018-12-14
大資料Hadoop筆記
Hadoop大資料平臺之HBase部署
2020-11-24
Hadoop大資料
Hadoop大資料平臺之Kafka部署
2020-11-24
Hadoop大資料Kafka
Hadoop大資料實戰系列文章之Mapreduce 計算框架
2020-11-10
Hadoop大資料框架
大資料實戰之hadoop生態概況和官網文件解讀
2020-12-20
大資料Hadoop
hadoop大資料平臺安全基礎知識入門
2019-08-05
Hadoop大資料
十大國內外知名大資料專家探討：Hadoop是生是死？
2018-08-15
大資料Hadoop
小白學習大資料測試之hadoop
2018-09-02
大資料Hadoop
Hadoop大資料實戰系列文章之Hive
2020-11-16
Hadoop大資料Hive
Hadoop大資料實戰系列文章之Zookeeper
2020-11-10
Hadoop大資料
Hadoop大資料實戰系列文章之HBase
2020-11-11
Hadoop大資料
大資料之Hadoop偽分散式的搭建
2019-04-23
大資料Hadoop分散式
IT十年-大資料系列講解之hadoop生態系統及版本演化
2018-04-08
大資料Hadoop

大資料技術之Hadoop（入門） 第2章 從Hadoop框架討論大資料生態