Hadoop基礎（二）：從Hadoop框架討論大資料生態

秋華發表於2020-07-11

原文網址 : https://www.cnblogs.com/qiu-hua/p/13286025.html

Hadoop框架大資料

1 Hadoop是什麼

2 Hadoop三大發行版本

Hadoop三大發行版本：Apache、Cloudera、Hortonworks。

Apache版本最原始（最基礎）的版本，對於入門學習最好。

Cloudera在大型網際網路企業中用的較多。

Hortonworks文件較好。

Apache Hadoop

官網地址：http://hadoop.apache.org/releases.html

下載地址：https://archive.apache.org/dist/hadoop/common/

Cloudera Hadoop

官網地址：https://www.cloudera.com/downloads/cdh/5-10-0.html

下載地址：http://archive-primary.cloudera.com/cdh5/cdh/5/

（1）2008年成立的Cloudera是最早將Hadoop商用的公司，為合作伙伴提供Hadoop的商用解決方案，主要是包括支援、諮詢服務、培訓。

（2）2009年Hadoop的創始人Doug Cutting也加盟Cloudera公司。Cloudera產品主要為CDH，Cloudera Manager，Cloudera Support

（3）CDH是Cloudera的Hadoop發行版，完全開源，比Apache Hadoop在相容性，安全性，穩定性上有所增強。

（4）Cloudera Manager是叢集的軟體分發及管理監控平臺，可以在幾個小時內部署好一個Hadoop叢集，並對叢集的節點及服務進行實時監控。Cloudera Support即是對Hadoop的技術支援。

（5）Cloudera的標價為每年每個節點4000美元。Cloudera開發並貢獻了可實時處理大資料的Impala專案。

3. Hortonworks Hadoop

官網地址：https://hortonworks.com/products/data-center/hdp/

下載地址：https://hortonworks.com/downloads/#data-platform

（1）2011年成立的Hortonworks是雅虎與矽谷風投公司Benchmark Capital合資組建。

（2）公司成立之初就吸納了大約25名至30名專門研究Hadoop的雅虎工程師，上述工程師均在2005年開始協助雅虎開發Hadoop，貢獻了Hadoop80%的程式碼。

（3）雅虎工程副總裁、雅虎Hadoop開發團隊負責人Eric Baldeschwieler出任Hortonworks的執行長。

（4）Hortonworks的主打產品是Hortonworks Data Platform（HDP），也同樣是100%開源的產品，HDP除常見的專案外還包括了Ambari，一款開源的安裝和管理系統。

（5）HCatalog，一個後設資料管理系統，HCatalog現已整合到Facebook開源的Hive中。Hortonworks的Stinger開創性的極大的優化了Hive專案。Hortonworks為入門提供了一個非常好的，易於使用的沙盒。

（6）Hortonworks開發了很多增強特性並提交至核心主幹，這使得Apache Hadoop能夠在包括Window Server和Windows Azure在內的Microsoft Windows平臺上本地執行。定價以叢集為基礎，每10個節點每年為12500美元。

3Hadoop的優勢（4高）

4 Hadoop組成（面試重點）

Hadoop1.x與Hadoop2.x的區別

4.1 HDFS架構概述

HDFS（Hadoop Distributed File System）的架構概述，如圖2-23所示。

圖2-23 HDFS架構概述

4.2 YARN架構概述

YARN架構概述，如圖2-24所示。

圖2-24 YARN架構概述

4.3 MapReduce架構概述

MapReduce將計算過程分為兩個階段：Map和Reduce，如圖2-25所示

1）Map階段並行處理輸入資料

2）Reduce階段對Map結果進行彙總

5 大資料技術生態體系

圖中涉及的技術名詞解釋如下：

1）Sqoop：Sqoop是一款開源的工具，主要用於在Hadoop、Hive與傳統的資料庫(MySql)間進行資料的傳遞，可以將一個關係型資料庫（例如：MySQL，Oracle 等）中的資料導進到Hadoop的HDFS中，也可以將HDFS的資料導進到關係型資料庫中。

2）Flume：Flume是Cloudera提供的一個高可用的，高可靠的，分散式的海量日誌採集、聚合和傳輸的系統，Flume支援在日誌系統中定製各類資料傳送方，用於收集資料；同時，Flume提供對資料進行簡單處理，並寫到各種資料接受方（可定製）的能力。

3）Kafka：Kafka是一種高吞吐量的分散式釋出訂閱訊息系統，有如下特性：

（1）通過O(1)的磁碟資料結構提供訊息的持久化，這種結構對於即使數以TB的訊息儲存也能夠保持長時間的穩定效能。

（2）高吞吐量：即使是非常普通的硬體Kafka也可以支援每秒數百萬的訊息。

（3）支援通過Kafka伺服器和消費機叢集來分割槽訊息。

（4）支援Hadoop並行資料載入。

4）Storm：Storm用於“連續計算”，對資料流做連續查詢，在計算時就將結果以流的形式輸出給使用者。

5）Spark：Spark是當前最流行的開源大資料記憶體計算框架。可以基於Hadoop上儲存的大資料進行計算。

6）Oozie：Oozie是一個管理Hdoop作業（job）的工作流程排程管理系統。

7）Hbase：HBase是一個分散式的、面向列的開源資料庫。HBase不同於一般的關聯式資料庫，它是一個適合於非結構化資料儲存的資料庫。

8）Hive：Hive是基於Hadoop的一個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的SQL查詢功能，可以將SQL語句轉換為MapReduce任務進行執行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合資料倉儲的統計分析。

10）R語言：R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、原始碼開放的軟體，它是一個用於統計計算和統計製圖的優秀工具。

11）Mahout：Apache Mahout是個可擴充套件的機器學習和資料探勘庫。

12）ZooKeeper：Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分散式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分散式同步、組服務等。ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務，將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。

6 推薦系統框架圖

Hadoop系列002-從Hadoop框架討論大資料生態
2018-12-01
Hadoop框架大資料
大資料技術之Hadoop（入門）第2章從Hadoop框架討論大資料生態
2018-08-08
大資料Hadoop框架
Hadoop 基礎之生態圈
2019-04-29
Hadoop
淺析大資料框架 Hadoop
2021-07-27
大資料框架Hadoop
Hadoop演進與Hadoop生態
2020-09-20
Hadoop
大資料入門：Hadoop Yarn元件基礎解析
2020-11-26
大資料HadoopYarn元件
Hadoop高階資料分析使用Hadoop生態系統設計和構建大資料系統
2018-11-28
Hadoop大資料
BDA：Hadoop生態大資料工具的漏洞掃描器
2021-12-28
Hadoop大資料
hadoop基礎知識分享(二)
2024-11-06
Hadoop
Hadoop系列001-大資料概論
2018-12-01
Hadoop大資料
大資料平臺基礎架構hadoop安全分析
2019-03-04
大資料架構Hadoop
大資料專欄 - 基礎1 Hadoop安裝配置
2021-01-10
大資料Hadoop
Hadoop大資料開發框架學習
2018-08-31
Hadoop大資料框架
Hadoop基礎
2020-03-23
Hadoop
大資料hadoop資料
2018-08-03
大資料Hadoop
hadoop大資料平臺安全基礎知識入門
2019-08-05
Hadoop大資料
十大國內外知名大資料專家探討：Hadoop是生是死？
2018-08-15
大資料Hadoop
Hadoop大資料部署
2018-11-02
Hadoop大資料
大資料hadoop工具
2018-12-20
大資料Hadoop
大資料基礎架構Hadoop，終於有人講明白了
2022-12-21
大資料架構Hadoop
零基礎學習大資料Hadoop需要什麼準備？Hadoop如何發展起來的？
2019-06-17
大資料Hadoop
**大資料hadoop瞭解**
2018-12-18
大資料Hadoop
Hadoop基礎知識
2023-12-11
Hadoop
大資料實戰之hadoop生態概況和官網文件解讀
2020-12-20
大資料Hadoop
大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink
2023-02-07
大資料框架HadoopSparkORM
Hadoop大資料實戰系列文章之安裝Hadoop
2020-11-05
Hadoop大資料
初入Hadoop生態系統
2018-11-08
Hadoop
好程式設計師大資料教學點睛：Hadoop基礎篇
2019-05-22
程式設計師大資料Hadoop
大資料技術之Hadoop（入門）第1章大資料概論
2018-08-08
大資料Hadoop
IT十年-大資料系列講解之hadoop生態系統及版本演化
2018-04-08
大資料Hadoop
有必要了解的大資料知識(二) Hadoop
2021-03-17
大資料Hadoop
大資料hadoop入門之hadoop家族產品詳解
2018-12-26
大資料Hadoop
1、大資料 Hadoop配置和單機Hadoop系統配置
2021-05-28
大資料Hadoop
淺析Hadoop基礎原理
2021-03-19
Hadoop
大資料系統框架中hadoop服務角色介紹
2018-09-11
大資料框架Hadoop
Hadoop大資料實戰系列文章之Mapreduce 計算框架
2020-11-10
Hadoop大資料框架
大資料框架之一——Hadoop學習第四天
2024-08-09
大資料框架Hadoop
大資料和Hadoop什麼關係？為什麼大資料要學習Hadoop？
2019-06-27
大資料Hadoop