IT十年-大資料系列講解之hadoop生態系統及版本演化

程式設計師OfHome發表於2018-04-08

原文網址 : https://blog.csdn.net/a318804626/article/details/79852628

大資料Hadoop

HDFS：分散式儲存系統（Hadoop Distributed File System）：提供了高可靠性、高擴充套件性和高吞吐率的資料儲存服務

HDFS源自於Google的GFS論文 (發表於2003年10月 )，是GFS克隆版

YARN：資源管理系統（Yet Another Resource Negotiator）：負責叢集資源的統一管理和排程，Hadoop 2.0新增系統，使得多種計算框架可以執行在一個叢集中

微信公眾號：程式設計師OfHome

程式設計師OfHomeQQ群：610535338

MapReduce：分散式計算框架：具有易於程式設計、高容錯性和高擴充套件性等優點

MapReduce源自於Google的MapReduce論文（發表於2004年12月），是Google MapReduce克隆版

Hive：由facebook開源，基於MR的資料倉儲，資料計算使用MR，資料儲存使用HDFS，Hive 定義了一種類 SQL 查詢語言——HQL：類似SQL，但不完全相同

日誌分析：統計網站一個時間段內的pv、uv

Pig：由yahoo！開源，構建在Hadoop之上的資料倉儲

Mahout：資料探勘庫，基於Hadoop的機器學習和資料探勘的分散式計算框架，實現了三大類演算法：推薦(Recommendation) 、聚類(Clustering) 、分類(Classification)

HBase：分散式資料庫，源自Google的Bigtable論文，發表於2006年11月，是Google Bigtable克隆版

Zookeeper：分散式協作服務，源自Google的Chubby論文，發表於2006年11月，是Chubby克隆版

解決分散式環境下資料管理問題：統一命名、狀態同步、叢集管理、配置同步

Sqoop：資料同步工具，連線Hadoop與傳統資料庫之間的橋樑，支援多種資料庫，包括MySQL、DB2等，插拔式，使用者可根據需要支援新的資料庫；本質上是一個MapReduce程式

Flume：日誌收集工具，Cloudera開源的日誌收集系統

Oozie：作業流排程系統

目前計算框架和作業型別繁多： MapReduce Java、Streaming、HQL、Pig等

如何對這些框架和作業進行統一管理和排程：

不同作業之間存在依賴關係（DAG）；

週期性作業

定時執行的作業

作業執行狀態監控與報警（發郵件、簡訊等）

Hadoop發行版本

apache hadoop版本

CDH：Cloudera DistributedHadoop

HDP：Hortonworks Data Platform

建議選擇公司發行版（不必面臨版本某一個框架的選擇問題），比如CDH或HDP ，推薦使用CDH（國內主流版本）

更易維護和升級

經過整合測試，不會面臨版本相容問題

本文轉載於CSDN

PS：

關注微信公眾號“程式設計師OfHome”，傳送“領取資料”可以免費領取視訊資料。

對大資料感興趣的朋友可以加入到我們的程式設計師OfHomeQQ群：610535338 群裡有都是從事或者在學習大資料的朋友，在此我也邀請你進群一起學習，群內沒有廣告，也是禁止打廣告的，大家也可以關注一下我的微信公共號“程式設計師OfHome”下方掃掃可關注。