IT十年-大資料系列講解之hadoop生態系統及版本演化

程式設計師OfHome發表於2018-04-08


HDFS:分散式儲存系統(Hadoop Distributed File System):提供了高可靠性、高擴充套件性和高吞吐率的資料儲存服務

HDFS源自於Google的GFS論文 (發表於2003年10月 ),是GFS克隆版

YARN:資源管理系統(Yet Another Resource Negotiator):負責叢集資源的統一管理和排程,Hadoop 2.0新增系統,使得多種計算框架可以執行在一個叢集中

微信公眾號:程式設計師OfHome

程式設計師OfHomeQQ群:610535338

MapReduce:分散式計算框架:具有易於程式設計、高容錯性和高擴充套件性等優點

MapReduce源自於Google的MapReduce論文 (發表於2004年12月),是Google MapReduce克隆版

Hive:由facebook開源,基於MR的資料倉儲,資料計算使用MR,資料儲存使用HDFS,Hive 定義了一種類 SQL 查詢語言——HQL:類似SQL,但不完全相同

日誌分析:統計網站一個時間段內的pv、uv

Pig:由yahoo!開源,構建在Hadoop之上的資料倉儲

Mahout:資料探勘庫,基於Hadoop的機器學習和資料探勘的分散式計算框架,實現了三大類演算法 :推薦(Recommendation) 、聚類(Clustering) 、分類(Classification)

HBase:分散式資料庫,源自Google的Bigtable論文 ,發表於2006年11月 ,是Google Bigtable克隆版

Zookeeper:分散式協作服務,源自Google的Chubby論文 ,發表於2006年11月 ,是Chubby克隆版

解決分散式環境下資料管理問題 :統一命名 、狀態同步 、叢集管理 、配置同步

Sqoop:資料同步工具,連線Hadoop與傳統資料庫之間的橋樑 ,支援多種資料庫,包括MySQL、DB2等 ,插拔式,使用者可根據需要支援新的資料庫 ;本質上是一個MapReduce程式

Flume:日誌收集工具,Cloudera開源的日誌收集系統

Oozie:作業流排程系統

目前計算框架和作業型別繁多: MapReduce Java、Streaming、HQL、Pig等

如何對這些框架和作業進行統一管理和排程:

不同作業之間存在依賴關係(DAG);

週期性作業

定時執行的作業

作業執行狀態監控與報警(發郵件、簡訊等)

Hadoop發行版本

apache hadoop版本

CDH:Cloudera DistributedHadoop

HDP:Hortonworks Data Platform

建議選擇公司發行版(不必面臨版本某一個框架的選擇問題),比如CDH或HDP ,推薦使用CDH(國內主流版本)

更易維護和升級

經過整合測試,不會面臨版本相容問題

本文轉載於CSDN

PS:

關注微信公眾號“程式設計師OfHome”,傳送“領取資料”可以免費領取視訊資料。

對大資料感興趣的朋友可以加入到我們的程式設計師OfHomeQQ群:610535338 群裡有都是從事或者在學習大資料的朋友,在此我也邀請你進群一起學習,群內沒有廣告,也是禁止打廣告的,大家也可以關注一下我的微信公共號“程式設計師OfHome”下方掃掃可關注。

HDFS:分散式儲存系統(Hadoop Distributed File System):提供了高可靠性、高擴充套件性和高吞吐率的資料儲存服務

HDFS源自於Google的GFS論文 (發表於2003年10月 ),是GFS克隆版

YARN:資源管理系統(Yet Another Resource Negotiator):負責叢集資源的統一管理和排程,Hadoop 2.0新增系統,使得多種計算框架可以執行在一個叢集中

微信公眾號:程式設計師OfHome

程式設計師OfHomeQQ群:610535338

MapReduce:分散式計算框架:具有易於程式設計、高容錯性和高擴充套件性等優點

MapReduce源自於Google的MapReduce論文 (發表於2004年12月),是Google MapReduce克隆版

Hive:由facebook開源,基於MR的資料倉儲,資料計算使用MR,資料儲存使用HDFS,Hive 定義了一種類 SQL 查詢語言——HQL:類似SQL,但不完全相同

日誌分析:統計網站一個時間段內的pv、uv

Pig:由yahoo!開源,構建在Hadoop之上的資料倉儲

Mahout:資料探勘庫,基於Hadoop的機器學習和資料探勘的分散式計算框架,實現了三大類演算法 :推薦(Recommendation) 、聚類(Clustering) 、分類(Classification)

HBase:分散式資料庫,源自Google的Bigtable論文 ,發表於2006年11月 ,是Google Bigtable克隆版

Zookeeper:分散式協作服務,源自Google的Chubby論文 ,發表於2006年11月 ,是Chubby克隆版

解決分散式環境下資料管理問題 :統一命名 、狀態同步 、叢集管理 、配置同步

Sqoop:資料同步工具,連線Hadoop與傳統資料庫之間的橋樑 ,支援多種資料庫,包括MySQL、DB2等 ,插拔式,使用者可根據需要支援新的資料庫 ;本質上是一個MapReduce程式

Flume:日誌收集工具,Cloudera開源的日誌收集系統

Oozie:作業流排程系統

目前計算框架和作業型別繁多: MapReduce Java、Streaming、HQL、Pig等

如何對這些框架和作業進行統一管理和排程:

不同作業之間存在依賴關係(DAG);

週期性作業

定時執行的作業

作業執行狀態監控與報警(發郵件、簡訊等)

Hadoop發行版本

apache hadoop版本

CDH:Cloudera DistributedHadoop

HDP:Hortonworks Data Platform

建議選擇公司發行版(不必面臨版本某一個框架的選擇問題),比如CDH或HDP ,推薦使用CDH(國內主流版本)

更易維護和升級

經過整合測試,不會面臨版本相容問題

本文轉載於CSDN

PS:

關注微信公眾號“程式設計師OfHome”,傳送“領取資料”可以免費領取視訊資料。

對大資料感興趣的朋友可以加入到我們的程式設計師OfHomeQQ群:610535338 群裡有都是從事或者在學習大資料的朋友,在此我也邀請你進群一起學習,群內沒有廣告,也是禁止打廣告的,大家也可以關注一下我的微信公共號“程式設計師OfHome”下方掃掃可關注。

小禮物走一走,來簡書關注我

相關文章