IT十年-大資料系列講解之hadoop生態系統及版本演化
HDFS:分散式儲存系統(Hadoop Distributed File System):提供了高可靠性、高擴充套件性和高吞吐率的資料儲存服務
HDFS源自於Google的GFS論文 (發表於2003年10月 ),是GFS克隆版
YARN:資源管理系統(Yet Another Resource Negotiator):負責叢集資源的統一管理和排程,Hadoop 2.0新增系統,使得多種計算框架可以執行在一個叢集中
微信公眾號:程式設計師OfHome
程式設計師OfHomeQQ群:610535338
MapReduce:分散式計算框架:具有易於程式設計、高容錯性和高擴充套件性等優點
MapReduce源自於Google的MapReduce論文 (發表於2004年12月),是Google MapReduce克隆版
Hive:由facebook開源,基於MR的資料倉儲,資料計算使用MR,資料儲存使用HDFS,Hive 定義了一種類 SQL 查詢語言——HQL:類似SQL,但不完全相同
日誌分析:統計網站一個時間段內的pv、uv
Pig:由yahoo!開源,構建在Hadoop之上的資料倉儲
Mahout:資料探勘庫,基於Hadoop的機器學習和資料探勘的分散式計算框架,實現了三大類演算法 :推薦(Recommendation) 、聚類(Clustering) 、分類(Classification)
HBase:分散式資料庫,源自Google的Bigtable論文 ,發表於2006年11月 ,是Google Bigtable克隆版
Zookeeper:分散式協作服務,源自Google的Chubby論文 ,發表於2006年11月 ,是Chubby克隆版
解決分散式環境下資料管理問題 :統一命名 、狀態同步 、叢集管理 、配置同步
Sqoop:資料同步工具,連線Hadoop與傳統資料庫之間的橋樑 ,支援多種資料庫,包括MySQL、DB2等 ,插拔式,使用者可根據需要支援新的資料庫 ;本質上是一個MapReduce程式
Flume:日誌收集工具,Cloudera開源的日誌收集系統
Oozie:作業流排程系統
目前計算框架和作業型別繁多: MapReduce Java、Streaming、HQL、Pig等
如何對這些框架和作業進行統一管理和排程:
不同作業之間存在依賴關係(DAG);
週期性作業
定時執行的作業
作業執行狀態監控與報警(發郵件、簡訊等)
Hadoop發行版本
apache hadoop版本
CDH:Cloudera DistributedHadoop
HDP:Hortonworks Data Platform
建議選擇公司發行版(不必面臨版本某一個框架的選擇問題),比如CDH或HDP ,推薦使用CDH(國內主流版本)
更易維護和升級
經過整合測試,不會面臨版本相容問題
本文轉載於CSDN
PS:
關注微信公眾號“程式設計師OfHome”,傳送“領取資料”可以免費領取視訊資料。
對大資料感興趣的朋友可以加入到我們的程式設計師OfHomeQQ群:610535338 群裡有都是從事或者在學習大資料的朋友,在此我也邀請你進群一起學習,群內沒有廣告,也是禁止打廣告的,大家也可以關注一下我的微信公共號“程式設計師OfHome”下方掃掃可關注。
HDFS:分散式儲存系統(Hadoop Distributed File System):提供了高可靠性、高擴充套件性和高吞吐率的資料儲存服務
HDFS源自於Google的GFS論文 (發表於2003年10月 ),是GFS克隆版
YARN:資源管理系統(Yet Another Resource Negotiator):負責叢集資源的統一管理和排程,Hadoop 2.0新增系統,使得多種計算框架可以執行在一個叢集中
微信公眾號:程式設計師OfHome
程式設計師OfHomeQQ群:610535338
MapReduce:分散式計算框架:具有易於程式設計、高容錯性和高擴充套件性等優點
MapReduce源自於Google的MapReduce論文 (發表於2004年12月),是Google MapReduce克隆版
Hive:由facebook開源,基於MR的資料倉儲,資料計算使用MR,資料儲存使用HDFS,Hive 定義了一種類 SQL 查詢語言——HQL:類似SQL,但不完全相同
日誌分析:統計網站一個時間段內的pv、uv
Pig:由yahoo!開源,構建在Hadoop之上的資料倉儲
Mahout:資料探勘庫,基於Hadoop的機器學習和資料探勘的分散式計算框架,實現了三大類演算法 :推薦(Recommendation) 、聚類(Clustering) 、分類(Classification)
HBase:分散式資料庫,源自Google的Bigtable論文 ,發表於2006年11月 ,是Google Bigtable克隆版
Zookeeper:分散式協作服務,源自Google的Chubby論文 ,發表於2006年11月 ,是Chubby克隆版
解決分散式環境下資料管理問題 :統一命名 、狀態同步 、叢集管理 、配置同步
Sqoop:資料同步工具,連線Hadoop與傳統資料庫之間的橋樑 ,支援多種資料庫,包括MySQL、DB2等 ,插拔式,使用者可根據需要支援新的資料庫 ;本質上是一個MapReduce程式
Flume:日誌收集工具,Cloudera開源的日誌收集系統
Oozie:作業流排程系統
目前計算框架和作業型別繁多: MapReduce Java、Streaming、HQL、Pig等
如何對這些框架和作業進行統一管理和排程:
不同作業之間存在依賴關係(DAG);
週期性作業
定時執行的作業
作業執行狀態監控與報警(發郵件、簡訊等)
Hadoop發行版本
apache hadoop版本
CDH:Cloudera DistributedHadoop
HDP:Hortonworks Data Platform
建議選擇公司發行版(不必面臨版本某一個框架的選擇問題),比如CDH或HDP ,推薦使用CDH(國內主流版本)
更易維護和升級
經過整合測試,不會面臨版本相容問題
本文轉載於CSDN
PS:
關注微信公眾號“程式設計師OfHome”,傳送“領取資料”可以免費領取視訊資料。
對大資料感興趣的朋友可以加入到我們的程式設計師OfHomeQQ群:610535338 群裡有都是從事或者在學習大資料的朋友,在此我也邀請你進群一起學習,群內沒有廣告,也是禁止打廣告的,大家也可以關注一下我的微信公共號“程式設計師OfHome”下方掃掃可關注。
小禮物走一走,來簡書關注我
相關文章
- IT十年-大資料系列講解之HDFS(二)大資料
- hadoop 之Hadoop生態系統Hadoop
- Hadoop高階資料分析 使用Hadoop生態系統設計和構建大資料系統Hadoop大資料
- Hadoop系列002-從Hadoop框架討論大資料生態Hadoop框架大資料
- Hadoop 生態系統Hadoop
- hadoop生態系統Hadoop
- 大資料系列分享第二期:《Hadoop生態圈》大資料Hadoop
- 大資料實戰之hadoop生態概況和官網文件解讀大資料Hadoop
- Hadoop大資料實戰系列文章之HDFS檔案系統Hadoop大資料
- 大資料技術之Hadoop(入門) 第2章 從Hadoop框架討論大資料生態大資料Hadoop框架
- GitChat · 大資料 | 一步一步學習大資料:Hadoop 生態系統與場景Git大資料Hadoop
- 初入Hadoop生態系統Hadoop
- Hadoop工具生態系統指南Hadoop
- Hadoop生態系統介紹Hadoop
- 大資料時代之hadoop(六):hadoop 生態圈(pig,hive,hbase,ZooKeeper,Sqoop)大資料HadoopHive
- 一步一步學習大資料:Hadoop 生態系統與場景大資料Hadoop
- Hadoop的生態系統 - KEYWORDHadoop
- Hadoop基礎(二):從Hadoop框架討論大資料生態Hadoop框架大資料
- 大資料時代之hadoop(四):hadoop 分散式檔案系統(HDFS)大資料Hadoop分散式
- Hadoop 學習系列(四)之 MapReduce 原理講解Hadoop
- Hadoop大資料實戰系列文章之安裝HadoopHadoop大資料
- Hadoop大資料實戰系列文章之HiveHadoop大資料Hive
- Hadoop大資料實戰系列文章之HBaseHadoop大資料
- Hadoop大資料實戰系列文章之ZookeeperHadoop大資料
- BDA:Hadoop生態大資料工具的漏洞掃描器Hadoop大資料
- 大資料計算生態之資料計算(二)大資料
- 大資料計算生態之資料計算(一)大資料
- Hadoop系列之HDFS 資料塊Hadoop
- 擁抱開源DevOps引領大資料生態系統dev大資料
- 鴻翼雲生態大會之生態解決方案
- 大資料hadoop入門之hadoop家族產品詳解大資料Hadoop
- Hadoop 基礎之生態圈Hadoop
- 1、大資料 Hadoop配置和單機Hadoop系統配置大資料Hadoop
- 改變數字分析生態系統的10個大資料公司變數大資料
- **大資料hadoop瞭解**大資料Hadoop
- Hadoop生態系統應用狀況大調查:網際網路篇!Hadoop
- 圖解:RTB廣告生態系統圖解
- Hadoop大資料實戰系列文章之Mapreduce 計算框架Hadoop大資料框架