第一週,基於Ambari搭建了大資料分析平臺,根據教程建立了三臺Linux虛擬機器。根據教程一點一點做,發現了很多問題,透過網上搜尋資料解決了以後,順利地搭建起了該平臺,發現這塊東西真的很難,主要是很抽象,不像之前學的搭建一個網站,寫一款安卓軟體,現在大資料這個東西看不見摸不著,而且我也沒有Linux基礎,這些都要從頭開始學,邊學邊用,難免會跳坑,到目前為止還是一頭霧水,不知道這個東西怎麼用,這是在幹嘛。
教程參考基於Ambari搭建大資料分析平臺-CSDN部落格
一、部署工具簡介
1. Hadoop生態系統
Hadoop big data ecosystem in Apache stack
2. Hadoop的發行版本
Hadoop的發行版除了Apache的開源版本之外,國外比較流行的還有:Cloudera發行版(CDH)、Hortonworks發行版(HDP)、MapR等,所有這些發行版均是基於Apache Hadoop衍生出來的,因為Apache Hadoop的開源協議允許任何人對其進行修改並作為開源或者商業產品釋出。
國內主流的商業版Hadoop平臺:
華為——FusionInsight HD(簡稱FI)
騰訊——Tbds
阿里——飛天(相對其他版本,修改比較大)
明略——Nest
星環——Tdc
浪潮——雲海Insight
CDH是Cloudera基於Apache Hadoop衍生出的發行版,其程式碼部分開源,提供了管理佈置工具ClouderaManager
HDP是Hortonworks公司(2018年併入cloudera公司)基於Apache Hadoop衍生出的發行版,其程式碼全部開源,採用Ambari進行管理和部署
3. 部署工具介紹
大資料叢集管理方式分為手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。手工方式太過複雜,是一個艱辛的過程,在企業應用中,一般採用工具部署方式。Ambari和Cloudera Manager這兩個系統,目的就是簡化Hadoop生態叢集的安裝、配置,同時提高Hadoop運維效率,以及對Hadoop叢集進行監控。
(1)Ambari是Apache軟體基金頂級專案,它是一個基於web的工具,用於安裝、配置、管理和監視Apache Hadoop叢集,支援Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了叢集狀況儀表盤,比如heatmaps和檢視MapReduce、Pig、Hive應用程式的能力,以友好的使用者介面對它們的效能特性進行診斷。
Apache Ambari 專案旨在透過開發用於配置,管理和監控 Apache Hadoop 叢集的軟體來簡化 Hadoop 管理。Ambari 提供了一個直觀,易用的 Hadoop 管理 Web UI。
Ambari提供瞭如下功能:
提供了跨任意數量的主機安裝 Hadoop 服務的分步向導。
處理群集的 Hadoop 服務配置。
提供集中管理,用於在整個叢集中啟動,停止和重新配置 Hadoop 服務。
提供了一個儀表板,用於監控 Hadoop 叢集的執行狀況和狀態。
利用 Ambari 指標系統進行指標收集。
利用 Ambari Alert Framework 進行系統警報,並在需要您注意時通知您(例如,節點出
現故障,剩餘磁碟空間不足等)。
(2)Cloudera Manager是cloudera公司的一個產品,著重於幫助大家管理自己的CDH叢集,透過Cloudera Manager統一的UI介面來快速地自動配置和部署CDH和其相關元件,同時Cloudera Manager還提供了各種豐富的可自定義化的監視診斷和報告功能,叢集上統一的日誌管理功能,統一的叢集配置管理和實時配置變更功能,多租戶功能,高可用容災部署功能和自動恢復功能等, 方便企業統一管理和維護自己的資料中心。Cloudera Manager產品也是我們主要的安裝內容和介紹物件。它細分為免費的Express版本和功能完全並提供眾多增值服務的收費版本Enterprise
(3)Ambari VS ClouderaManager
主要的不同點 apache Ambari ClouderaManager Express(免費版)
配置版本控制和歷史記錄 支援 不支援
二次開發 支援 不支援
整合 支援 no (不支援redis、kylin、es)
維護 依靠社群力量 cloudera做了一些定製開發,自行維護或打patch會離社群越來越遠
許可權控制 ranger(相對簡單) sentry(複雜)
檢視定製 支援建立自己的檢視,新增自定義服務 不支援