1.概述
本課程的視訊教程地址:《Hadoop 回顧》
好的,下面就開始本篇教程的內容分享,本篇教程我為大家介紹我們要做一個什麼樣的Hadoop專案,並且對Hadoop專案的基本特點和其中的難點做有針對性的剖析,完成專案環境的基本配置,以及專案工程和Hadoop外掛的相關準備等工作。
本課程主要包含以下課時,其內容如下圖所示:
本節為大家分享的是第一節——《Hadoop 回顧》,下面開始今天的分享內容。
2.內容
從這節開始,我們將進入到Hadoop專案的實戰學習,本節課程為大家介紹的主要知識點有一下內容,如下圖所示:
首先,我們來看看本節的Hadoop的業務知識點,業務場景如下:
假設現在有以下場景,使用者每天都會對某網站進行點選,這些點選都會記錄到日誌中,然後分析使用者在網站的使用習慣。
其內容包含如下內容,如下圖所示:
接著,是Hadoop的應用場景,其內容包含如下內容,如下圖所示:
通過閱讀上圖,下面我給大家解釋以下這個圖中所設計的含義:
1.Hadoop的核心之一,就是它的離線計算模型MapReduce。
- 在資料統計中,統計網站的PV、UV
- 大規模Web資訊搜尋
- 一些複雜的演算法
MapReduce都能非常友好的實現。
2.海量資料的離線分析
在MapReduce框架下,很難處理實時計算,作業都以日誌分析這樣的離線作業為主。
3.靜態資料來源
Hadoop要保證分析與計算的資料來源是靜態的,不能是實時的流水資料。這也是Hadoop自身設計特點決定了資料來源必須是靜態的。
在瞭解了Hadoop的應用場景和業務場景之後,下面我們來看看使用者行為分析平臺的搭建需要注意哪些事項,注意事項包含以下內容,如下圖所示:
1.平臺的高可用性
如圖所示,這是一個高可用平臺的簡要說明圖,在Hadoop2.x版本後,Hadoop提出了HA方案。HA方案的出現,解決了第一代的單點問題,在圖中,我們可以看出,在Client請求服務時,若NameNode Active(NNA)節點當機,整個叢集依然是可用的,NameNode Standby(簡稱NNS)節點會立馬切換自己的狀態,由Standby切換為Active,並對外提供服務。保證叢集的高可用性。
注:下面是叢集的啟動演示,可以參考視訊的啟動步驟:《Hadoop 回顧》
2.在對NameNode Active節點和NameNode Standby節點配置時
hdfs-site.xml和core-site.xml兩個檔案中HDFS的NameService要保持一致;
在配置HA的實現時,Hadoop官方提供了兩種NameNode HA的實現方式,分別是QJM和NFS,同學們可自選一種實現。
3.在配置YARN的相關配置檔案
yarn-site.xml檔案,有一個屬性需要特別注意,它就是yarn.resourcemanager.ha.id這個屬性。假設,我們在NNA節點上配置的是value值是rm1,那麼在NNS節點上我們得將value換成rm2。
4.在叢集啟動時,需注意按照以下順序
第一步:由於我們選擇的是QJM方案,需要使用到zookeeper,所以在各個DataNode節點上啟動zookeeper服務
第二步:在其中一臺NameNode節點(這裡我預選取的是NameNode Active節點)啟動journalnode服務,該服務用於共享儲存,同步節點資訊。
第三步:若是首次啟動,需要在其中一臺NameNode Active節點上格式HDFS
第四步:接著我們同樣一臺NameNode Active節點格式化zkfc,它對應的類是DFSZKFailoverController
第五步:在NameNode Active節點啟動hdfs服務和yarn服務
第六步:同步NameNode Active節點的後設資料
3.結束語
這就是本節的主要內容,主要就對Hadoop做一個回顧學習,對後續學習Hadoop專案實戰做一個準備工作。
如果本教程能幫助到您,希望您能點選進去觀看一下,謝謝您的支援!
轉載請註明出處,謝謝合作!
本課程的視訊教程地址:《Hadoop 回顧》