Hadoop專案實戰－使用者行為分析之應用概述（一）

哥不是小蘿莉發表於2015-06-09

Hadoop

1.概述

　　本課程的視訊教程地址：《Hadoop 回顧》

　　好的，下面就開始本篇教程的內容分享，本篇教程我為大家介紹我們要做一個什麼樣的Hadoop專案，並且對Hadoop專案的基本特點和其中的難點做有針對性的剖析，完成專案環境的基本配置，以及專案工程和Hadoop外掛的相關準備等工作。

　　本課程主要包含以下課時，其內容如下圖所示：

　　本節為大家分享的是第一節——《Hadoop 回顧》，下面開始今天的分享內容。

2.內容

　　從這節開始，我們將進入到Hadoop專案的實戰學習，本節課程為大家介紹的主要知識點有一下內容，如下圖所示：

　　首先，我們來看看本節的Hadoop的業務知識點，業務場景如下：

　　假設現在有以下場景，使用者每天都會對某網站進行點選，這些點選都會記錄到日誌中，然後分析使用者在網站的使用習慣。

　　其內容包含如下內容，如下圖所示：

　　接著，是Hadoop的應用場景，其內容包含如下內容，如下圖所示：

　　通過閱讀上圖，下面我給大家解釋以下這個圖中所設計的含義：

　　1.Hadoop的核心之一，就是它的離線計算模型MapReduce。

在資料統計中，統計網站的PV、UV
大規模Web資訊搜尋
一些複雜的演算法

　　MapReduce都能非常友好的實現。

　　2.海量資料的離線分析
　　在MapReduce框架下，很難處理實時計算，作業都以日誌分析這樣的離線作業為主。

　　3.靜態資料來源
　　Hadoop要保證分析與計算的資料來源是靜態的，不能是實時的流水資料。這也是Hadoop自身設計特點決定了資料來源必須是靜態的。

　　在瞭解了Hadoop的應用場景和業務場景之後，下面我們來看看使用者行為分析平臺的搭建需要注意哪些事項，注意事項包含以下內容，如下圖所示：
　

　　1.平臺的高可用性　　

　　如圖所示，這是一個高可用平臺的簡要說明圖，在Hadoop2.x版本後，Hadoop提出了HA方案。HA方案的出現，解決了第一代的單點問題，在圖中，我們可以看出，在Client請求服務時，若NameNode Active（NNA）節點當機，整個叢集依然是可用的，NameNode Standby（簡稱NNS）節點會立馬切換自己的狀態,由Standby切換為Active，並對外提供服務。保證叢集的高可用性。

　　注：下面是叢集的啟動演示，可以參考視訊的啟動步驟：《Hadoop 回顧》
　　2.在對NameNode Active節點和NameNode Standby節點配置時
　　hdfs-site.xml和core-site.xml兩個檔案中HDFS的NameService要保持一致；
在配置HA的實現時，Hadoop官方提供了兩種NameNode HA的實現方式，分別是QJM和NFS，同學們可自選一種實現。
　　3.在配置YARN的相關配置檔案
　　yarn-site.xml檔案，有一個屬性需要特別注意，它就是yarn.resourcemanager.ha.id這個屬性。假設，我們在NNA節點上配置的是value值是rm1，那麼在NNS節點上我們得將value換成rm2。

　　4.在叢集啟動時，需注意按照以下順序
　　第一步：由於我們選擇的是QJM方案，需要使用到zookeeper，所以在各個DataNode節點上啟動zookeeper服務
　　第二步：在其中一臺NameNode節點（這裡我預選取的是NameNode Active節點）啟動journalnode服務，該服務用於共享儲存，同步節點資訊。
　　第三步：若是首次啟動，需要在其中一臺NameNode Active節點上格式HDFS
　　第四步：接著我們同樣一臺NameNode Active節點格式化zkfc,它對應的類是DFSZKFailoverController
　　第五步：在NameNode Active節點啟動hdfs服務和yarn服務
　　第六步：同步NameNode Active節點的後設資料

3.結束語

　　這就是本節的主要內容，主要就對Hadoop做一個回顧學習，對後續學習Hadoop專案實戰做一個準備工作。

　　如果本教程能幫助到您，希望您能點選進去觀看一下，謝謝您的支援！

　　轉載請註明出處，謝謝合作！

　本課程的視訊教程地址：《Hadoop 回顧》

Hadoop專案實戰－使用者行為分析之應用概述（二）
2015-06-10
Hadoop
Hadoop專案實戰－使用者行為分析之應用概述（三）
2015-06-11
Hadoop
Hadoop專案實戰－使用者行為分析之編碼實踐
2015-06-24
Hadoop
Hadoop專案實戰－使用者行為分析之分析與設計
2015-06-11
Hadoop
Kafka專案實戰－使用者日誌上報實時統計之應用概述
2017-11-17
Kafka
大資料專案實戰之 --- 使用者畫像專案分析
2018-11-16
大資料
Docker實戰之執行專案
2020-06-08
Docker
Spark綜合使用及使用者行為案例訪問session統計分析實戰-Spark商業應用實戰
2018-12-24
SparkSession
go語言實戰教程：Redis實戰專案應用
2019-04-18
GoRedis
00【線上日誌分析】之專案概述和GitHub專案地址
2017-01-07
Github
基於Hadoop大資料分析應用場景與實戰
2017-10-10
Hadoop大資料
Spark綜合使用及使用者行為案例區域內熱門商品統計分析實戰-Spark商業應用實戰
2018-12-25
Spark
實戰專案 9: 習慣記錄應用
2018-02-19
實戰專案 10: 貨物清單應用
2018-04-11
B站基於ClickHouse的海量使用者行為分析應用實踐
2023-01-12
資訊科技應用專案的戰略風險分析(1)（轉）
2007-08-15
資訊科技應用專案的戰略風險分析(2)（轉）
2007-08-15
資訊科技應用專案的戰略風險分析(3)（轉）
2007-08-15
使用者行為分析模型實踐（一）—— 路徑分析模型
2021-03-15
模型
外掛化之VirtualApk實戰一：專案配置
2018-12-12
APK
專案（Explore）總結之專案概述
2010-03-25
webpack實戰（二）：真實專案中應用系統配置
2018-06-22
Web
Flutter路由專案實戰之fluro
2020-01-03
Flutter路由
淺談使用者行為分析之“留存”
2022-12-29
＜Zhuuu_ZZ＞Spark專案實戰-航班飛行網圖分析
2020-11-29
Spark
學習不一樣的vue實戰(2): 專案分析
2017-06-02
Vue
爬蟲專案實戰（一）
2020-06-15
爬蟲
Vue專案實戰（一）——ToDoList
2019-04-02
Vue
Hadoop實戰-中高階部分之 Hadoop 管理
2013-12-11
Hadoop
[MAUI 專案實戰] 手勢控制音樂播放器（一）：概述與架構
2023-04-09
UI播放器架構
22【線上日誌分析】之專案第二階段概述
2017-03-31
[.NET專案實戰] Elsa開源工作流元件應用（三）：實戰演練
2024-03-21
元件
ClickHouse在自助行為分析場景的實踐應用
2023-03-07
專案實戰之gradle在實際專案中的使用
2018-05-09
Gradle
專案總結之應用XP
2005-04-09
實戰專案之自動簡歷
2018-09-15
專案實戰之元件化架構
2018-05-23
元件化架構
入門Python資料分析最好的實戰專案（一）
2018-07-01
Python

Hadoop專案實戰－使用者行為分析之應用概述（一）

1.概述

2.內容

3.結束語

相關文章