大資料實戰之hadoop生態概況和官網文件解讀

朱元祿發表於2020-12-20

原文網址 : https://blog.csdn.net/jacky_zhuyuanlu/article/details/111413086

大資料Hadoop

本小節 jacky 分享的是：

Hadoop 核心的組成模組，依賴於 Hadoop 的其他的生態系統。隨著jacky後面逐步的分享，會對本小節 Hadoop 概況中的這些概念有更好的加深與瞭解。

（一）Hadoop 四大核心模組

在 Hadoop 官網就告訴了我們 Hadoop 有4大核心模組：

Hadoop Common
- 一般 common 包的都是工具類，這個工具主要是支撐其他 hadoop 模組，它是一個輔助的模組；
Hadoop Distributed File System（HDFS）：
- Hadoop 分散式的檔案系統，它提供了一個對資料儲存的介面訪問
Hadoop YARN
- Hadoop YARN 是一個框架（framework）,這個框架幹什麼：用於作業（job）和叢集資源（cluster resource）的管理。
Hadoop MapReduce
- MapReduce 是一個基於YARN 系統的並行的一個程式，大資料並行處理的一個程式。本質是 MapReduce 就是一個計算框架

如果我們狹義上說Hadoop ,那 Hadoop 就是隻上面得核心模組；

如果我們廣義上說 Hadoop,我們說得是 Hadoop 的生態系統，有些領域專案會依賴於 Hadoop,

（二）Hadoop 發展的三個階段

jackyi 分享的是 Hadoop 的三代

（三）Hadoop 的生態環境

jacky 在分享 Hadoop 的時候，在 MapReduce 這個模組中程式碼會演示的比較多，MapReduce 這個框架計算寫的也會比較多，但在真正用的時候，有可能一行程式碼都不寫，為什麼呢？因為就是這些生態系統的存在，比如說Hadoop生態系統中的 Hive, Hive 的原理就是把一堆MR的內容轉化成了 SQL 的形式，大家學的大資料階段了，就肯定熟練掌握 SQL 了，SQL是什麼，SQL是結構化的查詢語言，我們可以不用寫 Api 了，這樣不用寫API , 我們很多人就都可以學習大資料了，不用再去學相關的程式設計，成本很低，這是 Hive 存在的意義。

HBase 來自於谷歌的一篇論文，HBase 就是一張大表（scalable），這張表裡行無限，列也無限，而且是動態的，每個列的型別要準確，HBase 可以無限的增加，它跟你執行一行的速度是一樣的，不會因為你執行行增加而降低速度，這一點關係型資料庫是做不到的。但是HBase 能夠查詢資料的途徑是有限的，需要使用 rowkey；

那既然有HIve ,有 HBase ,我們實際上使用可能不會寫那麼多程式碼，而是改成寫 hive 型別的SQL 語句，那為什麼還要學 MapRedue 框架？因為我們後面還有一個大資料最重要的生態：Spark，這個Spark 是做計算處理的，只不過Spark的效率相對於Hadoop來說要快；MapReduce 只能處理離線計算，是非常穩定的，但是MapReduce 它強依賴於IO，頻繁的與磁碟進行互動，這裡有一個常識：頻繁與磁碟互動，效率都高不了。Spark 是基於記憶體迭代的，它速度很快，但是Spark 有可能會造成各種各樣的問題，所以Spark的最大優勢是給使用者暴露了一個更加友好的程式設計介面。hadoop 就是 mapreduce 框架加幾個關聯介面，可spark 能給你暴露一堆介面，完全簡化了程式構建的複雜度，因為上面mapreduce 你要基於原生程式碼模擬各種資料結構，成本比較高；

還有一個zookeeper ，也依賴於hadoop 專案，zookeeper 是一個分散式的協調系統，換句話說，它是給分散式應用程式提供的協調服務。

Hadoop大資料實戰系列文章之安裝Hadoop
2020-11-05
Hadoop大資料
Hadoop大資料實戰系列文章之Hive
2020-11-16
Hadoop大資料Hive
Hadoop大資料實戰系列文章之Zookeeper
2020-11-10
Hadoop大資料
Hadoop大資料實戰系列文章之HBase
2020-11-11
Hadoop大資料
大資料技術之Hadoop（入門）第2章從Hadoop框架討論大資料生態
2018-08-08
大資料Hadoop框架
IT十年-大資料系列講解之hadoop生態系統及版本演化
2018-04-08
大資料Hadoop
大資料技術之Hadoop（入門）第1章大資料概論
2018-08-08
大資料Hadoop
小白學習大資料測試之hadoop hdfs和MapReduce小實戰
2018-09-03
大資料Hadoop
Hadoop生態系統應用狀況大調查：網際網路篇！
2018-05-07
Hadoop
Hadoop系列002-從Hadoop框架討論大資料生態
2018-12-01
Hadoop框架大資料
Hadoop基礎（二）：從Hadoop框架討論大資料生態
2020-07-11
Hadoop框架大資料
Hadoop系列001-大資料概論
2018-12-01
Hadoop大資料
Hadoop高階資料分析使用Hadoop生態系統設計和構建大資料系統
2018-11-28
Hadoop大資料
Hadoop大資料實戰系列文章之Mapreduce 計算框架
2020-11-10
Hadoop大資料框架
gateway官網文件解讀(六) 彙總
2020-09-30
Gateway
Hadoop大資料實戰系列文章之HDFS檔案系統
2020-11-06
Hadoop大資料
BDA：Hadoop生態大資料工具的漏洞掃描器
2021-12-28
Hadoop大資料
大資料hadoop入門之hadoop家族產品詳解
2018-12-26
大資料Hadoop
《Hadoop+Spark大資料分析實戰》簡介
2022-07-27
HadoopSpark大資料
《離線和實時大資料開發實戰》（二）大資料平臺架構 & 技術概覽
2020-09-27
大資料架構
Hadoop 基礎之生態圈
2019-04-29
Hadoop
**大資料hadoop瞭解**
2018-12-18
大資料Hadoop
計算機網路之HTTP之概況
2020-10-11
計算機網路HTTP
大資料計算生態之資料計算（二）
2020-11-15
大資料
大資料計算生態之資料計算（一）
2020-11-15
大資料
Hadoop官網翻譯之HDFS Architecture
2019-01-01
Hadoop
遊戲資料分析的三大實戰案例深度解讀
2020-08-19
遊戲
Hadoop大資料探勘從入門到進階實戰
2018-06-22
Hadoop大資料
鴻翼雲生態大會之生態解決方案
2022-03-14
大資料測試之hadoop初探
2019-08-07
大資料Hadoop
Hadoop官網翻譯之HDFS Users Guide
2019-01-01
HadoopGUIIDE
React原始碼閱讀：概況
2018-07-19
React原始碼
Hadoop演進與Hadoop生態
2020-09-20
Hadoop
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
大資料之 Hadoop學習筆記
2018-12-14
大資料Hadoop筆記
Hadoop大資料平臺之HBase部署
2020-11-24
Hadoop大資料
Hadoop大資料平臺之Kafka部署
2020-11-24
Hadoop大資料Kafka
專家解讀：順豐和菜鳥開戰核心是大資料
2018-03-28
大資料

大資料實戰之hadoop生態概況和官網文件解讀

（一）Hadoop 四大核心模組

（二）Hadoop 發展的三個階段

（三）Hadoop 的生態環境

相關文章