Hadoop介紹

wymrdjm發表於2017-12-29

原文網址 : https://blog.csdn.net/wymrdjm/article/details/78927855

Hadoop介紹

Apache Hadoop 是Apache開源組織的一個分散式計算開源框架，提供了一個分散式檔案系統子專案(HDFS)和支援MapReduce分散式計算的軟體架構。簡單來說，Hadoop是一個可以更容易開發和執行處理大規模資料的軟體平臺。Hadoop實現了一個分散式叢集檔案系統（HadoopDistributedFileSystem）。分散式叢集檔案系統的意思是：每臺計算機各自提供自己的儲存空間，並各自協調管理所有計算機節點（node）中的檔案。

Hadoop · MapReduce

Architecture

Hadoop在網路計算機叢集上執行，每個節點執行一組守護程式。

• 資源管理器ResourceManager — computing
• 節點管理器NodeManager — computing
• 名稱節點NameNode — storage
• 二級節點名稱SecondaryNameNode — storage
• 資料節點DataNode — storage

Master-Slave architecture

Map/Reduce框架由一個單獨的master JobTracker 和每個叢集節點一個slave TaskTracker共同組成。master負責排程構成一個作業的所有任務，這些任務分佈在不同的slave上，master監控它們的執行，重新執行已經失敗的任務。而slave僅負責執行由master指派的任務。

Master節點 (1)
• 管理所有Slave的節點
• 接受外界請求
• 分配誰什麼時候執行什麼任務
• 與Slave節點交流
Slave節點 (1..*)
• 執行任務
• 執行Master節點

這裡寫圖片描述

Job flow

將input data分成到computing chunks中
將一個chunk分配到一個Map 節點
執行所有的Mappers
Shuffle and sort
執行所有的Reducers
Reducers的結果組成了這個job的output

Hadoop 優缺點

Hadoop 並不是針對所有情況的完美的解決方案
1. Hadoop是一個batch processing framework，用來處理非常大的dataset
2. Hadoop時延高，只適用Batch資料處理，對於互動式資料處理，實時資料處理的支援不夠
2. 因為data已經是distributed，Hadoop在處理Map phase的時候很高效（efficient）
2. Hadoop在I/O communication方面表現不是那麼好。Hadoop在job執行過程中，頻繁的對hdfs進行檔案讀取/寫入操作，io操作頻繁。並且shuffle and sort會引發large network traffic
4. Hadoop沒有對迭代（iteration）的原生支援
5. Hadoop只有一個同步屏障（synchronisation barrier）

Hadoop Hive介紹
2018-07-11
HadoopHive
Hadoop Sqoop介紹
2018-08-27
Hadoop
Hadoop進階命令使用介紹
2020-07-13
Hadoop
Hadoop-HA節點介紹
2023-03-10
Hadoop
hadoop實戰3(web管理介面介紹及NN，DN，SNN介紹)
2019-02-20
HadoopWeb
大資料 Hadoop介紹、配置與使用
2018-09-15
大資料Hadoop
大資料和Hadoop平臺介紹
2020-11-22
大資料Hadoop
Hadoop叢集中Hbase的介紹、安裝、使用
2022-12-20
Hadoop
Hadoop 從 0 到 1 學習 ——第一章 Hadoop 介紹
2020-10-29
Hadoop
Hadoop 簡介
2020-09-08
Hadoop
Hadoop簡介！
2019-07-09
Hadoop
大資料系統框架中hadoop服務角色介紹
2018-09-11
大資料框架Hadoop
hadoop實戰2-更改指定hostname啟動hadoop,jps介紹，yarn部署，yarn上執行程式
2019-04-03
HadoopYarn行程
hadoop常用四大模組及五大程式節點介紹
2018-05-19
Hadoop
hadoop中文版本下載選擇與平臺監控引數介紹
2018-08-13
Hadoop
Hadoop - 企業級大資料管理平臺CDH(介紹和準備工作)
2019-03-14
Hadoop大資料
介紹
2024-10-05
第一章：Hadoop生態系統及執行MapReduce任務介紹！
2018-09-04
Hadoop
Proxy介紹
2019-02-16
Reflect介紹
2019-02-16
Azkaban介紹
2019-01-25
模式介紹
2018-12-23
模式
ZooKeeper介紹
2018-08-21
css介紹
2018-06-26
CSS
PostgreSQLHooK介紹
2018-06-29
SQLHook
DuelJS 介紹
2018-06-15
JS
Docker介紹
2024-03-29
Docker
StarRocks 介紹
2024-02-15
JCache 介紹
2024-03-17
zigbee 介紹
2024-04-10
GO 介紹
2024-04-01
Go
RPC介紹
2024-03-19
RPC
springcloud介紹
2019-08-15
SpringGCCloud
CSRedisCore 介紹
2019-09-23
Redis
AJAX 介紹
2019-07-23
php介紹
2020-03-18
PHP
Pyzmq介紹
2020-09-02
MQ
uniswap介紹
2020-10-09
LDAP 介紹
2020-09-29
LDA

Hadoop介紹

Hadoop介紹

Hadoop · MapReduce

Architecture

Master-Slave architecture

Job flow

Hadoop 優缺點

相關文章