Hadoop 基礎概念

匡匡發表於2017-12-27

原文網址 : https://www.cnblogs.com/kuku/p/8125312.html

Hadoop就是一個實現了Google雲端計算系統的開源系統，包括平行計算模型Map/Reduce，分散式檔案系統HDFS，以及分散式資料庫Hbase，同時Hadoop的相關專案也很豐富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等.

執行流程：

外部程式定時把檔案複製到 hadoop 的 hdfs 裡去，然後再時執行 map 和 reduce 對資料進行分析

Map 是把要處理的資料鍵值化， Reduce 對鍵值資料進行彙總處理。

1.MapReduce庫先把user program的輸入檔案劃分為M份（M為使用者定義），每一份通常有16MB到64MB，如圖左方所示分成了split0~4；然後使用fork將使用者程式拷貝到叢集內其它機器上。

　　2.user program的副本中有一個稱為master，其餘稱為worker，master是負責排程的，為空閒worker分配作業（Map作業或者Reduce作業），worker的數量也是可以由使用者指定的。

　　3.被分配了Map作業的worker，開始讀取對應分片的輸入資料，Map作業數量是由M決定的，和split一一對應；Map作業從輸入資料中抽取出鍵值對，每一個鍵值對都作為引數傳遞給map函式，map函式產生的中間鍵值對被快取在記憶體中。

　　4.快取的中間鍵值對會被定期寫入本地磁碟，而且被分為R個區，R的大小是由使用者定義的，將來每個區會對應一個Reduce作業；這些中間鍵值對的位置會被通報給master，master負責將資訊轉發給Reduce worker。

　　5.master通知分配了Reduce作業的worker它負責的分割槽在什麼位置（肯定不止一個地方，每個Map作業產生的中間鍵值對都可能對映到所有R個不同分割槽），當Reduce worker把所有它負責的中間鍵值對都讀過來後，先對它們進行排序，使得相同鍵的鍵值對聚集在一起。因為不同的鍵可能會對映到同一個分割槽也就是同一個Reduce作業（誰讓分割槽少呢），所以排序是必須的。

　　6.reduce worker遍歷排序後的中間鍵值對，對於每個唯一的鍵，都將鍵與關聯的值傳遞給reduce函式，reduce函式產生的輸出會新增到這個分割槽的輸出檔案中。

　　6.當所有的Map和Reduce作業都完成了，master喚醒正版的user program，MapReduce函式呼叫返回user program的程式碼。

　　所有執行完畢後，MapReduce輸出放在了R個分割槽的輸出檔案中（分別對應一個Reduce作業）。使用者通常並不需要合併這R個檔案，而是將其作為輸入交給另一個MapReduce程式處理。整個過程中，輸入資料是來自底層分散式檔案系統（GFS）的，中間資料是放在本地檔案系統的，最終輸出資料是寫入底層分散式檔案系統（GFS）的。而且我們要注意Map/Reduce作業和map/reduce函式的區別：Map作業處理一個輸入資料的分片，可能需要呼叫多次map函式來處理每個輸入鍵值對；Reduce作業處理一個分割槽的中間鍵值對，期間要對每個不同的鍵呼叫一次reduce函式，Reduce作業最終也對應一個輸出檔案。

Hadoop基礎
2020-03-23
Hadoop
掃盲：Hadoop分散式檔案系統（HDFS）基礎概念講解！
2018-08-09
Hadoop分散式
Hadoop基礎知識
2023-12-11
Hadoop
MySQL基礎概念
2019-03-31
MySql
NestJS 基礎概念
2024-04-08
JS
Vue 基礎概念
2020-07-10
Vue
HTTP基礎概念
2019-05-03
HTTP
JVM 基礎概念
2019-05-03
JVM
Vue基礎概念
2019-01-28
Vue
python基礎概念
2024-07-04
Python
Elaticsearch基礎概念
2021-09-18
4.3 Hadoop概念
2018-11-15
Hadoop
淺析Hadoop基礎原理
2021-03-19
Hadoop
ZooKeeper 概念與基礎
2018-05-02
Spring 5 基礎概念
2020-11-16
Spring
MySQL（一）基礎概念
2020-10-09
MySql
1章基礎概念
2019-05-13
Elastic Stack基礎概念
2022-01-29
AST
JavaScript WebGL 基礎概念
2021-12-01
JavaScriptWeb
java 基礎概念 (1)
2021-09-09
Java
4、kubernetes基礎概念
2021-08-28
golang的基礎概念
2024-12-08
Golang
Hadoop 基礎之搭建環境
2019-05-05
Hadoop
Hadoop 基礎之 HDFS 入門
2019-05-13
Hadoop
Hadoop 基礎之生態圈
2019-04-29
Hadoop
hadoop基礎知識分享(二)
2024-11-06
Hadoop
hadoop基礎知識分享(一)
2024-09-08
Hadoop
RocketMQ基礎概念之Broker
2019-03-27
MQ
音視訊基礎概念
2018-05-07
Java基礎概念知識
2019-10-11
Java
python爬蟲基礎概念
2020-05-11
Python爬蟲
圖論（一）--基礎概念
2019-01-03
圖論
分包基礎概念+使用分包
2024-10-22
Hadoop學習之路（六）HDFS基礎
2019-01-23
Hadoop
學習hadoop需要什麼基礎?
2018-09-07
Hadoop
ARCore學習之旅：基礎概念
2019-03-02
Node.js 系列 - 基礎概念
2018-10-14
Node.js
Dubbo入門(1) - 基礎概念
2018-05-17
IO基礎知識與概念
2024-05-12

Hadoop 基礎概念

相關文章