[hadoop]mapreduce原理簡述

風痕影默發表於2015-03-03

原文網址 : https://www.cnblogs.com/fantasy01/p/4311941.html

1、用於map的輸入，先將輸入資料切分成相等的分片，為每一個分片建立一個map worker,這裡的切片大小不是隨意訂的，一般是與HDFS塊大小一致，預設是64MB，一個節點上儲存輸入資料切片的最大size就是HDFS的塊大小，當設定的切片size大於HDFS塊大小，會引起節點之間的傳輸，佔用頻寬。

2、map worker呼叫使用者編寫的map函式對每個分片進行處理，並且將處理結果輸出到本地儲存（非HDFS）

3、對map的輸出進行combiner操作，這裡的的combiner主要是減少map與reduce之間的資料傳輸量，不是必須的步驟，可以例舉一個《hadoop： the definitive guide》中的例子求最大溫度的處理。

　　Fir Map Output:

　　　　(1950, 0)

　　　　(1950, 20)

　　　　(1950, 10)

　　Sec Map Output:

　　　　(1950, 25)

　　　　(1950, 15)

在不呼叫combiner的情況下，是將map的輸出資料都將傳送到reduce那裡，在reduce處理時，將會將如下資料作為輸入：

　　　　(1950, [0, 20, 10, 25, 15])

在呼叫combiner的情況下，現在每個map本地對輸出資料進行處理(即將當前的map的最大溫度求出)，然後再傳輸給reduce,如下：

　　Fir Map Combined:

　　　　(1950, 20)

　　Sec Map Combined:

　　　　(1950, 25)

而此時reduce將會用如下資料作為輸入，從而map與reduce之間的資料傳輸量得到降低：

　　　　(1950, [20, 25])

4、將combiner處理後的資料或者map的輸出資料進行shuffle處理，所謂的shuffle處理是將資料中的記錄通過partition操作對映到reduce中，從而保證每個reduce處理的是相同key的記錄。注意partition函式可以進行自定義，也可以使用預設的partition函式，預設的partition是利用一個hash對映操作將相同key的記錄對映到相同的reduce.

5、reduce呼叫使用者定義的reduce函式對資料進行處理，輸出存入HDFS。

Hadoop 學習系列（四）之 MapReduce 原理講解
2019-03-04
Hadoop
Hadoop框架：MapReduce基本原理和入門案例
2020-11-22
Hadoop框架
MapReduce原理及簡單實現
2021-02-21
Hadoop學習——MapReduce
2019-04-06
Hadoop
hadoop_MapReduce yarn
2020-11-11
HadoopYarn
Hadoop（十四）MapReduce概述
2024-09-18
Hadoop
簡述RPC原理實現
2018-10-10
RPC
大型資料集處理之道：深入瞭解Hadoop及MapReduce原理
2023-10-13
Hadoop
Hadoop面試題之MapReduce
2021-12-23
Hadoop面試題
Hadoop 專欄 - MapReduce 入門
2021-01-21
Hadoop
html2image原理簡述
2018-03-06
HTML
MapReduce 示例：減少 Hadoop MapReduce 中的側連線
2021-09-17
Hadoop
hadoop的mapreduce串聯執行
2018-09-01
Hadoop
Hadoop（三）通過C#/python實現Hadoop MapReduce
2022-05-01
HadoopC#Python
nmap攻擊技術原理簡述
2019-08-16
ping命令的作用和原理簡述
2018-12-26
從分治演算法到 Hadoop MapReduce
2018-11-23
演算法Hadoop
Hadoop學習（二）——MapReduce\Yarn架構
2019-02-20
HadoopYarn架構
Hadoop（十九）MapReduce OutputFormat 資料壓縮
2024-09-19
HadoopORM
Hadoop面試題總結（三）——MapReduce
2021-10-16
Hadoop面試題
Hadoop的mapreduce出現問題，報錯The auxService:mapreduce_shuffle does not exist
2020-12-24
HadoopUX
MySQL兩階段提交過程原理簡述
2019-01-14
MySql
簡述大前端技術棧的渲染原理
2024-11-07
前端
Hadoop之MapReduce2架構設計
2018-05-28
Hadoop架構
談談Hadoop MapReduce和Spark MR實現
2020-07-27
HadoopSpark
hadoop之mapreduce.input.fileinputformat.split.minsize引數
2018-10-24
HadoopORM
Hadoop之MapReduce2基礎梳理及案例
2018-05-28
Hadoop
Hadoop原理之——HDFS原理
2021-09-09
Hadoop
RPA技術原理與RPA產品形態簡述
2020-04-16
直播電商原始碼，簡述直播的實現原理
2021-07-13
原始碼
Hadoop 三劍客之 —— 分散式計算框架 MapReduce
2019-06-27
Hadoop分散式框架
Hadoop學習第四天--MapReduce提交過程
2024-08-10
Hadoop
Dojo簡述
2018-07-20
CNN 簡述
2018-08-27
CNN
好程式設計師大資料培訓簡述Hadoop常見問題
2020-09-29
程式設計師大資料Hadoop
短文1：使用 php-socket 簡述 http 伺服器原理
2020-12-27
PHPHTTP伺服器
短文1.1：使用 php-socket 簡述 http 伺服器原理
2020-12-27
PHPHTTP伺服器
Spark與Hadoop MapReduce相比，有哪些優點你知道嗎？
2019-01-30
SparkHadoop
在Docker容器中使用Hadoop執行Python MapReduce作業
2022-05-12
DockerHadoopPython

[hadoop]mapreduce原理簡述

相關文章